Beating Monitor के अनुसार, Xiaomi AI लैब की नई पीढ़ी की Kaldi टीम ने OmniVoice को ओपन सोर्स किया है, जो 646 भाषाओं के लिए शून्य-नमूना वॉइस क्लोनिंग TTS (टेक्स्ट टू स्पीच) मॉडल है। कुछ सेकंड के रेफरेंस ऑडियो के साथ, आप आवाज़ क्लोन कर सकते हैं—यह भाषा पार करके काम करता है: एक चीनी रिकॉर्डिंग दें, और मॉडल उसी आवाज़ में जापानी, कोरियाई या अन्य भाषाओं में बोल सकता है। कोड, वेट्स और ट्रेनिंग डेटा सभी ओपन सोर्स हैं, Apache-2.0 लाइसेंस के तहत। आर्किटेक्चर के मामले में, OmniVoice अत्यंत सरल दृष्टिकोण अपनाता है। पूरा मॉडल एकल बाइडिरेक्शनल Transformer है, जो सीधे टेक्स्ट से मल्टी-कोडबुक एकॉस्टिक टोकन (आवाज़ के डिस्क्रीट कोड) में मैप करता है, और सेमेंटिक टोकन से एकॉस्टिक टोकन में जाने की दो-चरणीय पाइपलाइन की आवश्यकता नहीं होती। इस सरल संरचना को दो महत्वपूर्ण डिज़ाइन समर्थित करते हैं: पूरे कोडबुक का रैंडम मास्किंग स्ट्रेटेजी ट्रेनिंग की दक्षता में सुधार करता है, और बड़े भाषा मॉडल के प्री-ट्रेन्ड पैरामीटर्स का उपयोग प्रारंभिक मूल्यों के रूप में किया जाता है, जिससे उच्चारण की सटीकता में सुधार होता है। इनफ़रेंस स्पीड 40x रियल-टाइम है, PyTorch पर सीधे चलाया जा सकता है, कोई अतिरिक्त ऑप्टिमाइज़ेशन की आवश्यकता नहीं। ट्रेनिंग डेटा 50 ओपन-सोर्स स्पीच डेटासेट्स से प्राप्त किया गया है, जिसे नॉइज़-रिमूवल और क्वालिटी स्क्रीनिंग के बाद 5.8 लाख घंटे हो गया। कम संसाधनों वाली भाषाओं के लिए, डायनेमिक अप-सैम्पलिंग के माध्यम से ट्रेनिंग प्रभाव सुनिश्चित किया गया है। 24 भाषाओं के परीक्षण में, OmniVoice की वॉइस समानता और समझने की क्षमता कई कमर्शियल सिस्टम्स से अधिक है। 102 भाषाओं के परीक्षण में, समझने की क्षमता सच्ची रिकॉर्डिंग के समान ya even better है। 10 घंटे से कम के डेटा के साथ प्रशिक्षित कमजोर भाषाओं में भी संश्लेषण संभव है। वॉइस क्लोनिंग के अलावा, मॉडल पाठ-आधारित कस्टमाइज़्ड साउंड (जैसे "पुरुष, मध्यम-aged, extremely low pitch" ya "महिला,युवा, Sichuan dialect") का समर्थन करता है, प्रदान किए गए नॉइज़ी रेफरेंस ऑडियो को स्वचालित रूप से कमजोर करता है, हंसी, सांसों, aur dharma symbols jaise tone indicators insert karne ka support karta hai, aur Chinese aur English ke polyphonic characters aur proper nouns ke pronunciation corrections bhi karta hai.
Xiaomi ने OmniVoice को ओपन सोर्स किया: ओपन डेटा पर प्रशिक्षित 646-भाषाओं वाला आवाज़ क्लोनिंग मॉडल
MarsBitसाझा करें






Xiaomi AI Lab के Kaldi टीम ने OmniVoice को ओपन-सोर्स कर दिया है, एक जीरो-शॉट टेक्स्ट-टू-स्पीच मॉडल जो 646 भाषाओं का समर्थन करता है। यह मॉडल केवल कुछ सेकंड के संदर्भ ऑडियो का उपयोग करके आवाज़ के टिम्बर को क्लोन कर सकता है और भाषाओं के बीच काम करता है। ओपन-सोर्स डेटा पर प्रशिक्षित, यह व्यावसायिक प्रणालियों से आवाज़ की समानता और समझने योग्यता में बेहतर प्रदर्शन करता है। ऑन-चेन डेटा से पता चलता है कि AI टूल्स में रुचि बढ़ रही है, जिसमें संबंधित प्रोजेक्ट्स में ओपन इंटरेस्ट स्थिर रूप से बढ़ रहा है। यह मॉडल एकल बाइडिरेक्शनल Transformer का उपयोग करता है और तेज़ निष्पादन के लिए अनुकूलित है।
स्रोत:मूल दिखाएं
डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा।
डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।