Xiaomi ने OmniVoice को ओपन सोर्स किया: ओपन डेटा पर प्रशिक्षित 646-भाषाओं वाला आवाज़ क्लोनिंग मॉडल

icon MarsBit
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
Xiaomi AI Lab के Kaldi टीम ने OmniVoice को ओपन-सोर्स कर दिया है, एक जीरो-शॉट टेक्स्ट-टू-स्पीच मॉडल जो 646 भाषाओं का समर्थन करता है। यह मॉडल केवल कुछ सेकंड के संदर्भ ऑडियो का उपयोग करके आवाज़ के टिम्बर को क्लोन कर सकता है और भाषाओं के बीच काम करता है। ओपन-सोर्स डेटा पर प्रशिक्षित, यह व्यावसायिक प्रणालियों से आवाज़ की समानता और समझने योग्यता में बेहतर प्रदर्शन करता है। ऑन-चेन डेटा से पता चलता है कि AI टूल्स में रुचि बढ़ रही है, जिसमें संबंधित प्रोजेक्ट्स में ओपन इंटरेस्ट स्थिर रूप से बढ़ रहा है। यह मॉडल एकल बाइडिरेक्शनल Transformer का उपयोग करता है और तेज़ निष्पादन के लिए अनुकूलित है।

Beating Monitor के अनुसार, Xiaomi AI लैब की नई पीढ़ी की Kaldi टीम ने OmniVoice को ओपन सोर्स किया है, जो 646 भाषाओं के लिए शून्य-नमूना वॉइस क्लोनिंग TTS (टेक्स्ट टू स्पीच) मॉडल है। कुछ सेकंड के रेफरेंस ऑडियो के साथ, आप आवाज़ क्लोन कर सकते हैं—यह भाषा पार करके काम करता है: एक चीनी रिकॉर्डिंग दें, और मॉडल उसी आवाज़ में जापानी, कोरियाई या अन्य भाषाओं में बोल सकता है। कोड, वेट्स और ट्रेनिंग डेटा सभी ओपन सोर्स हैं, Apache-2.0 लाइसेंस के तहत। आर्किटेक्चर के मामले में, OmniVoice अत्यंत सरल दृष्टिकोण अपनाता है। पूरा मॉडल एकल बाइडिरेक्शनल Transformer है, जो सीधे टेक्स्ट से मल्टी-कोडबुक एकॉस्टिक टोकन (आवाज़ के डिस्क्रीट कोड) में मैप करता है, और सेमेंटिक टोकन से एकॉस्टिक टोकन में जाने की दो-चरणीय पाइपलाइन की आवश्यकता नहीं होती। इस सरल संरचना को दो महत्वपूर्ण डिज़ाइन समर्थित करते हैं: पूरे कोडबुक का रैंडम मास्किंग स्ट्रेटेजी ट्रेनिंग की दक्षता में सुधार करता है, और बड़े भाषा मॉडल के प्री-ट्रेन्ड पैरामीटर्स का उपयोग प्रारंभिक मूल्यों के रूप में किया जाता है, जिससे उच्चारण की सटीकता में सुधार होता है। इनफ़रेंस स्पीड 40x रियल-टाइम है, PyTorch पर सीधे चलाया जा सकता है, कोई अतिरिक्त ऑप्टिमाइज़ेशन की आवश्यकता नहीं। ट्रेनिंग डेटा 50 ओपन-सोर्स स्पीच डेटासेट्स से प्राप्त किया गया है, जिसे नॉइज़-रिमूवल और क्वालिटी स्क्रीनिंग के बाद 5.8 लाख घंटे हो गया। कम संसाधनों वाली भाषाओं के लिए, डायनेमिक अप-सैम्पलिंग के माध्यम से ट्रेनिंग प्रभाव सुनिश्चित किया गया है। 24 भाषाओं के परीक्षण में, OmniVoice की वॉइस समानता और समझने की क्षमता कई कमर्शियल सिस्टम्स से अधिक है। 102 भाषाओं के परीक्षण में, समझने की क्षमता सच्ची रिकॉर्डिंग के समान ya even better है। 10 घंटे से कम के डेटा के साथ प्रशिक्षित कमजोर भाषाओं में भी संश्लेषण संभव है। वॉइस क्लोनिंग के अलावा, मॉडल पाठ-आधारित कस्टमाइज़्ड साउंड (जैसे "पुरुष, मध्यम-aged, extremely low pitch" ya "महिला,युवा, Sichuan dialect") का समर्थन करता है, प्रदान किए गए नॉइज़ी रेफरेंस ऑडियो को स्वचालित रूप से कमजोर करता है, हंसी, सांसों, aur dharma symbols jaise tone indicators insert karne ka support karta hai, aur Chinese aur English ke polyphonic characters aur proper nouns ke pronunciation corrections bhi karta hai.

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।