Xiaomi ने OmniVoice को ओपन सोर्स किया: ओपन डेटा पर प्रशिक्षित 646-भाषाओं वाला आवाज़ क्लोनिंग मॉडल

Beating Monitor के अनुसार, Xiaomi AI लैब की नई पीढ़ी की Kaldi टीम ने OmniVoice को ओपन सोर्स किया है, जो 646 भाषाओं के लिए शून्य-नमूना वॉइस क्लोनिंग TTS (टेक्स्ट टू स्पीच) मॉडल है। कुछ सेकंड के रेफरेंस ऑडियो के साथ, आप आवाज़ क्लोन कर सकते हैं—यह भाषा पार करके काम करता है: एक चीनी रिकॉर्डिंग दें, और मॉडल उसी आवाज़ में जापानी, कोरियाई या अन्य भाषाओं में बोल सकता है। कोड, वेट्स और ट्रेनिंग डेटा सभी ओपन सोर्स हैं, Apache-2.0 लाइसेंस के तहत। आर्किटेक्चर के मामले में, OmniVoice अत्यंत सरल दृष्टिकोण अपनाता है। पूरा मॉडल एकल बाइडिरेक्शनल Transformer है, जो सीधे टेक्स्ट से मल्टी-कोडबुक एकॉस्टिक टोकन (आवाज़ के डिस्क्रीट कोड) में मैप करता है, और सेमेंटिक टोकन से एकॉस्टिक टोकन में जाने की दो-चरणीय पाइपलाइन की आवश्यकता नहीं होती। इस सरल संरचना को दो महत्वपूर्ण डिज़ाइन समर्थित करते हैं: पूरे कोडबुक का रैंडम मास्किंग स्ट्रेटेजी ट्रेनिंग की दक्षता में सुधार करता है, और बड़े भाषा मॉडल के प्री-ट्रेन्ड पैरामीटर्स का उपयोग प्रारंभिक मूल्यों के रूप में किया जाता है, जिससे उच्चारण की सटीकता में सुधार होता है। इनफ़रेंस स्पीड 40x रियल-टाइम है, PyTorch पर सीधे चलाया जा सकता है, कोई अतिरिक्त ऑप्टिमाइज़ेशन की आवश्यकता नहीं। ट्रेनिंग डेटा 50 ओपन-सोर्स स्पीच डेटासेट्स से प्राप्त किया गया है, जिसे नॉइज़-रिमूवल और क्वालिटी स्क्रीनिंग के बाद 5.8 लाख घंटे हो गया। कम संसाधनों वाली भाषाओं के लिए, डायनेमिक अप-सैम्पलिंग के माध्यम से ट्रेनिंग प्रभाव सुनिश्चित किया गया है। 24 भाषाओं के परीक्षण में, OmniVoice की वॉइस समानता और समझने की क्षमता कई कमर्शियल सिस्टम्स से अधिक है। 102 भाषाओं के परीक्षण में, समझने की क्षमता सच्ची रिकॉर्डिंग के समान ya even better है। 10 घंटे से कम के डेटा के साथ प्रशिक्षित कमजोर भाषाओं में भी संश्लेषण संभव है। वॉइस क्लोनिंग के अलावा, मॉडल पाठ-आधारित कस्टमाइज़्ड साउंड (जैसे "पुरुष, मध्यम-aged, extremely low pitch" ya "महिला,युवा, Sichuan dialect") का समर्थन करता है, प्रदान किए गए नॉइज़ी रेफरेंस ऑडियो को स्वचालित रूप से कमजोर करता है, हंसी, सांसों, aur dharma symbols jaise tone indicators insert karne ka support karta hai, aur Chinese aur English ke polyphonic characters aur proper nouns ke pronunciation corrections bhi karta hai.