Xiaohongshu ने 2B पैरामीटर TTS मॉडल dots.tts को ओपन सोर्स किया है, जिसमें जीरो-शॉट वॉइस क्लोनिंग की सुविधा है

icon MarsBit
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
शियाओहोंगशु के HI लैब ने 2B पैरामीटर का TTS मॉडल, dots.tts को ओपन-सोर्स किया है, जो जीरो-शॉट आवाज़ क्लोनिंग को सपोर्ट करता है। Apache 2.0 के तहत लाइसेंस प्राप्त, यह मॉडल विभिन्न फॉर्मेट्स में प्री-ट्रेन्ड वेट्स के साथ पूर्ण निष्पादन और फाइन-ट्यूनिंग कोड प्रदान करता है। dots.tts एक निरंतर, एंड-टू-एंड ऑटोरिग्रेसिव फ्लो मैचिंग दृष्टिकोण का उपयोग करता है, जो अपने डिस्क्रीट ऑडियो टोकन पर निर्भर करने वाले पारंपरिक मॉडलों को पार करता है। यह भाषा बेंचमार्क में शीर्ष प्रदर्शन प्राप्त करता है और Hugging Face पर एक लाइव डेमो प्रदान करता है। क्रिप्टो बाजारों में सुधारित तरलता के साथ, ऐसे नवाचार BTC को मुद्रास्फीति के खिलाफ हेज के रूप में मजबूत कर सकते हैं।

Beating Monitor के अनुसार, Xiaohongshu hi lab ने 20 बिलियन पैरामीटर वाला एंड-टू-एंड ऑटोरिग्रेसिव टेक्स्ट-टू-स्पीच (TTS) मॉडल dots.tts ओपन सोर्स किया है और पूर्ण इन्फरेंस और फाइन-ट्यूनिंग कोड को Apache 2.0 लाइसेंस के तहत पब्लिश किया है। पब्लिश किए गए वेट्स में बेस प्री-ट्रेन्ड वर्जन, सेल्फ-करेक्शन अलाइनमेंट (SCA) फाइन-ट्यून्ड वर्जन और लो-लेटेंसी इन्फरेंस डिस्टिलेशन वर्जन शामिल हैं। पारंपरिक TTS आर्किटेक्चर (जैसे VALL-E, CosyVoice, ChatTTS आदि), जो डिस्क्रीट ऑडियो कोडेक टोकन के साथ निर्भर होते हैं, के विपरीत, dots.tts एक पूरी तरह से सतत, एंड-टू-एंड ऑटोरिग्रेसिव फ्लो मैचिंग आर्किटेक्चर को लागू करता है, जिसमें किसी भी डिस्क्रीट टोकन का उपयोग नहीं किया जाता। dots.tts 48 kHz सैम्पलिंग रेट के AudioVAE से निकाले गए सतत फीचर्स, सेमेंटिक एंकोडर, बॉनी लैंग्वेज मॉडल (Qwen2.5-1.5B-Base से प्रारंभिककृत, BPE टेक्स्ट को सीधे प्रोसेस करता है, पिनयिन इनपुट की आवश्यकता नहीं), और ऑटोरिग्रेसिव फ्लो मैचिंग एकूस्टिक हेड को मिलाकर सतत लेटेंट वेरिएबल्स का पूर्वानुमान करता है, जिन्हें जनरेटर द्वारा ऑडियो में पुनः संरचित किया जाता है। सतत फीचर्स के सीधे पूर्वानुमान के कारण, dots.tts डिस्क्रीट क्वांटाइज़ेशन से होने वाली ध्वनि गुणवत्ता में कमी से बचता है, और उच्चारण के विवरण, स्वर की समानता, और भावनात्मक प्रदर्शन को बनाए रखता है। dots.tts को लगभग 1.5 मिलियन घंटे के वॉइस डेटा पर प्री-ट्रेन किया गया है। Seed-TTS-Eval मूल्यांकन में, dots.tts का हिंदी, अंग्रेजी और हिंदी कठिन परीक्षण सेट पर शब्द त्रुटि दर (WER) क्रमशः 0.94% / 1.30% / 6.60% है, समानता स्कोर (SIM) 81.0 / 77.1 / 79.5 है, जो सभी मामलों में ओपन सोर्स SOTA स्तर पर पहुँचता है। MiniMax Multilingual बेंचमार्क में 24 भाषाओं पर, औसत स्पीकर समानता 83.9 है। Xiaohongshu ने Hugging Face पर Gradio प्रयोग स्थान प्रदान किया है, जहाँ उपयोगकर्ता जीरो-शॉट साउंड क्लोनिंग का परीक्षण कर सकते हैं।

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।