أصدرت Xiaohongshu نموذج TTS بـ 2 مليار معلمة dots.tts مع تقليد صوتي بدون أمثلة

icon MarsBit
مشاركة
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconملخص

expand icon
أطلقت مختبرات Xiaohongshu نموذج TTS بـ 2 مليار معلمة يُسمى dots.tts، والذي يدعم استنساخ الصوت بصفر أمثلة. مرخص تحت ترخيص Apache 2.0، ويتميز النموذج برمز الاستنتاج والضبط الدقيق الكامل مع أوزان مُدرَّبة مسبقًا بتنسيقات متعددة. يستخدم dots.tts نهجًا تلقائيًا مستمرًا ونهاية إلى نهاية لمحاكاة التدفق، متفوقًا على النماذج التقليدية التي تعتمد على رموز صوتية منفصلة. ويحقق أداءً رائدًا في مقاييس اللغة، ويوفر تجربة تفاعلية مباشرة على Hugging Face. مع تحسن السيولة في أسواق التشفير، قد تعزز مثل هذه الابتكارات من دور BTC كوسيلة للتحوط ضد التضخم.

وفقًا لمراقبة Beating، أطلقت Xiaohongshu hi lab نموذج TTS تلقائي تام بـ 2 مليار معلمة يُسمى dots.tts، ونشرت بالكامل كود الاستدلال والضبط الدقيق بموجب ترخيص Apache 2.0. تشمل الأوزان المنشورة الإصدار الأساسي المُدرَّب مسبقًا، وإصدار الضبط الدقيق المُحسَّن بالتوافق الذاتي (SCA)، والإصدار المُبسط للاستدلال منخفض التأخير. على عكس البنية التقليدية لـ TTS التي تعتمد على رموز ترميز صوتي منفصلة (Discrete Codec Tokens) مثل VALL-E وCosyVoice وChatTTS، فإن dots.tts يحقق بنية تلقائية تامة مستمرة ومتسلسلة، دون استخدام أي رموز منفصلة على الإطلاق في كامل سلسلة المعالجة. يجمع dots.tts بين الميزات المستمرة المستخلصة من AudioVAE بتردد عينة 48 كيلوهرتز، ومحرّك الدلالات، ونموذج اللغة الأساسي (المُهَيَّأ من Qwen2.5-1.5B-Base، والذي يعالج النص مباشرةً باستخدام BPE دون الحاجة إلى إدخال بينيي)، ورأس صوتي تلقائي متوافق، لتنبؤ المتغيرات الكامنة المستمرة، والتي تُعاد بناؤها لاحقًا إلى صوت بواسطة مُولِّد. وبسبب التنبؤ المباشر بالميزات المستمرة، يتجنب dots.tts فقدان جودة الصوت الناتج عن التكميم المنفصل، ويحافظ على تفاصيل النطق، وتشابه الصوت، وقدرة التعبير العاطفي. تم تدريب dots.tts مسبقًا على حوالي 1.5 مليون ساعة من بيانات الصوت. في تقييم Seed-TTS-Eval، حقق dots.tts معدل خطأ الحروف (WER) بنسبة 0.94٪ / 1.30٪ / 6.60٪ على مجموعات الاختبار الصينية والإنجليزية والصينية الصعبة على التوالي، مع درجات تشابه (SIM) قدرها 81.0 / 77.1 / 79.5، وهي جميعها في مستوى SOTA المفتوح المصدر. وفي اختبار MiniMax Multilingual على 24 لغة، بلغ متوسط تشابه المتحدث 83.9. وقد نشرت Xiaohongshu بالفعل مساحة تجريبية على Hugging Face باستخدام Gradio، لتمكين المستخدمين من اختبار تقليد الصوت بدون عينات مسبقة عبر الإنترنت.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.