أصدرت Xiaohongshu نموذج TTS بـ 2 مليار معلمة dots.tts مع تقليد صوتي بدون أمثلة

وفقًا لمراقبة Beating، أطلقت Xiaohongshu hi lab نموذج TTS تلقائي تام بـ 2 مليار معلمة يُسمى dots.tts، ونشرت بالكامل كود الاستدلال والضبط الدقيق بموجب ترخيص Apache 2.0. تشمل الأوزان المنشورة الإصدار الأساسي المُدرَّب مسبقًا، وإصدار الضبط الدقيق المُحسَّن بالتوافق الذاتي (SCA)، والإصدار المُبسط للاستدلال منخفض التأخير. على عكس البنية التقليدية لـ TTS التي تعتمد على رموز ترميز صوتي منفصلة (Discrete Codec Tokens) مثل VALL-E وCosyVoice وChatTTS، فإن dots.tts يحقق بنية تلقائية تامة مستمرة ومتسلسلة، دون استخدام أي رموز منفصلة على الإطلاق في كامل سلسلة المعالجة. يجمع dots.tts بين الميزات المستمرة المستخلصة من AudioVAE بتردد عينة 48 كيلوهرتز، ومحرّك الدلالات، ونموذج اللغة الأساسي (المُهَيَّأ من Qwen2.5-1.5B-Base، والذي يعالج النص مباشرةً باستخدام BPE دون الحاجة إلى إدخال بينيي)، ورأس صوتي تلقائي متوافق، لتنبؤ المتغيرات الكامنة المستمرة، والتي تُعاد بناؤها لاحقًا إلى صوت بواسطة مُولِّد. وبسبب التنبؤ المباشر بالميزات المستمرة، يتجنب dots.tts فقدان جودة الصوت الناتج عن التكميم المنفصل، ويحافظ على تفاصيل النطق، وتشابه الصوت، وقدرة التعبير العاطفي. تم تدريب dots.tts مسبقًا على حوالي 1.5 مليون ساعة من بيانات الصوت. في تقييم Seed-TTS-Eval، حقق dots.tts معدل خطأ الحروف (WER) بنسبة 0.94٪ / 1.30٪ / 6.60٪ على مجموعات الاختبار الصينية والإنجليزية والصينية الصعبة على التوالي، مع درجات تشابه (SIM) قدرها 81.0 / 77.1 / 79.5، وهي جميعها في مستوى SOTA المفتوح المصدر. وفي اختبار MiniMax Multilingual على 24 لغة، بلغ متوسط تشابه المتحدث 83.9. وقد نشرت Xiaohongshu بالفعل مساحة تجريبية على Hugging Face باستخدام Gradio، لتمكين المستخدمين من اختبار تقليد الصوت بدون عينات مسبقة عبر الإنترنت.