Xiaohongshu membuka sumber model TTS 2B parameter dots.tts dengan pengklonan suara tanpa contoh

Berdasarkan pemantauan Beating, Xiaohongshu hi lab telah melepaskan model TTS autoregresif end-to-end 2 miliar parameter bernama dots.tts, serta mempublikasikan sepenuhnya kod inferensi dan penyesuaian halus di bawah lesen Apache 2.0. Bobot yang diterbitkan termasuk versi pra-latihan asas, versi penyesuaian halus Self-Correction Alignment (SCA), dan versi distilasi inferensi latensi rendah. Berbeza dengan arsitektur TTS tradisional yang bergantung pada Token codec diskret (seperti VALL-E, CosyVoice, ChatTTS, dsb.), dots.tts mewujudkan arsitektur autoregresif aliran selanjar sepenuhnya tanpa menggunakan sebarang Token diskret dalam keseluruhan saluran. dots.tts menggabungkan ciri selanjar yang diekstrak dari AudioVAE pada kadar sampel 48 kHz dengan encoder semantik, model bahasa utama (dipermula dengan Qwen2.5-1.5B-Base, yang secara langsung memproses teks BPE tanpa memerlukan input pinyin), dan kepala akustik aliran autoregresif untuk meramal pemboleh ubah laten selanjar, yang kemudian digunakan oleh generator untuk membina semula audio. Dengan meramal ciri selanjar secara langsung, dots.tts mengelakkan kehilangan kualiti suara akibat pengkuantisaan diskret, sambil mempertahankan butiran pengucapan, kesamaan warna suara, dan ekspresi emosi. dots.tts dilatih secara pra-sebelumnya menggunakan kira-kira 1.5 juta jam data suara. Dalam penilaian Seed-TTS-Eval, dots.tts mencapai tingkat kesalahan kata (WER) sebanyak 0.94% / 1.30% / 6.60% untuk bahasa Cina, Inggeris, dan set ujian Cina sukar masing-masing, dengan skor kesamaan (SIM) sebanyak 81.0 / 77.1 / 79.5, semua mencapai tahap SOTA terbuka. Dalam ujian benchmark MiniMax Multilingual untuk 24 bahasa, rata-rata kesamaan pembicara mencapai 83.9. Xiaohongshu telah menyediakan ruang ujian Gradio di Hugging Face untuk pengguna menguji kloning suara tanpa sampel secara dalam talian.