Xiaohongshu Membuka Sumber Model TTS 2B Parameter dots.tts dengan Voice Cloning Zero-Shot

Menurut pemantauan Beating, Xiaohongshu hi lab telah melepaskan model TTS autoregresif end-to-end dengan 2 miliar parameter bernama dots.tts, serta merilis lengkap kode inferensi dan fine-tuning di bawah lisensi Apache 2.0. Bobot yang dirilis mencakup versi pra-pelatihan dasar, versi fine-tuning Self-Correction Alignment (SCA), dan versi distilasi inferensi latensi rendah. Berbeda dengan arsitektur TTS tradisional yang bergantung pada Token codec diskret (seperti VALL-E, CosyVoice, ChatTTS, dll), dots.tts menerapkan arsitektur autoregresif aliran kontinu penuh tanpa menggunakan token diskret sama sekali dalam seluruh pipeline. dots.tts menggabungkan fitur kontinu yang diekstrak dari AudioVAE dengan sampling rate 48 kHz, semantic encoder, backbone language model (diinisialisasi dari Qwen2.5-1.5B-Base, yang langsung memproses teks BPE tanpa memerlukan input pinyin), dan acoustic head autoregresif aliran matching untuk memprediksi variabel laten kontinu, yang kemudian direkonstruksi menjadi audio oleh generator. Karena secara langsung memprediksi fitur kontinu, dots.tts menghindari kehilangan kualitas suara akibat kuantisasi diskret, sehingga mempertahankan detail pengucapan, kesamaan timbre, dan ekspresi emosional. dots.tts dilatih secara pra-pelatihan menggunakan sekitar 1,5 juta jam data suara. Dalam evaluasi Seed-TTS-Eval, dots.tts mencapai Word Error Rate (WER) sebesar 0,94% / 1,30% / 6,60% untuk bahasa Mandarin, Inggris, dan set uji Mandarin sulit, serta skor kesamaan (SIM) sebesar 81,0 / 77,1 / 79,5—semuanya mencapai level SOTA open-source. Dalam benchmark MiniMax Multilingual dengan 24 bahasa, rata-rata kesamaan pembicara mencapai 83,9. Xiaohongshu telah menyediakan ruang pengalaman Gradio di Hugging Face untuk pengguna menguji kloning suara zero-shot secara daring.