Menurut pemantauan Beating, Xiaohongshu hi lab telah melepaskan model TTS autoregresif end-to-end dengan 2 miliar parameter bernama dots.tts, serta merilis lengkap kode inferensi dan fine-tuning di bawah lisensi Apache 2.0. Bobot yang dirilis mencakup versi pra-pelatihan dasar, versi fine-tuning Self-Correction Alignment (SCA), dan versi distilasi inferensi latensi rendah. Berbeda dengan arsitektur TTS tradisional yang bergantung pada Token codec diskret (seperti VALL-E, CosyVoice, ChatTTS, dll), dots.tts menerapkan arsitektur autoregresif aliran kontinu penuh tanpa menggunakan token diskret sama sekali dalam seluruh pipeline. dots.tts menggabungkan fitur kontinu yang diekstrak dari AudioVAE dengan sampling rate 48 kHz, semantic encoder, backbone language model (diinisialisasi dari Qwen2.5-1.5B-Base, yang langsung memproses teks BPE tanpa memerlukan input pinyin), dan acoustic head autoregresif aliran matching untuk memprediksi variabel laten kontinu, yang kemudian direkonstruksi menjadi audio oleh generator. Karena secara langsung memprediksi fitur kontinu, dots.tts menghindari kehilangan kualitas suara akibat kuantisasi diskret, sehingga mempertahankan detail pengucapan, kesamaan timbre, dan ekspresi emosional. dots.tts dilatih secara pra-pelatihan menggunakan sekitar 1,5 juta jam data suara. Dalam evaluasi Seed-TTS-Eval, dots.tts mencapai Word Error Rate (WER) sebesar 0,94% / 1,30% / 6,60% untuk bahasa Mandarin, Inggris, dan set uji Mandarin sulit, serta skor kesamaan (SIM) sebesar 81,0 / 77,1 / 79,5—semuanya mencapai level SOTA open-source. Dalam benchmark MiniMax Multilingual dengan 24 bahasa, rata-rata kesamaan pembicara mencapai 83,9. Xiaohongshu telah menyediakan ruang pengalaman Gradio di Hugging Face untuk pengguna menguji kloning suara zero-shot secara daring.
Xiaohongshu Membuka Sumber Model TTS 2B Parameter dots.tts dengan Voice Cloning Zero-Shot
MarsBitBagikan






Hi lab dari Xiaohongshu telah melepaskan model TTS berparameter 2 miliar bernama dots.tts, yang mendukung cloning suara zero-shot. Dilisensikan di bawah Apache 2.0, model ini menyertakan kode inferensi dan fine-tuning lengkap dengan bobot pra-dilatih dalam beberapa format. dots.tts menggunakan pendekatan autoregresif flow matching kontinu dan end-to-end, mengungguli model tradisional yang bergantung pada token audio diskret. Model ini mencapai kinerja teratas dalam benchmark bahasa dan menawarkan demo langsung di Hugging Face. Dengan likuiditas yang meningkat di pasar kripto, inovasi semacam ini dapat memperkuat BTC sebagai lindung nilai terhadap inflasi.
Sumber:Tampilkan versi asli
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.