Berdasarkan pemantauan Beating, Xiaohongshu hi lab telah melepaskan model TTS autoregresif end-to-end 2 miliar parameter bernama dots.tts, serta mempublikasikan sepenuhnya kod inferensi dan penyesuaian halus di bawah lesen Apache 2.0. Bobot yang diterbitkan termasuk versi pra-latihan asas, versi penyesuaian halus Self-Correction Alignment (SCA), dan versi distilasi inferensi latensi rendah. Berbeza dengan arsitektur TTS tradisional yang bergantung pada Token codec diskret (seperti VALL-E, CosyVoice, ChatTTS, dsb.), dots.tts mewujudkan arsitektur autoregresif aliran selanjar sepenuhnya tanpa menggunakan sebarang Token diskret dalam keseluruhan saluran. dots.tts menggabungkan ciri selanjar yang diekstrak dari AudioVAE pada kadar sampel 48 kHz dengan encoder semantik, model bahasa utama (dipermula dengan Qwen2.5-1.5B-Base, yang secara langsung memproses teks BPE tanpa memerlukan input pinyin), dan kepala akustik aliran autoregresif untuk meramal pemboleh ubah laten selanjar, yang kemudian digunakan oleh generator untuk membina semula audio. Dengan meramal ciri selanjar secara langsung, dots.tts mengelakkan kehilangan kualiti suara akibat pengkuantisaan diskret, sambil mempertahankan butiran pengucapan, kesamaan warna suara, dan ekspresi emosi. dots.tts dilatih secara pra-sebelumnya menggunakan kira-kira 1.5 juta jam data suara. Dalam penilaian Seed-TTS-Eval, dots.tts mencapai tingkat kesalahan kata (WER) sebanyak 0.94% / 1.30% / 6.60% untuk bahasa Cina, Inggeris, dan set ujian Cina sukar masing-masing, dengan skor kesamaan (SIM) sebanyak 81.0 / 77.1 / 79.5, semua mencapai tahap SOTA terbuka. Dalam ujian benchmark MiniMax Multilingual untuk 24 bahasa, rata-rata kesamaan pembicara mencapai 83.9. Xiaohongshu telah menyediakan ruang ujian Gradio di Hugging Face untuk pengguna menguji kloning suara tanpa sampel secara dalam talian.
Xiaohongshu membuka sumber model TTS 2B parameter dots.tts dengan pengklonan suara tanpa contoh
MarsBitKongsi






Lab hi Xiaohongshu telah membuka sumber model TTS 2 bilion parameter bernama dots.tts, yang menyokong peniruan suara zero-shot. Dilisensikan di bawah Apache 2.0, model ini menawarkan kod inferens dan penyesuaian halus penuh dengan berat pra-dilatih dalam pelbagai format. dots.tts menggunakan pendekatan aliran autoregresif end-to-end berterusan, melebihi model tradisional yang bergantung kepada token audio diskret. Model ini mencapai prestasi teratas dalam tolok bahasa dan menawarkan demo langsung di Hugging Face. Dengan peningkatan likuiditi di pasaran kripto, inovasi seperti ini mungkin memperkuat BTC sebagai alat perlindungan terhadap inflasi.
Sumber:Tunjukkan artikel asal
Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini.
Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.