Menurut pemantauan Beating, tim Kaldi generasi baru dari Xiaomi AI Lab melepaskan OmniVoice, model TTS (text-to-speech) zero-shot voice cloning yang mendukung 646 bahasa. Dengan hanya beberapa detik audio referensi, model ini dapat meniru suara, bahkan lintas bahasa: berikan rekaman bahasa Mandarin, model dapat mengucapkan bahasa Jepang, Korea, atau bahasa lain dengan suara yang sama. Kode, bobot, dan data pelatihan semuanya terbuka di bawah lisensi Apache-2.0. Secara arsitektur, OmniVoice mengadopsi pendekatan minimalis. Seluruh model hanya terdiri dari satu Transformer bersifat bidireksional yang secara langsung memetakan teks ke token akustik multi-codebook (kode diskret suara), tanpa memerlukan pipeline dua tahap yang mengubah teks menjadi token semantik terlebih dahulu, lalu ke token akustik. Dua desain kunci mendukung struktur sederhana ini: strategi masking acak seluruh codebook meningkatkan efisiensi pelatihan, sementara inisialisasi parameter dari model bahasa besar meningkatkan akurasi pengucapan. Kecepatan inferensi mencapai 40 kali real-time, dapat dijalankan langsung di PyTorch tanpa optimasi tambahan. Data pelatihan berasal sepenuhnya dari 50 dataset suara open-source, yang setelah proses pengurangan noise dan pemilihan kualitas mencapai total 580.000 jam. Bahasa dengan sumber daya rendah menggunakan dynamic upsampling untuk memastikan efektivitas pelatihan. Dalam pengujian terhadap 24 bahasa, OmniVoice unggul dalam kesamaan suara dan kejelasan dibandingkan berbagai sistem komersial. Dalam pengujian terhadap 102 bahasa, kejelasannya mendekati atau bahkan lebih baik daripada rekaman asli. Bahasa dengan kurang dari 10 jam data pelatihan pun tetap dapat dihasilkan. Selain voice cloning, model ini juga mendukung penyesuaian suara berdasarkan deskripsi teks (misalnya, "laki-laki, paruh baya, nada sangat rendah" atau "perempuan, muda, logat Sichuan"), penurunan noise otomatis pada audio referensi berisik, penyisipan simbol intonasi seperti tawa dan desisan, serta koreksi pengucapan kata polisemis dan nama proper dalam bahasa Mandarin dan Inggris.
Xiaomi Melepaskan OmniVoice Secara Terbuka: Model Kloning Suara 646 Bahasa yang Dilatih dengan Data Terbuka
MarsBitBagikan






Tim Kaldi dari Xiaomi AI Lab telah melepaskan OmniVoice, model text-to-speech zero-shot yang mendukung 646 bahasa. Model ini dapat meniru timbre suara hanya dengan beberapa detik audio referensi dan berfungsi lintas bahasa. Dilatih dengan data sumber terbuka, model ini unggul dibanding sistem komersial dalam kesamaan suara dan kejelasan. Data on-chain menunjukkan meningkatnya minat terhadap alat AI, dengan open interest pada proyek terkait yang terus meningkat. Model ini menggunakan satu Transformer bidireksional dan dioptimalkan untuk inferensi cepat.
Sumber:Tampilkan versi asli
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.