Xiaomi Melepaskan OmniVoice Secara Terbuka: Model Kloning Suara 646 Bahasa yang Dilatih dengan Data Terbuka

Menurut pemantauan Beating, tim Kaldi generasi baru dari Xiaomi AI Lab melepaskan OmniVoice, model TTS (text-to-speech) zero-shot voice cloning yang mendukung 646 bahasa. Dengan hanya beberapa detik audio referensi, model ini dapat meniru suara, bahkan lintas bahasa: berikan rekaman bahasa Mandarin, model dapat mengucapkan bahasa Jepang, Korea, atau bahasa lain dengan suara yang sama. Kode, bobot, dan data pelatihan semuanya terbuka di bawah lisensi Apache-2.0. Secara arsitektur, OmniVoice mengadopsi pendekatan minimalis. Seluruh model hanya terdiri dari satu Transformer bersifat bidireksional yang secara langsung memetakan teks ke token akustik multi-codebook (kode diskret suara), tanpa memerlukan pipeline dua tahap yang mengubah teks menjadi token semantik terlebih dahulu, lalu ke token akustik. Dua desain kunci mendukung struktur sederhana ini: strategi masking acak seluruh codebook meningkatkan efisiensi pelatihan, sementara inisialisasi parameter dari model bahasa besar meningkatkan akurasi pengucapan. Kecepatan inferensi mencapai 40 kali real-time, dapat dijalankan langsung di PyTorch tanpa optimasi tambahan. Data pelatihan berasal sepenuhnya dari 50 dataset suara open-source, yang setelah proses pengurangan noise dan pemilihan kualitas mencapai total 580.000 jam. Bahasa dengan sumber daya rendah menggunakan dynamic upsampling untuk memastikan efektivitas pelatihan. Dalam pengujian terhadap 24 bahasa, OmniVoice unggul dalam kesamaan suara dan kejelasan dibandingkan berbagai sistem komersial. Dalam pengujian terhadap 102 bahasa, kejelasannya mendekati atau bahkan lebih baik daripada rekaman asli. Bahasa dengan kurang dari 10 jam data pelatihan pun tetap dapat dihasilkan. Selain voice cloning, model ini juga mendukung penyesuaian suara berdasarkan deskripsi teks (misalnya, "laki-laki, paruh baya, nada sangat rendah" atau "perempuan, muda, logat Sichuan"), penurunan noise otomatis pada audio referensi berisik, penyisipan simbol intonasi seperti tawa dan desisan, serta koreksi pengucapan kata polisemis dan nama proper dalam bahasa Mandarin dan Inggris.