Xiaomi Membuka Sumber Kerangka Kerja Generasi Suara Video ControlFoley

Berita ME, 29 Mei (UTC+8), menurut pemantauan Beating, tim aplikasi model besar Xiaomi telah merilis dan mengopen-source kerangka kerja generasi suara video ControlFoley. Sebelumnya, pengisian suara video AI terutama bergantung pada model yang menebak suara berdasarkan gambar, sehingga pencipta sulit mengontrol gaya suara secara tepat. Fokus utama ControlFoley adalah "kendali": ia dapat mengisi suara berdasarkan gambar, sekaligus menerima deskripsi teks atau audio referensi, sehingga suara dihasilkan sesuai keinginan pencipta. Misalnya, mengubah suara ketuk pintu menjadi "suara ketukan logam", atau menggunakan nada drum untuk menyinkronkan gerakan tenis, model ini mampu mempertahankan sinkronisasi audio-visual sekaligus menyesuaikan gaya yang ditentukan. Secara mendasar, ControlFoley menggunakan encoder audio-video spasial-waktu yang dimodifikasi dari CAV-MAE, serta memperkenalkan strategi "dekomposisi waktu-warna suara", menyerahkan waktu terjadinya suara kepada video, dan gaya warna suara kepada audio referensi. Dalam evaluasi multi-tugas yang ditetapkan dalam paper, ControlFoley mencapai level SOTA terbuka pada berbagai tes pengisian suara video biasa. Bahkan ketika perintah teks bertentangan kuat dengan konten visual, model tetap mampu memenuhi teks dan menjaga sinkronisasi waktu. Dibandingkan sistem komersial tertutup Kling-Foley, ControlFoley memiliki daya saing dalam beberapa indikator seperti kesejajaran semantik, sinkronisasi, dan kualitas persepsi; namun masih memiliki selisih pada sebagian indikator KL divergence pada Kling-Audio-Eval dan MovieGen-Audio-Bench. Saat ini, laporan teknis, kode, bobot model, dan Demo proyek telah dibuka untuk umum. (Sumber: BlockBeats)