Berita ME, 29 Mei (UTC+8), menurut pemantauan Beating, tim aplikasi model besar Xiaomi telah merilis dan mengopen-source kerangka kerja generasi suara video ControlFoley. Sebelumnya, pengisian suara video AI terutama bergantung pada model yang menebak suara berdasarkan gambar, sehingga pencipta sulit mengontrol gaya suara secara tepat. Fokus utama ControlFoley adalah "kendali": ia dapat mengisi suara berdasarkan gambar, sekaligus menerima deskripsi teks atau audio referensi, sehingga suara dihasilkan sesuai keinginan pencipta. Misalnya, mengubah suara ketuk pintu menjadi "suara ketukan logam", atau menggunakan nada drum untuk menyinkronkan gerakan tenis, model ini mampu mempertahankan sinkronisasi audio-visual sekaligus menyesuaikan gaya yang ditentukan. Secara mendasar, ControlFoley menggunakan encoder audio-video spasial-waktu yang dimodifikasi dari CAV-MAE, serta memperkenalkan strategi "dekomposisi waktu-warna suara", menyerahkan waktu terjadinya suara kepada video, dan gaya warna suara kepada audio referensi. Dalam evaluasi multi-tugas yang ditetapkan dalam paper, ControlFoley mencapai level SOTA terbuka pada berbagai tes pengisian suara video biasa. Bahkan ketika perintah teks bertentangan kuat dengan konten visual, model tetap mampu memenuhi teks dan menjaga sinkronisasi waktu. Dibandingkan sistem komersial tertutup Kling-Foley, ControlFoley memiliki daya saing dalam beberapa indikator seperti kesejajaran semantik, sinkronisasi, dan kualitas persepsi; namun masih memiliki selisih pada sebagian indikator KL divergence pada Kling-Audio-Eval dan MovieGen-Audio-Bench. Saat ini, laporan teknis, kode, bobot model, dan Demo proyek telah dibuka untuk umum. (Sumber: BlockBeats)
Xiaomi Membuka Sumber Kerangka Kerja Generasi Suara Video ControlFoley
KuCoinFlashBagikan






Tim model besar Xiaomi melepaskan kerangka kerja generasi suara video ControlFoley pada 29 Mei. Model ini mendukung input visual, petunjuk teks, atau audio referensi untuk pengendalian gaya suara. Model ini menggunakan strategi dekoupling waktu-pitch dan encoder CAV-MAE yang dimodifikasi. Kinerjanya termasuk terbaik dalam uji suara video, meskipun sedikit tertinggal dalam KL divergence. Trader yang menggunakan analisis open interest mungkin menemukan perkembangan ini relevan untuk investasi bernilai di kripto.
Sumber:Tampilkan versi asli
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.