Xiaomi Membuka Sumber Kerangka Kerja Penghasilan Bunyi Video ControlFoley

iconKuCoinFlash
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Pasukan model besar Xiaomi melepaskan kerangka penghasilan bunyi video ControlFoley pada 29 Mei. Model ini menyokong input visual, petunjuk teks, atau audio rujukan untuk kawalan gaya bunyi. Ia menggunakan strategi pemisahan masa-pitch dan encoder CAV-MAE yang dimodifikasi. Prestasinya terkemuka dalam ujian bunyi video, walaupun sedikit tertinggal dalam perbezaan KL. Pedagang yang menggunakan analisis minat terbuka mungkin mendapati perkembangan ini relevan untuk pelaburan nilai dalam kripto.

Berita ME, 29 Mei (UTC+8), menurut pemantauan Beating, pasukan aplikasi model besar Xiaomi telah melancarkan dan mengopensourcikan kerangka kerja penghasilan bunyi video, ControlFoley. Sebelum ini, pengudaraan video AI terutama bergantung pada model yang menebak bunyi berdasarkan gambar, menjadikan pencipta sukar mengawal gaya bunyi secara tepat. Fokus utama ControlFoley ialah “kawalan”: ia boleh mengudarakan bunyi berdasarkan gambar, tetapi juga menerima pernyataan teks atau audio rujukan untuk menghasilkan bunyi mengikut niat pencipta. Sebagai contoh, ia boleh menukar bunyi ketukan pintu menjadi “bunyi ketukan logam”, atau menyesuaikan bunyi gendang dengan gerakan memukul tenis, sambil mengekalkan sinkronisasi audio-visual dan kesesuaian gaya yang ditentukan. Secara asas, ControlFoley menggunakan encoder audio-visual spasial-temporal yang dimodifikasi daripada CAV-MAE, serta memperkenalkan strategi “pemisahan masa-gaya warna bunyi”, di mana masa berlakunya bunyi diserahkan kepada video, manakala gaya warna bunyi diserahkan kepada audio rujukan. Dalam penilaian tugas pelbagai yang ditetapkan dalam kertas kerja, ControlFoley mencapai tahap SOTA terbuka dalam pelbagai ujian pengudaraan video biasa. Walaupun arahan teks bertentangan kuat dengan kandungan gambar, model masih mampu menggabungkan kepatuhan teks dan sinkronisasi masa. Berbanding sistem komersial tertutup Kling-Foley, ControlFoley bersaing dalam beberapa indikator termasuk selarasan semantik, sinkronisasi, dan kualiti persepsi; namun masih terdapat jurang dalam beberapa indikator KL divergence pada Kling-Audio-Eval dan MovieGen-Audio-Bench. Semasa ini, laporan teknikal, kod, berat model, dan Demo projek telah dibuka kepada umum. (Sumber: BlockBeats)

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.