Fudan dan Meituan LongCat Merilis Benchmark Model Dunia Interaktif Sumber Terbuka WBench

iconKuCoinFlash
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Universitas Fudan dan Meituan LongCat telah melepaskan WBench, sebuah benchmark untuk mengevaluasi generasi video dalam model dunia interaktif. WBench mencakup 289 kasus uji dan 1.058 putaran interaksi, dengan metrik support dan resistance di bidang navigasi, tindakan, dan kontrol sudut pandang. Benchmark ini menggunakan teks, pose 6-DoF, dan tindakan diskret untuk perbandingan lintas-kontrol. Evaluasi mencakup 22 metrik, yang menunjukkan korelasi kuat dengan peringkat manusia. Pengujian mengungkapkan bahwa akurasi fisik dan rendering selaras, sementara kemampuan kontrol tertinggal. Analisis open interest menyoroti kelemahan model dalam interaksi multi-putaran, dengan kontrol navigasi yang menurun paling cepat. HY-World 1.5 memimpin dalam stabilitas, sementara LingBot-World unggul dalam konsistensi. Pandangan sudut orang pertama dan subjek kaku tetap lebih mudah, sementara subjek non-kaku tetap menjadi tantangan berkelanjutan.
ME AI Berita, menurut pemantauan Beating, tim Fudan University dan Meituan Longcat secara bersama-sama membuka sumber model dunia interaktif WBench, yang mengevaluasi kemampuan dasar pemodelan dalam aturan fisika, konsistensi spasial-waktu, dan kontrol interaktif pada generasi video. Benchmark ini mencakup 289 kasus uji dan 1.058 putaran interaksi, dengan dua sudut pandang — first-person dan third-person — serta mengintegrasikan kontrol navigasi, aksi subjek, pengeditan peristiwa, dan perubahan sudut pandang. WBench menyatukan antarmuka instruksi teks, pose 6 derajat kebebasan, dan tindakan diskret untuk memungkinkan perbandingan lintas paradigma kontrol. Sistem evaluasi mencakup 22 indikator otomatis, dengan koefisien korelasi peringkat Spearman antara skor otomatis dan kemenangan uji buta manusia minimal mencapai 0,94. Pengujian menunjukkan bahwa, dibandingkan kualitas video yang cenderung jenuh, kontrol interaktif dan kemampuan rendering, konsistensi, serta fisika model hampir terpisah. Kontrol gerak kamera tidak menjamin konsistensi subjek; misalnya, HY-World 1.5 dan Matrix-Game 3.0 yang unggul dalam navigasi mengalami kehilangan identitas subjek dan drift sudut pandang dalam tampilan third-person. Selain itu, kebenaran fisika sangat berkorelasi positif dengan kualitas rendering, tetapi hampir tidak berkorelasi dengan kemampuan kontrol. Model dunia open-source memimpin di beberapa dimensi: HY-World 1.5 memperoleh skor tertinggi dalam kontrol navigasi, LingBot-World memimpin dalam konsistensi, dan Matrix-Game 3.0 menduduki peringkat pertama dalam navigasi aksi. Interaksi multi-putaran menunjukkan bahwa kinerja semua model menurun seiring peningkatan jumlah putaran, dengan kontrol navigasi yang paling cepat terdegradasi akibat bias spasial akumulatif. Kontrol geometri eksplisit secara efektif mengurangi drift; misalnya, stabilitas multi-putaran HY-World 1.5 jauh melampaui Kling 3.0 yang didorong teks. Dinamika adegan dan rigiditas subjek membentuk logika dasar tingkat kesulitan benchmark: skenario first-person, statis, dan subjek robot rigid mudah dijalankan, sementara subjek non-rigid seperti hewan dengan gerakan intensif menghadapi tantangan jangka panjang karena kompleksitas deformasi dan kecepatan. (Sumber: BlockBeats)
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.