Fudan dan Meituan LongCat Merilis Benchmark Model Dunia Interaktif Sumber Terbuka WBench

ME AI Berita, menurut pemantauan Beating, tim Fudan University dan Meituan Longcat secara bersama-sama membuka sumber model dunia interaktif WBench, yang mengevaluasi kemampuan dasar pemodelan dalam aturan fisika, konsistensi spasial-waktu, dan kontrol interaktif pada generasi video. Benchmark ini mencakup 289 kasus uji dan 1.058 putaran interaksi, dengan dua sudut pandang — first-person dan third-person — serta mengintegrasikan kontrol navigasi, aksi subjek, pengeditan peristiwa, dan perubahan sudut pandang. WBench menyatukan antarmuka instruksi teks, pose 6 derajat kebebasan, dan tindakan diskret untuk memungkinkan perbandingan lintas paradigma kontrol. Sistem evaluasi mencakup 22 indikator otomatis, dengan koefisien korelasi peringkat Spearman antara skor otomatis dan kemenangan uji buta manusia minimal mencapai 0,94. Pengujian menunjukkan bahwa, dibandingkan kualitas video yang cenderung jenuh, kontrol interaktif dan kemampuan rendering, konsistensi, serta fisika model hampir terpisah. Kontrol gerak kamera tidak menjamin konsistensi subjek; misalnya, HY-World 1.5 dan Matrix-Game 3.0 yang unggul dalam navigasi mengalami kehilangan identitas subjek dan drift sudut pandang dalam tampilan third-person. Selain itu, kebenaran fisika sangat berkorelasi positif dengan kualitas rendering, tetapi hampir tidak berkorelasi dengan kemampuan kontrol. Model dunia open-source memimpin di beberapa dimensi: HY-World 1.5 memperoleh skor tertinggi dalam kontrol navigasi, LingBot-World memimpin dalam konsistensi, dan Matrix-Game 3.0 menduduki peringkat pertama dalam navigasi aksi. Interaksi multi-putaran menunjukkan bahwa kinerja semua model menurun seiring peningkatan jumlah putaran, dengan kontrol navigasi yang paling cepat terdegradasi akibat bias spasial akumulatif. Kontrol geometri eksplisit secara efektif mengurangi drift; misalnya, stabilitas multi-putaran HY-World 1.5 jauh melampaui Kling 3.0 yang didorong teks. Dinamika adegan dan rigiditas subjek membentuk logika dasar tingkat kesulitan benchmark: skenario first-person, statis, dan subjek robot rigid mudah dijalankan, sementara subjek non-rigid seperti hewan dengan gerakan intensif menghadapi tantangan jangka panjang karena kompleksitas deformasi dan kecepatan. (Sumber: BlockBeats)