Fudan dan Meituan LongCat BENCHMARK Interaktif Model Dunia Sumber Terbuka WBench

ME AI mesej, menurut pemantauan Beating, Universiti Fudan dan pasukan Longcat Meituan telah membuka sumber secara bersama-sama benchmark model dunia interaktif WBench, yang menilai kemampuan asas model dalam menghasilkan video berdasarkan peraturan fizikal, konsistensi ruang-masa, dan kawalan interaktif. Benchmark ini mengandungi 289 kes ujian dan 1,058 pusingan interaksi, mencakupi sudut pandangan orang pertama dan ketiga, serta mengintegrasikan kawalan navigasi, tindakan subjek, penyuntingan peristiwa, dan peralihan sudut pandangan. WBench menyatukan antaramuka arahan teks, pose 6 darjah kebebasan, dan tindakan diskret untuk membolehkan perbandingan antara pelbagai paradigma kawalan. Sistem penilaian mengandungi 22 indikator automatik, dengan koefisien korelasi peringkat Spearman antara skor penilaian dan keberkesanan ujian buta manusia sekurang-kurangnya 0.94. Ujian menunjukkan bahawa, berbanding kualiti video yang hampir mencapai jenuh, kawalan interaktif, rendering, konsistensi, dan tahap fizikal model hampir bebas antara satu sama lain. Kawalan pergerakan kamera tidak menjamin konsistensi subjek; contohnya, HY-World 1.5 dan Matrix-Game 3.0 yang menunjukkan prestasi navigasi terbaik menghadapi masalah kehilangan identiti subjek dan drift sudut pandangan dalam pandangan orang ketiga. Selain itu, kebetulan fizikal berkorelasi tinggi dengan kualiti rendering, tetapi hampir tidak berkorelasi dengan kemampuan kawalan. Model dunia sumber terbuka memimpin dalam beberapa dimensi: HY-World 1.5 mencapai skor tertinggi dalam kawalan navigasi, LingBot-World menduduki tempat pertama dalam konsistensi, manakala Matrix-Game 3.0 menduduki tempat pertama dalam navigasi tindakan. Interaksi berbilang pusingan menunjukkan bahawa prestasi semua model merosot seiring dengan peningkatan bilangan pusingan, dengan kawalan navigasi mengalami penurunan paling cepat akibat kesalahan ruang yang terkumpul. Kawalan geometri eksplisit berkesan mengurangkan drift; contohnya, kestabilan jangka panjang HY-World 1.5 jauh melebihi Kling 3.0 yang digerakkan oleh teks. Dinamik latar dan kekakuan subjek membentuk logik asas kesukaran benchmark: latar statik dan subjek robotik kaku dalam pandangan orang pertama mudah dilalui, manakala subjek bukan kaku seperti haiwan yang bergerak pantas tetap menjadi cabaran jangka panjang dalam industri akibat kompleksiti perubahan bentuk dan halaju. (Sumber: BlockBeats)