Fudan dan Meituan LongCat BENCHMARK Interaktif Model Dunia Sumber Terbuka WBench

iconKuCoinFlash
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Universiti Fudan dan Meituan LongCat telah membuka sumber WBench, satu tolok untuk menilai penghasilan video dalam model dunia interaktif. WBench memiliki 289 kes ujian dan 1,058 pusingan interaksi, dengan sokongan dan rintangan metric meliputi navigasi, tindakan, dan kawalan sudut pandangan. Tolok ini menggunakan teks, pose 6-DoF, dan tindakan diskret untuk perbandingan silang. Penilaian mencakup 22 metric, yang menunjukkan korelasi kuat dengan penilaian manusia. Pengujian menunjukkan bahawa ketepatan fizikal dan pemprosesan visual sejajar, manakala kemampuan kawalan tertinggal. Analisis minat terbuka menggarisbawahi kelemahan model dalam interaksi berbilang pusingan, dengan kawalan navigasi yang menurun paling cepat. HY-World 1.5 memimpin dalam kestabilan, manakala LingBot-World unggul dalam konsistensi. Pandangan dari sudut orang pertama dan subjek tegar masih lebih mudah, manakala subjek tidak tegar masih menjadi cabaran berterusan.
ME AI mesej, menurut pemantauan Beating, Universiti Fudan dan pasukan Longcat Meituan telah membuka sumber secara bersama-sama benchmark model dunia interaktif WBench, yang menilai kemampuan asas model dalam menghasilkan video berdasarkan peraturan fizikal, konsistensi ruang-masa, dan kawalan interaktif. Benchmark ini mengandungi 289 kes ujian dan 1,058 pusingan interaksi, mencakupi sudut pandangan orang pertama dan ketiga, serta mengintegrasikan kawalan navigasi, tindakan subjek, penyuntingan peristiwa, dan peralihan sudut pandangan. WBench menyatukan antaramuka arahan teks, pose 6 darjah kebebasan, dan tindakan diskret untuk membolehkan perbandingan antara pelbagai paradigma kawalan. Sistem penilaian mengandungi 22 indikator automatik, dengan koefisien korelasi peringkat Spearman antara skor penilaian dan keberkesanan ujian buta manusia sekurang-kurangnya 0.94. Ujian menunjukkan bahawa, berbanding kualiti video yang hampir mencapai jenuh, kawalan interaktif, rendering, konsistensi, dan tahap fizikal model hampir bebas antara satu sama lain. Kawalan pergerakan kamera tidak menjamin konsistensi subjek; contohnya, HY-World 1.5 dan Matrix-Game 3.0 yang menunjukkan prestasi navigasi terbaik menghadapi masalah kehilangan identiti subjek dan drift sudut pandangan dalam pandangan orang ketiga. Selain itu, kebetulan fizikal berkorelasi tinggi dengan kualiti rendering, tetapi hampir tidak berkorelasi dengan kemampuan kawalan. Model dunia sumber terbuka memimpin dalam beberapa dimensi: HY-World 1.5 mencapai skor tertinggi dalam kawalan navigasi, LingBot-World menduduki tempat pertama dalam konsistensi, manakala Matrix-Game 3.0 menduduki tempat pertama dalam navigasi tindakan. Interaksi berbilang pusingan menunjukkan bahawa prestasi semua model merosot seiring dengan peningkatan bilangan pusingan, dengan kawalan navigasi mengalami penurunan paling cepat akibat kesalahan ruang yang terkumpul. Kawalan geometri eksplisit berkesan mengurangkan drift; contohnya, kestabilan jangka panjang HY-World 1.5 jauh melebihi Kling 3.0 yang digerakkan oleh teks. Dinamik latar dan kekakuan subjek membentuk logik asas kesukaran benchmark: latar statik dan subjek robotik kaku dalam pandangan orang pertama mudah dilalui, manakala subjek bukan kaku seperti haiwan yang bergerak pantas tetap menjadi cabaran jangka panjang dalam industri akibat kompleksiti perubahan bentuk dan halaju. (Sumber: BlockBeats)
Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.