Fudan ve Meituan LongCat Açık Kaynaklı Etkileşimli Dünya Modeli Başlatma WBench

ME AI Haberi, Beating İzleme tarafından tespit edildiğine göre, Fudan Üniversitesi ve Meituan Longcat ekibi, fizik kuralları, zamansal ve mekânsal tutarlılık ile etkileşim kontrolü altındaki temel modelleme yeteneklerini değerlendirmek için etkileşimli dünya modeli benchmark'u WBench'i açık kaynak hale getirdi. Benchmark, 289 test senaryosu ve 1.058 etkileşim turu içeriyor, birinci ve üçüncü şahıs çift perspektifi kapsıyor, navigasyon kontrolü, nesne hareketleri, olay düzenlemesi ve perspektif geçişi entegre ediliyor. WBench, metin talimatları, 6 serbestlik dereceli pozisyon ve ayrık eylem arayüzlerini birleştirerek farklı kontrol paradigmaları arasında karşılaştırma sağlıyor. Değerlendirme sistemi, 22 otomatik metriği içeriyor ve puanlama sonuçları ile insanlar tarafından yapılan kör testlerdeki zafer oranları arasındaki Spearman sıralama korelasyon katsayısı en az 0,94. Testler, doyuma yaklaşan video kalitesine kıyasla etkileşim kontrolü ile modelin render, tutarlılık ve fizik seviyelerinin neredeyse bağımsız olduğunu gösteriyor. Kamera hareketi kontrolü nesne tutarlılığını garanti etmiyor; örneğin, navigasyon performansı yüksek olan HY-World 1.5 ve Matrix-Game 3.0, üçüncü şahıs perspektifinde nesne kimliği kaybı ve perspektif kayması sınırlamalarıyla karşılaşıyor. Aynı zamanda fiziksel doğruluk ile render kalitesi arasında güçlü bir pozitif ilişki var ancak kontrol yeteneğiyle neredeyse sıfır ilişki var. Açık kaynak dünya modelleri birçok boyutta önde; HY-World 1.5 navigasyon kontrolünde en yüksek puanı aldı, LingBot-World tutarlılıkta birinci oldu, Matrix-Game 3.0 ise eylem navigasyonunda birinci oldu. Çoklu etkileşimler, tüm modellerin performansının tur sayısı arttıkça düştüğünü gösteriyor; navigasyon kontrolü birikmiş mekânsal sapmalar nedeniyle en hızlı şekilde bozuluyor. Açık geometrik kontrol, kaymayı etkili bir şekilde azaltabiliyor; örneğin HY-World 1.5'in çoklu tur stabilitesi metin tabanlı Kling 3.0'dan çok daha yüksek. Sahne dinamikleri ve nesne rijitliği, benchmark'un zorluk temelini oluşturuyor; birinci şahıs, statik sahneler ve rijit robot nesneleri kolayca çalıştırılabilirken, şiddetli hareketler ve hayvanlar gibi rijit olmayan nesneler, deformasyon ve hız karmaşıklığı nedeniyle endüstride uzun süredir bir zorluk olarak kalmaktadır. (Kaynak: BlockBeats)