Fudan et Meituan LongCat lancent le benchmark open-source de modèle interactif d'univers WBench

ME AI News, selon la surveillance de Beating, l'Université de Fudan et l'équipe Longcat de Meituan ont ouvert en source libre le benchmark d'interaction pour les modèles mondiaux WBench, évaluant les capacités fondamentales de modélisation en matière de règles physiques, de cohérence spatio-temporelle et de contrôle interactif dans la génération vidéo. Le benchmark comprend 289 cas de test et 1 058 rounds d'interaction, couvrant des vues en premier et troisième personne, intégrant le contrôle de navigation, les actions des entités, l'édition d'événements et le changement de perspective. WBench unifie les interfaces d'instructions textuelles, de pose à 6 degrés de liberté et d'actions discrètes pour permettre une comparaison entre différents paradigmes de contrôle. Le système d'évaluation inclut 22 indicateurs automatisés, dont les résultats présentent un coefficient de corrélation de rang Spearman d'au moins 0,94 avec les taux de victoire en tests aveugles humains. Les tests montrent que, contrairement à la qualité vidéo qui tend à saturer, le contrôle interactif et les capacités de rendu, de cohérence et physique du modèle sont presque décorrélés. Le contrôle du mouvement de la caméra ne garantit pas la cohérence des entités : par exemple, HY-World 1.5 et Matrix-Game 3.0, bien qu'excellents en navigation, rencontrent des problèmes de perte d'identité d'entité et de dérive de perspective en vue du troisième personne. Par ailleurs, la correction physique est fortement corrélée à la qualité du rendu, mais presque non corrélée à la capacité de contrôle. Les modèles mondiaux open source dominent sur plusieurs axes : HY-World 1.5 obtient le meilleur score en contrôle de navigation, LingBot-World arrive en tête en cohérence, et Matrix-Game 3.0 se classe premier en navigation par actions. Les interactions multiples révèlent que la performance de tous les modèles diminue avec le nombre de tours ; le contrôle de navigation se dégrade le plus rapidement en raison des erreurs spatiales cumulées. Le contrôle géométrique explicite atténue efficacement la dérive : par exemple, la stabilité multi-tours de HY-World 1.5 dépasse largement celle de Kling 3.0 piloté par texte. La dynamique du scénario et la rigidité des entités constituent la logique fondamentale de la difficulté du benchmark : les scénarios statiques, les vues en premier personne et les entités robotiques rigides sont faciles à gérer, tandis que les mouvements violents et les entités non rigides comme les animaux — en raison de leur déformation et de leur complexité dynamique — restent un défi persistant pour l'industrie. (Source : BlockBeats)