Fudan et Meituan LongCat lancent le benchmark open-source de modèle interactif d'univers WBench
KuCoinFlash
Partager
Résumé
L'Université Fudan et Meituan LongCat ont open-sourcé WBench, un benchmark pour évaluer la génération vidéo dans les modèles de mondes interactifs. WBench comprend 289 cas de test et 1 058 rounds d'interaction, avec des métriques de support et de résistance pour la navigation, les actions et le contrôle du point de vue. Le benchmark utilise du texte, des poses 6-DoF et des actions discrètes pour des comparaisons croisées. L'évaluation inclut 22 métriques, présentant une forte corrélation avec les évaluations humaines. Les tests révèlent que la précision physique et le rendu sont alignés, tandis que les capacités de contrôle sont en retard. L'analyse de l'intérêt ouvert met en lumière les faiblesses des modèles dans les interactions multiround, avec un contrôle de navigation qui diminue le plus rapidement. HY-World 1.5 mène en termes de stabilité, tandis que LingBot-World excelle en cohérence. Les vues en première personne et les sujets rigides restent plus faciles, tandis que les sujets non rigides posent des défis persistants.
ME AI News, selon la surveillance de Beating, l'Université de Fudan et l'équipe Longcat de Meituan ont ouvert en source libre le benchmark d'interaction pour les modèles mondiaux WBench, évaluant les capacités fondamentales de modélisation en matière de règles physiques, de cohérence spatio-temporelle et de contrôle interactif dans la génération vidéo. Le benchmark comprend 289 cas de test et 1 058 rounds d'interaction, couvrant des vues en premier et troisième personne, intégrant le contrôle de navigation, les actions des entités, l'édition d'événements et le changement de perspective. WBench unifie les interfaces d'instructions textuelles, de pose à 6 degrés de liberté et d'actions discrètes pour permettre une comparaison entre différents paradigmes de contrôle. Le système d'évaluation inclut 22 indicateurs automatisés, dont les résultats présentent un coefficient de corrélation de rang Spearman d'au moins 0,94 avec les taux de victoire en tests aveugles humains. Les tests montrent que, contrairement à la qualité vidéo qui tend à saturer, le contrôle interactif et les capacités de rendu, de cohérence et physique du modèle sont presque décorrélés. Le contrôle du mouvement de la caméra ne garantit pas la cohérence des entités : par exemple, HY-World 1.5 et Matrix-Game 3.0, bien qu'excellents en navigation, rencontrent des problèmes de perte d'identité d'entité et de dérive de perspective en vue du troisième personne. Par ailleurs, la correction physique est fortement corrélée à la qualité du rendu, mais presque non corrélée à la capacité de contrôle. Les modèles mondiaux open source dominent sur plusieurs axes : HY-World 1.5 obtient le meilleur score en contrôle de navigation, LingBot-World arrive en tête en cohérence, et Matrix-Game 3.0 se classe premier en navigation par actions. Les interactions multiples révèlent que la performance de tous les modèles diminue avec le nombre de tours ; le contrôle de navigation se dégrade le plus rapidement en raison des erreurs spatiales cumulées. Le contrôle géométrique explicite atténue efficacement la dérive : par exemple, la stabilité multi-tours de HY-World 1.5 dépasse largement celle de Kling 3.0 piloté par texte. La dynamique du scénario et la rigidité des entités constituent la logique fondamentale de la difficulté du benchmark : les scénarios statiques, les vues en premier personne et les entités robotiques rigides sont faciles à gérer, tandis que les mouvements violents et les entités non rigides comme les animaux — en raison de leur déformation et de leur complexité dynamique — restent un défi persistant pour l'industrie. (Source : BlockBeats)
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.