Fudan y Meituan LongCat lanzan el benchmark interactivo de modelos de mundo WBench de código abierto

iconKuCoinFlash
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
La Universidad Fudan y Meituan LongCat han abierto el código de WBench, un benchmark para evaluar la generación de video en modelos de mundos interactivos. WBench incluye 289 casos de prueba y 1.058 rondas de interacción, con métricas de soporte y resistencia en navegación, acciones y control de punto de vista. El benchmark utiliza texto, poses de 6-DoF y acciones discretas para comparaciones de control cruzado. La evaluación incluye 22 métricas, que muestran una fuerte correlación con las calificaciones humanas. Las pruebas revelan que la precisión física y el renderizado están alineados, mientras que las capacidades de control se retrasan. El análisis de interés abierto destaca las debilidades del modelo en interacciones de múltiples rondas, con el control de navegación disminuyendo más rápidamente. HY-World 1.5 lidera en estabilidad, mientras que LingBot-World se destaca en consistencia. Las vistas en primera persona y los sujetos rígidos siguen siendo más fáciles, mientras que los sujetos no rígidos representan desafíos continuos.
ME AI Message, according to monitoring by Dongcha Beating, Fudan University and Meituan Longcat team have jointly open-sourced the interactive world model benchmark WBench, which evaluates the underlying modeling capabilities of video generation in physical rules, spatiotemporal consistency, and interactive control. The benchmark includes 289 test cases and 1,058 interaction rounds, covering first- and third-person dual perspectives, integrating navigation control, subject actions, event editing, and viewpoint switching. WBench unifies text instructions, 6-degree-of-freedom pose, and discrete action interfaces to enable cross-paradigm comparison. The evaluation system comprises 22 automatic metrics, with scoring results showing a Spearman rank correlation coefficient of at least 0.94 with human blind test win rates. Testing reveals that, compared to video quality nearing saturation, interactive control is nearly decoupled from the model’s rendering, consistency, and physics performance. Camera motion control does not guarantee subject consistency; for example, HY-World 1.5 and Matrix-Game 3.0, which excel in navigation, both face bottlenecks of subject identity loss and viewpoint drift in third-person perspective. Meanwhile, physical correctness is highly positively correlated with rendering quality but nearly uncorrelated with control capability. Open-source world models lead across multiple dimensions: HY-World 1.5 achieves the highest score in navigation control, LingBot-World tops in consistency, and Matrix-Game 3.0 ranks first in action navigation. Multi-round interactions show that all models’ performance degrades with increasing rounds, with navigation control deteriorating fastest due to accumulated spatial bias. Explicit geometric control effectively mitigates drift; for instance, HY-World 1.5 demonstrates far superior multi-round stability compared to text-driven Kling 3.0. Scene dynamics and subject rigidity form the underlying logic of benchmark difficulty: first-person, static scenes, and rigid robotic subjects are easily handled, while highly dynamic, non-rigid subjects such as animals remain a long-term industry challenge due to deformation and velocity complexity. (Source: BlockBeats)
Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.