El artículo analiza las vías de desarrollo de los modelos del mundo en el campo de la inteligencia encarnada. Actualmente existen dos enfoques: el enfoque "sustitucionista" de Silicon Valley, que busca reemplazar completamente las VLA con WAM, y el enfoque "fusional" predominante en China, que considera los modelos del mundo como un complemento de capacidades para las VLA. El artículo señala que los modelos del mundo enfrentan tres burbujas: generalización excesiva de la definición, altas barreras de cálculo y dificultades para su implementación práctica. Se argumenta que un verdadero modelo del mundo debe integrarse en ciclos de negocio reales, ayudando a las máquinas a actuar en el mundo físico, en lugar de centrarse únicamente en lograr una realismo visual.Autor del artículo, fuente: Laboratorio A Priori
De VLA a WAM: una revolución sobrevalorada y una evolución subestimada.
En los últimos seis meses, dos oleadas de entusiasmo mediático han dominado el campo de la inteligencia encarnada. Una ocurrió en la pantalla: desde Sora hasta diversos modelos de generación de video, que mostraron su potencial con detalles como el derrame de un vaso de agua y el movimiento de personajes en espacios continuos, elevando la narrativa de “la IA recrea la realidad” a su punto más alto, mientras se escuchaban gritos de “¡llegó el modelo del mundo!”. La otra ocurrió frente a una tumba: el científico principal de investigación de NVIDIA, Jim Fan, publicó un meme en el que un WAM (World Action Model) se alza frente a una tumba de VLA (modelo visual-lenguaje-acción), declarando “¡La VLA está muerta, ¡vivan los modelos del mundo!”, llevando directamente al primer plano la disputa entre las distintas rutas. (Este artículo solo discute los modelos del mundo en inteligencia encarnada.)
Dos fiestas comparten la misma palabra clave: modelo mundial.
Pero lo paradójico es que cuanto más se habla sobre la inteligencia encarnada, más borroso se vuelve su significado: algunos llaman modelo del mundo a la generación de videos realistas, otros lo llaman modelo del mundo a la simulación de movimientos de robots, y otros aún aplican este término al entorno de simulación para vehículos autónomos. Bajo el mismo concepto, se alojan objetivos tecnológicos y demandas comerciales completamente distintos.
El mayor peligro de los modelos de mundo actual no es nunca la "definición ambigua", sino que todos están usando su aspecto más fácil de mostrar y más propenso a generar virales para definir su valor total. Cuando la exhibición de "crear mundos" supera la esencia de "usar mundos", los modelos de mundo están siendo desviados por quienes mejor cuentan historias, alejándolos del lugar donde realmente deberían estar: los escenarios físicos reales de la Physical AI.
Los modelos del mundo naturalmente requieren la capacidad de "crear mundos". Sin esas impresionantes demostraciones de generación, no habrían entrado tan rápidamente en el campo de visión del público y del capital. Pero para la industria de la Physical AI, generar un mundo siempre ha sido solo el comienzo del problema. Finalmente, el mundo debe ser controlado, verificado y corregido, convirtiéndose en un espacio de simulación y base de decisión antes de que la máquina actúe. La generación de video puede abrir la puerta a los modelos del mundo, pero no puede recorrer por sí sola el camino hacia el mundo físico real.
Nunca nos faltan nuevos conceptos ni nuevas narrativas; la inteligencia encarnada recorrerá sin duda su propio camino general. En ese momento, si este camino se llama VLA, WAM o cualquier otro nombre, quizás ya no importe en absoluto.
After all, it has been embedded in our lives.
El modelo mundial no es igual a "generar imágenes"
¿Recuerdas a Sora?
Cuando OpenAI lanzó Sora, el título del informe fue "Video generation models as world simulators", anunciando que los modelos de generación de video tenían el potencial de convertirse en una vía viable hacia un "simulador universal del mundo físico". En ese momento, Sora demostró capacidades en videos largos, como movimiento de cámara, consistencia 3D local y mantenimiento del estado de los objetos, permitiendo al público percibir por primera vez de forma intuitiva: la IA parece realmente estar aprendiendo a "construir un mundo". En comparación con el texto y las imágenes, el video se alinea naturalmente con la percepción humana intuitiva del "mundo": tiene tiempo, espacio, movimiento y cambios continuos, lo que fácilmente genera la ilusión de que el modelo ya ha dominado las leyes físicas.
Este tipo de capacidad es naturalmente adecuada para presentaciones y atrae fácilmente la atención de capital y medios. Con el tiempo, “generación de video = modelo del mundo” se convirtió en la puerta de entrada predeterminada para muchas personas.
Esto, por supuesto, no es un error. En escenarios nativamente digitales, las rutas de generación de video son soluciones inherentemente eficientes, y ya han surgido numerosas empresas unicornio. Sus productos pueden utilizarse en la industria de los videojuegos para generar escenas dinámicas en tiempo real, reduciendo así los costos artísticos y aumentando la libertad del jugador; en sectores de alto costo de prueba y error, como la aeroespacial y la manufactura de alta gama, permiten ampliar los límites de prueba y enriquecer los escenarios de simulación, lo que también tiene un valor comercial claro. En este contexto, el “mundo” generado no es una imagen destinada al espectador, sino un entorno de simulación interactivo y susceptible de prueba y error.
La verdadera malinterpretación ocurre al cruzar fronteras, cuando los modelos del mundo se encuentran con la inteligencia encarnada: mucha gente asume que, si un modelo puede generar un mundo digital continuo y realista, eso significa que comprende, predice y actúa en el mundo físico.
El jefe del Instituto de Investigación de Inteligencia Artificial de Beijing, Wang Zhongyuan, hizo un juicio muy acertado: la tecnología de generación de video, actualmente ampliamente considerada como representante de los modelos del mundo, es en esencia solo una simulación a nivel de píxeles. “Los modelos de generación de video pueden producir una manada de cerdos volando en el cielo junto con aviones, porque sus datos de entrenamiento contienen una gran cantidad de contenido de películas de ciencia ficción; su objetivo nunca ha sido replicar las leyes del mundo físico real.”
Un escenario encarnado clásico basta para ilustrar la brecha: agarrar una taza. El modelo puede generar tazas con apariencia consistente desde distintas perspectivas; esto es coherencia visual, algo que aprende de los datos de video. Pero, ¿cuál es la fricción al extender la mano y tocarla? ¿Puede el material soportar la fuerza de agarre? Cuando la taza cae sobre la mesa, ¿es porque el modelo recuerda que “las tazas suelen estar sobre la mesa” o porque realmente comprende la gravedad, la fuerza de apoyo y las restricciones de contacto? Las complejas respuestas mecánicas, los cambios de estado tras el contacto y las restricciones causales de las leyes físicas reales no pueden cubrirse con un video generado. Cuando se genera un automóvil que se mueve lateralmente y se introduce directamente en la cadena de entrenamiento de conducción autónoma sin verificación, el mundo físico real eventualmente impondrá un amargo castigo.
En otras palabras, la generación de video es una forma de modelo del mundo que ya se ha implementado en muchos escenarios, pero no es el modelo del mundo que busca la inteligencia encarnada, ni mucho menos la forma central en el contexto de la Physical AI. Definir el modelo del mundo de la inteligencia encarnada mediante efectos visuales de “crear un mundo” es, en esencia, usar una regla del mundo digital para medir problemas del mundo físico.
¿VLA está muerto? Los modelos mundiales no son una revolución, son un complemento
"VLA está muerto, WAM toma el relevo" es la narrativa más popular dentro de la industria.
Durante los últimos dos años, VLA ha sido la vía dominante en inteligencia encarnada. Sigue la idea de preentrenamiento de los grandes modelos de lenguaje, estableciendo un mapeo entre “percepción - instrucción - acción” mediante una gran cantidad de datos de teleoperación, lo que permite a los robots pasar de movimientos rígidos y repetitivos a comprender el lenguaje natural y descomponer tareas complejas. Todos los principales actores de la industria han utilizado VLA como base tecnológica central.
Sin embargo, la debilidad de VLA es muy clara: en esencia, se basa en el aprendizaje por imitación, lo que implica memoria y mapeo, pero carece de comprensión subyacente de las leyes físicas; ante nuevos escenarios o objetos no vistos en los datos, su capacidad de generalización falla rápidamente. La ruta WAM propuesta por Jim Fan aborda precisamente este punto crítico. Su lógica central consiste en pasar de la “comprensión semántica” a la “predicción física”: en lugar de generar directamente acciones, primero predice el estado futuro del mundo y luego retrocede para derivar la secuencia de acciones, lo que equivale a permitir que el robot “ensaye” mentalmente las consecuencias antes de actuar, mejorando así su capacidad de adaptación a escenarios desconocidos.
Entonces, la teoría de la revolución se propagó rápidamente: VLA es un paradigma obsoleto, y los modelos del mundo son la próxima generación de respuestas para la inteligencia encarnada. Pero en la práctica industrial real, las cosas son mucho más complejas que una simple dicotomía de "o vivo o muerto".
La industria se está dividiendo en dos rutas claras, respaldadas por diferentes filosofías tecnológicas y objetivos comerciales:
Una es la rama liderada por Silicon Valley, que representa a actores como NVIDIA y Google DeepMind, y que se apoya en una abundante capacidad de cómputo y reservas de datos para perseguir una reestructuración completa del paradigma. NVIDIA, en Cosmos 3, integra lenguaje, imágenes, video y secuencias de movimiento dentro de un mismo marco de modelo físico de IA, intentando que la generación, la simulación y la predicción de acciones ya no sean módulos aislados. El Waymo World Model, desarrollado en colaboración entre Waymo y Google DeepMind, aprovecha las capacidades del modelo Genie 3 no solo para generar escenarios de cola larga como clima raro o animales que invaden la vía, sino principalmente para hacer que estos escenarios estén controlados por acciones de conducción, disposición de la carretera y condiciones lingüísticas, con el fin de probar la reacción de los sistemas de conducción autónoma en contextos contrafácticos.
Este camino es el más ambicioso y el que mejor se ajusta a la "narrativa revolucionaria", pero tiene una barrera de entrada muy alta, y es un juego para los gigantes líderes.
Otra corriente más común en el país es la de la “fusión”. La gran mayoría de los jugadores no optaron por empezar de cero, sino que integraron el modelo del mundo como un complemento de capacidades de la VLA dentro de la arquitectura existente. En mayo de 2026, Zhifangping lanzó el modelo grande con capacidad encarnada AlphaBrain para VLA. Inspirado en el mecanismo de división de funciones del cerebro humano (“cerebro-cerebelo-tronco”), combina sistemas “rápidos y lentos” para incrustar la capacidad de “simulación” del modelo del mundo dentro de la arquitectura VLA: el sistema lento se encarga de la percepción del estado ambiental y la planificación de comportamientos de alto nivel, mientras que el sistema rápido se ocupa de la sensorialidad detallada y la retroalimentación rápida. La evaluación del fundador de Zhifangping, Guo Yandong, es directa: “El modelo del mundo y la VLA no entran en conflicto en absoluto; son simplemente una rama de una misma línea tecnológica. Si se desea realizar tareas de razonamiento más prolongadas, se necesita el modelo del mundo + VLA, o bien fusionar ambos”.
Galaxy General también ha avanzado mucho; su modelo LDA-1B, lanzado en abril de este año, realiza simultáneamente aprendizaje de estrategias, predicción física y percepción visual dentro de un marco unificado, logrando por primera vez la unificación de modelos del mundo y modelos de acción a escala industrial de mil millones de parámetros. Los resultados relacionados han sido seleccionados para la conferencia líder en robótica RSS, y los pesos del modelo junto con el código de entrenamiento ya están disponibles de forma abierta. No se centran en la disputa entre "elegir VLA o modelo del mundo", sino que adoptan un enfoque más práctico: permiten que la predicción y la ejecución compartan el mismo modelo, aprovechando lo mejor de cada uno y compensando sus debilidades.
Desde nuestra perspectiva, “reemplazar” y “fusionar” no tienen una verdad absoluta ni un error absoluto; simplemente representan diferentes elecciones en distintas etapas. VLA no morirá realmente, y los modelos del mundo no son una revolución que lo destruya todo, sino que complementan la capacidad de predicción física que más le falta a VLA. La relación final entre ambos será más probablemente una colaboración jerárquica, no una lucha a muerte. Lo que realmente determina el éxito de una ruta nunca ha sido cuán novedoso sea el concepto, sino quién pueda primero conectar eficazmente la cadena de datos, simulación y despliegue en máquinas reales, permitiendo que los robots ingresen verdaderamente a escenarios reales.
Aún no se ha implementado el modelo mundial, pero ya se ha encendido el fuego conceptual
Cuando el entusiasmo por el concepto precede a la implementación técnica, la burbuja es casi un producto inevitable. En la actual carrera de modelos mundiales, al menos ya han emergido tres burbujas que merecen atención.
La primera capa es definir la burbuja. El "modelo del mundo" de hoy se ha convertido en una cesta en la que se puede meter cualquier cosa. Yann LeCun lo considera una predicción del estado del mundo en una capa abstracta, Li Feifei lo define como una representación de espacio 3D interactiva, NVIDIA lo posiciona como un simulador generativo de IA física, algunas startups usan generación de video como relleno, y otras simplemente renombran motores de simulación tradicionales como "modelos del mundo". En China, ya hay decenas de empresas que afirman estar desarrollando modelos del mundo, pero probablemente no se refieran a lo mismo. Cuando un concepto tecnológico puede interpretarse infinitamente, a menudo pierde su significado como medida técnica. Detrás de esta generalización de la definición hay una impulso conjunto de necesidades de financiación y narrativas de marketing, ya que llamarlo "modelo del mundo" siempre vale más que llamarlo "herramienta de generación de video" o "solución de optimización de simulación".
La segunda burbuja es la burbuja de poder de cómputo. La línea principal de entrenamiento de modelos mundiales se basa en cantidades masivas de datos de video y un poder de cómputo extremadamente alto, precisamente el terreno favorable de NVIDIA. Jensen Huang declaró abiertamente en la conferencia GTC que, para 2027, los chips Blackwell y Rubin, junto con sus sistemas complementarios diseñados para modelos de inteligencia encarnada, generarán al menos 1 billón de dólares en ingresos para NVIDIA. En cierto sentido, la impulso de los principales actores de Silicon Valley hacia la ruta del “modelo mundial universal multimodal” encaja perfectamente con la lógica comercial de NVIDIA de “vender infraestructura de poder de cómputo”. Sin embargo, el umbral de inversión para esta ruta es prácticamente ilimitado para la mayoría de las empresas: incluso los equipos medianos y pequeños que anteriormente apostaron por VLA han tenido dificultades para asumir tales costos hundidos, por no mencionar entrar desde cero en la carrera de modelos mundiales. Cuando todos discuten la misma ruta de alto poder de cómputo, pero muy pocos pueden calcular claramente la relación entre inversión y retorno, esto en sí mismo es una señal de burbuja.
La tercera y más letal es la burbuja de implementación. Todos los relatos conceptuales deben finalmente responder a la misma pregunta: ¿realmente mejora el rendimiento real? Pero la realidad es que la brecha entre simulación y realidad no desaparece automáticamente solo porque el nombre del modelo cambie de VLA a WAM. Un pequeño artefacto de penetración, antigravedad o borrosidad de límites en un video se convierte en una percepción física errónea en el entrenamiento de robots; una predicción que parece razonable pero viola las leyes físicas puede ser aún más engañosa para el robot real que no usar ningún modelo para entrenar.
El científico principal de Ant Lingbo, Shen Yujun, señaló la diferencia fundamental: los modelos generativos en el mundo digital pueden perseguir alta definición y realismo, y un poco de lentitud no importa; pero los modelos en el mundo físico deben priorizar velocidad, estabilidad y precisión, capaces de generar retroalimentación en tiempo real y respaldar acciones. Muchos equipos se centran en hacer cada vez más realistas los escenarios en el mundo digital, pero ignoran que los datos de interacción física real son el recurso más escaso. Los modelos del mundo pueden obtener excelentes métricas en simulaciones, pero mientras no hayan validado su valor real en líneas de producción fabril, almacenes logísticos o carreteras abiertas, siguen siendo exploraciones tecnológicas de laboratorio, no infraestructura a nivel industrial.
Entonces, ¿cómo debería ser el modelo del mundo para Physical AI o inteligencia encarnada? La respuesta nunca está en los videos de demostración de los lanzamientos, sino en las necesidades de los escenarios reales. Su criterio fundamental de evaluación nunca es “¿qué tan realista es el mundo generado?”, sino “¿puede ayudar a las máquinas a actuar mejor en el mundo físico?”, ¿puede reducir el costo de prueba y error, mejorar la capacidad de generalización y integrarse en ciclos de negocio reales?
Desde la práctica actual de la industria, los actores verdaderamente en el camino correcto están haciendo lo mismo: transformar los modelos del mundo de un enfoque “orientado a la presentación” a uno “orientado a la tarea”. En otras palabras, la forma final de un modelo del mundo no es un “producto” independiente, sino una capacidad básica incrustada en diversos sistemas físicos. Está oculto en los backends de simulación de la conducción autónoma, en los módulos de planificación de movimientos de los robots, y en los sistemas predictivos de las líneas de producción fabril, realizando silenciosamente las funciones de predicción, prueba y corrección. En la mayoría de los casos, los usuarios ni siquiera perciben su existencia.
Ese es el era de los modelos del mundo, aunque también podría no llamarse modelo del mundo.
