El equipo de Li Fei-Fei aclara el concepto de 'Modelo Mundial', clasificando a Sora como renderizador

El 3 de junio de 2026, el equipo de World Labs y la profesora Fei-Fei Li de la Universidad de Stanford publicaron conjuntamente un artículo de análisis conceptual titulado de forma directa y casi sin adornos: “Una taxonomía funcional de los modelos del mundo”. La primera oración del artículo desafía un acuerdo tácito de la industria: “Los modelos del mundo son uno de los términos más importantes y más mal utilizados en el campo actual de la inteligencia artificial.”

Este contexto no es ajeno a nadie que haya seguido la industria de la IA.

En febrero de 2024, OpenAI lanzó el modelo de generación de video Sora, cuyo informe técnico llevaba el título: "Modelos de generación de video como simuladores del mundo". En ese momento, Jim Fan, director de robótica de NVIDIA, dejó en LinkedIn un comentario que luego se citaría repetidamente: "Sora es esencialmente un 'modelo del mundo que solo permite la inacción como única acción'". Por otro lado, según informes públicos, el equipo de IA de Tesla ha mencionado en múltiples ocasiones que el componente de predicción interno de su sistema de conducción autónoma total se denomina "modelo del mundo" o "simulador del mundo". Motores de juegos, herramientas de generación 3D, modelos de inteligencia encarnada: diversos productos y tecnologías han sido agrupados bajo la misma etiqueta.

Un generador de videos, una red de predicción para conducción autónoma, un modelo de control de robots y un motor físico: ¿qué tienen en común? Casi nada. Pero todos se llaman “modelos del mundo”.

Después de más de dos años de confusión conceptual, finalmente alguien ha intentado organizarlo sistemáticamente. El equipo de Li Fei-Fei no lanzó un nuevo modelo, no anunció un nuevo benchmark ni demostró ninguna función de producto. En su lugar, hicieron algo más fundamental: regresaron a la fuente teórica del proceso de decisión markoviano parcialmente observable y redujeron todos los sistemas comercialmente denominados “modelos del mundo” a tres proyecciones diferentes de un mismo ciclo cognitivo.

Las tres proyecciones son: renderizador, simulador y planificador. Dentro del marco de clasificación de World Labs, Sora y modelos similares de generación de video pertenecen al renderizador.

¿Cómo puede un término contener tantos significados contradictorios?

Para comprender el origen de este caos, primero se debe plantear una pregunta más básica: ¿qué significa realmente una empresa cuando dice “estamos desarrollando un modelo del mundo”?

Para OpenAI, el objetivo de Sora es "comprender y representar el mundo físico en videos". Según el informe técnico, Sora puede generar imágenes coherentes con el sentido común visual al aprender patrones estadísticos de una gran cantidad de datos de video: una taza que cae al suelo se rompe, un avión de papel que se suelta vuela, y una persona que camina alterna el movimiento de sus piernas. Estas imágenes parecen "entender la física".

Para Tesla, el "modelo del mundo" es la red neuronal en el sistema FSD que predice la trayectoria de los participantes en la vía durante los próximos segundos. Requiere generar posiciones 3D precisas, velocidad y orientación para que el módulo de planificación de ruta calcule decisiones de conducción seguras. Este modelo no necesita generar píxeles; en su lugar, genera vectores y distribuciones de probabilidad.

Para las empresas de robots, un "modelo del mundo" es el mecanismo interno de simulación que permite al brazo mecánico predecir: "Si empujo este vaso 5 centímetros hacia la izquierda, ¿se caerá?". Requiere comprender las propiedades de los objetos, la mecánica de contacto y la estabilidad, y produce una evaluación de la viabilidad de la acción.

Los objetivos de las tres categorías de empresas son completamente diferentes. Las empresas de generación de video se preocupan por la fidelidad de los píxeles, las empresas de conducción autónoma se preocupan por la precisión de la predicción del estado físico, y las empresas de robótica se preocupan por la previsibilidad de las consecuencias de los movimientos. Todas están desarrollando “modelos del mundo”, pero no están haciendo lo mismo en absoluto.

World Labs señala directamente el núcleo del problema en su artículo: estos sistemas reciben todos el mismo nombre porque realmente abordan alguna faceta de la "comprensión del mundo". Sin embargo, cada uno solo completa una etapa del ciclo cognitivo completo, pero ha sido presentado por el lenguaje de marketing, los medios de comunicación y las narrativas de capital como un modelo completo del mundo.

Otro impulsor de la confusión conceptual es la tensión inherente al propio término. La frase “modelo del mundo” lleva consigo una atribución de narrativa grandiosa; suena más evocadora que “modelo de generación de video” o “modelo de predicción de video”, y puede sustentar mejor valoraciones elevadas e historias de financiación. Cuando la capacidad técnica no puede igualar las expectativas del público, es inevitable que el concepto se convierta en una herramienta de promoción.

In the 1960s, what should a complete "world model" have been?

El marco de clasificación de World Labs se basa en una teoría aparentemente antigua: el proceso de decisión de Markov parcialmente observable.

Este marco describe un ciclo completo de interacción entre un agente y su entorno. El agente se encuentra en un estado del entorno, ejecuta una acción que cambia el estado del entorno, y a través de sensores obtiene una observación parcial; esta observación desencadena una actualización del estado interno, y el conocimiento actualizado impulsa la siguiente acción. El ciclo se repite continuamente.

Bajo este marco, las funciones completas del "modelo del mundo" deberían incluir tres etapas: generar observaciones a partir del estado (píxeles, nubes de puntos, etc., vistos por el ojo humano o recopilados por sensores), predecir el siguiente estado a partir de la acción y el estado actual (predecir cambios físicos), y generar acciones a partir de las observaciones y el objetivo (planificación de decisiones).

Los modelos de lenguaje aprenden las regularidades estadísticas de las secuencias de texto, mientras que los modelos del mundo aprenden las características estadísticas del espacio y el tiempo. Cómo la luz se refleja en diferentes superficies de materiales, cómo los objetos se mueven bajo la influencia de la gravedad, cómo se transmite la energía tras una colisión entre cuerpos rígidos: estas son las regularidades que los modelos del mundo buscan capturar.

El equipo de World Labs señala en el artículo que todos los sistemas actualmente denominados "modelos del mundo" son, en realidad, solo proyecciones de una sola etapa del ciclo completo mencionado. Algunos sistemas solo realizan la renderización "de estado a observación", otros solo realizan la inferencia de estado "de acción a siguiente estado", y algunos solo realizan la planificación "de observación a acción". Cada uno captura un arco del ciclo, pero se les etiqueta con el nombre que representa el círculo completo.

El valor de este marco de análisis radica en que proporciona un sistema de comparación que va más allá del lenguaje de marketing. Sin importar cómo una empresa envuelva su producto, al colocarlo de nuevo dentro del ciclo POMDP y observar qué entra, qué sale y qué etapas faltan, sus límites de capacidad se revelan por completo.

Límites de capacidad de los renderizadores, simuladores y planificadores

En la taxonomía de World Labs, la primera categoría se define como "renderizadores". Su objetivo central es generar salidas de píxeles de alta fidelidad orientadas a la percepción visual humana. La entrada es una representación del estado del entorno (que puede ser una descripción textual, parámetros de escena 3D o codificación implícita), y la salida es una secuencia continua de fotogramas.

La dirección de optimización del renderizador es el realismo visual, no la precisión física. El artículo de World Labs indica claramente que los edificios generados por el renderizador pueden ser “inestables”, ya que no resuelve realmente las ecuaciones de la mecánica estructural; los salpicaduras de líquido generadas pueden parecer realistas, pero el volumen del líquido, la velocidad de flujo y la fuerza de impacto pueden no corresponder en absoluto a las cantidades físicas reales. Por lo tanto, este tipo de modelos no se pueden utilizar para diseño arquitectónico, ni para entrenamiento de robots, ni para tareas que requieran simulaciones físicamente precisas.

Genie 3 de Google, diversos modelos de texto a video y casi todas las herramientas de generación de video por IA pertenecen a esta categoría. Sora también está incluido.

La segunda categoría es el "simulador". Su objetivo principal no es generar imágenes para ser vistas por humanos, sino generar estados precisos utilizables para cálculos posteriores. La entrada consiste en el estado actual del entorno y las fuerzas externas (o acciones), y la salida es el siguiente estado, fiel a las leyes físicas y geométricas del mundo real. El estado generado por el simulador puede utilizarse para análisis de esfuerzos, cálculos de consumo energético y detección de colisiones, o también como entrada para un renderizador para generar imágenes visualizables; sin embargo, su valor fundamental radica en la computabilidad del estado mismo.

NVIDIA Omniverse es un ejemplo típico de este tipo de sistemas. No es un modelo nativo de IA, sino una plataforma de gemelos digitales que combina motores físicos tradicionales con cálculo acelerado por IA. World Labs evalúa en el artículo que los simuladores son el puente entre la renderización y la planificación, pero la escasez de datos de anotación 3D físicos de alta calidad es el principal cuello de botella. Según estimaciones de World Labs en el artículo, los datos utilizados para entrenar estos modelos son varios órdenes de magnitud menores que los datos de video disponibles en Internet.

La tercera categoría es el “planificador”. Su entrada consiste en datos de observación (imágenes de cámaras, nubes de puntos de LiDAR, lecturas de sensores táctiles, etc.) y instrucciones de objetivo, y su salida es qué acción realizar a continuación. Los modelos VLA (visuales-lenguaje-acción) y los World Action Models pertenecen a esta categoría.

La diferencia entre las tres categorías no es una leve divergencia en la línea técnica, sino una división funcional fundamental. El renderizador produce píxeles para que los vea la gente, el simulador produce estados para que los calcule la máquina, y el planificador produce acciones para que las ejecute el actuador. Un sistema puede poseer simultáneamente múltiples capacidades, pero cuando la mayoría de los sistemas llamados “modelos del mundo” solo realizan renderizado, equiparar el “renderizado” con la “comprensión del mundo” es un grave desajuste cognitivo.

Una discusión que ha durado dos años: ¿Sora es realmente un modelo del mundo?

En febrero de 2024, OpenAI lanzó Sora, cuyo informe técnico llevaba como título directo “Modelos de generación de video como simuladores del mundo”. Esta terminología desató inmediatamente intensos debates en la comunidad académica y entre desarrolladores.

Los partidarios argumentan que los videos generados por Sora muestran consistencia espacial 3D, persistencia de objetos y alguna comprensión intuitiva de las interacciones físicas. Una hamburguesa mordida deja marcas de dientes, y un perro corriendo por la nieve salpica copos de nieve; estos detalles parecen indicar que el modelo ha aprendido ciertas leyes físicas.

El argumento central de los oponentes proviene de la definición clásica de un modelo del mundo en el campo del aprendizaje por refuerzo: un modelo del mundo debe ser capaz de predecir transiciones de estado en función de las acciones. Es decir, dado un estado actual y una entrada de acción, el modelo debe generar el siguiente estado después de la acción. Sora no puede hacer esto. Los usuarios no pueden decirle a Sora “empuja esa taza hacia la izquierda” y luego observar si la taza se cae, en qué dirección se cae o adónde van los fragmentos.

El comentario de Jim Fan captura con precisión esta contradicción: “Sora es esencialmente un modelo del mundo, pero solo permite acciones nulas (no-op) como única acción.” Esto significa que Sora sí predice cómo cambia el entorno con el tiempo, pero este cambio ocurre sin ninguna intervención externa, limitándose únicamente a seguir la cadena causal inherente a los datos de video. No está realizando inferencias interactivas, sino continuando secuencias de observaciones pasivas.

En el subreddit r/MachineLearning de Reddit, muchos investigadores de aprendizaje por refuerzo expresaron críticas más agudas: un sistema que no puede predecir transiciones de estado basándose en acciones no puede llamarse modelo del mundo, sino solo modelo de predicción de video.

El marco de clasificación de World Labs ofrece una respuesta definitiva a este debate. En el ciclo POMDP, las acciones son la entrada clave que impulsa la transición de estados; un sistema que carece de esta entrada es meramente una proyección del componente de "generación de observaciones" dentro del ciclo cognitivo completo. Sora es un renderizador, no un modelo del mundo completo, y mucho menos un simulador del mundo.

Pero esto no significa que Sora no tenga valor. El renderizador aborda un problema diferente: cómo generar imágenes que cumplan con las expectativas visuales humanas. Este problema en sí mismo es extremadamente difícil y tiene un enorme valor comercial. El problema radica en presentar la capacidad de renderizado como si fuera "comprensión del mundo", lo que puede llevar a los tomadores de decisiones tecnológicas y a los inversores a creer erróneamente que estos modelos ya poseen capacidad de inferencia física o interacción encarnada.

Valor de la industria de la aclaración de conceptos

Aclarar los límites de la definición de "modelo mundial" no es un ejercicio académico de análisis lingüístico. Influye directamente en la selección tecnológica, la toma de decisiones de inversión y el nivel de percepción pública sobre las capacidades de la IA.

Para una empresa manufacturera que evalúa si utilizar un “modelo del mundo” para el entrenamiento de robots, es un requisito esencial determinar si dicho modelo es un renderizador, un simulador o un planificador, a fin de evitar errores costosos de millones de dólares. Un modelo que solo genera imágenes de video, por muy realistas que sean, no puede reemplazar el cálculo preciso de las fuerzas sobre los objetos, sus trayectorias y las consecuencias de las colisiones.

Para instituciones de inversión, distinguir entre tres tipos de proyecciones permite identificar con mayor precisión la posición tecnológica de un proyecto. Una startup que se autodenomina “modelo del mundo” pero cuyo producto es esencialmente un motor de renderizado tiene como competidores a empresas de generación de video, y no a plataformas de gemelos digitales ni modelos de control robótico. Esto determina directamente la forma de estimar el tamaño del mercado y la selección de empresas comparables.

Para la comunidad académica, una clasificación clara es un prerequisito para establecer benchmarks comparables. Si el término "modelos del mundo" sigue siendo generalizado, los investigadores tendrán dificultades para definir qué constituye una mejora o un avance, y la revisión por pares se basará en ambigüedades.

World Labs también señala en el artículo que aclarar los conceptos no tiene como objetivo crear oposición. La dirección futura será la fusión de los tres tipos de proyecciones. Un modelo que comprenda verdaderamente las propiedades físicas de una taza debería poder renderizar su apariencia visual, simular el proceso físico cuando se derriba y planificar cómo un brazo robótico puede agarrarla de manera estable. Pero antes de que la tecnología alcance ese nivel, reconocer los límites de cada uno es más realista que soñar con su fusión.

Según estimaciones de World Labs en el artículo, los simuladores y las tecnologías de gemelos digitales, representados por NVIDIA Omniverse, apuntan a un mercado potencial de más de un billón de dólares en sectores como fábricas, almacenes y cadenas de suministro. Esta cifra proviene del juicio de los propios fabricantes; el momento en que el mercado alcance realmente este tamaño dependerá de si los simuladores pueden superar el cuello de botella de la escasez de datos físicos 3D de alta calidad.

Para la industria de la IA en esta etapa actual, la认知 más importante quizá sea muy sencilla: generar videos realistas no equivale a comprender el mundo físico; ser llamado modelo del mundo no significa realmente simularlo. Al trascender el lenguaje de marketing y examinar qué entradas recibe un sistema en el ciclo POMDP, qué resultados produce y qué componente le falta, se logra la forma más honesta de evaluar los límites de su capacidad técnica.