Fei-Fei Li publica un marco para modelos mundiales en robótica y juegos

Fei-Fei Li quiere resolver un debate que ha estado hirviendo en la comunidad de IA desde hace un tiempo: qué cuenta realmente como un “modelo del mundo” y qué es solo un generador de videos elegante con bata de laboratorio.

El profesor de Stanford y CEO de World Labs publicó “Una taxonomía funcional de los modelos mundiales” el 3 de junio de 2026, estableciendo un marco que clasifica los modelos mundiales en tres funciones distintas: renderizador, simulador y planificador. El artículo argumenta que estos tres roles forman un bucle interconectado que sustenta lo que Li denomina “inteligencia espacial”, el tipo de IA que realmente puede comprender e interactuar con entornos físicos.

Tres trabajos, un modelo

La función de representación se encarga de la generación visual. Crea representaciones visales de alta fidelidad a partir de entradas de datos. Esto es lo que realmente hacen la mayoría de los “modelos del mundo” actuales, y Li argumenta con precisión que los sistemas atrapados en este nivel no son verdaderos modelos del mundo en absoluto.

La función del simulador va más allá. No solo te muestra cómo se ve algo. Modela la física, la causa y el efecto, y la forma en que los objetos interactúan con el tiempo. Un renderizador puede mostrarte una pelota rodando hacia el borde de un acantilado. Un simulador sabe que la pelota se caerá.

Anuncio

La función del planificador utiliza la comprensión del simulador sobre cómo funciona el mundo para trazar cursos de acción. Es la diferencia entre una IA que observa una cocina y una que puede determinar cómo prepararte un sándwich sin romper todos los platos del gabinete.

Estas tres funciones no operan de forma aislada. El artículo de Li las describe como formando un bucle continuo, donde cada capacidad alimenta y refuerza a las demás. Un renderizador informa al simulador sobre el contexto visual, el simulador proporciona al planificador predicciones basadas en la física, y los objetivos del planificador moldean lo que el renderizador y el simulador necesitan priorizar.

Por qué la robótica lo necesita tanto

Li ha argumentado, incluyendo en un manifiesto anterior de noviembre de 2025, que los modelos mundiales pueden cerrar la brecha entre la simulación y la realidad. Si puedes construir una réplica digital suficientemente precisa del mundo físico, los robots pueden entrenar allí primero.

World Labs ya ha comenzado a poner esta teoría en práctica. La empresa lanzó Marble, su primer producto comercial, en noviembre de 2025. Marble genera mundos 3D persistentes y de alta fidelidad a partir de indicaciones multimodales, lo que significa que puedes describir un entorno utilizando texto, imágenes u otras entradas, y Marble crea un espacio 3D navegable a partir de esa descripción. El sistema ya se está utilizando en entornos de simulación robótica.

A diferencia de un video, que es una secuencia fija de fotogramas, los mundos de Marble mantienen una geometría y física consistentes a medida que te mueves por ellos. Un robot entrenado en un entorno de Marble puede acercarse a la misma estantería desde diferentes ángulos y encontrar los mismos objetos en las mismas posiciones.

El dinero detrás de la misión

World Labs recaudó $1 mil millones en febrero de 2026, construyendo sobre una ronda anterior de $230 millones. La lista de inversores incluye a AMD, Autodesk, NVIDIA y Fidelity.

Los $1.23 mil millones en financiamiento total colocan a World Labs en una categoría exclusiva para una startup de IA enfocada en inteligencia espacial, en lugar de la carrera de modelos de lenguaje masivo que ha dominado los titulares.