Autor: Matt White, Director Técnico Global de IA de la Fundación Linux
Compilado por: Felix, PANews

Wang Xingxing (CEO de Unitree Technologies) y Matt White
Hace unas semanas en Shanghái, un amigo de viaje (inteligente, que normalmente lee noticias y observa el mundo, pero no tiene mucho conocimiento sobre robótica) hizo durante la cena la pregunta que había estado esperando durante todo el viaje.
Los robot perros que vemos correr por todas partes, los humanoides que realizan kung fu en el escenario de demostración de Unitree, y los brazos mecánicos que doblan ropa: ¿cómo lo logran? ¿Están impulsados por modelos de lenguaje grandes (LLM)? ¿Cómo funciona realmente esto? ¿Existe algún modelo de lenguaje que controle sus movimientos?
Esta es una excelente pregunta, y francamente: en cierto sentido, sí, pero la historia real es mucho más interesante. Los robots que ves en las redes sociales no son ChatGPT con carcasa metálica. Operan una pila tecnológica (varias capas de IA trabajando juntas). Esta pila tecnológica ha cambiado más en los últimos tres años que en los últimos treinta. Los modelos de lenguaje son solo una parte. Los modelos visuales, los modelos de acción, los árboles de comportamiento, los bucles de control clásicos y una nueva familia de sistemas llamada “modelos del mundo” también son componentes clave. Y los “modelos del mundo” podrían ser el desarrollo más importante de todos.
Este es un artículo extenso que comenzará desde el principio y describirá paso a paso cada gran变革, hasta llegar a la etapa actual: los robots no solo pueden reaccionar al mundo, sino también imaginarlo.
Uno: La era previa a los LLM: cuando los robots aún eran solo software
Durante décadas, fabricar robots significaba escribir una gran cantidad de código, y casi todo este código no necesitaba aprenderse.
Los robots industriales clásicos son estructuras en forma de torre compuestas por módulos cuidadosamente diseñados. Por ejemplo, el brazo mecánico naranja que soldaba los chasis de Toyota en la década de 1990, o el BigDog de Boston Dynamics a principios de la década de 2000.
- Percepción: filtrar la imagen de la cámara, realizar detección de bordes y utilizar coincidencia geométrica para identificar la posición de la pieza.
- Estimación de estado: combinar codificadores de ruedas, giroscopios y acelerómetros (fusión de sensores) para determinar la posición y la velocidad de movimiento del robot.
- Planificación: Dada la postura objetivo, utilizar algoritmos como A* o RRT para calcular una ruta sin colisiones en un mapa conocido.
- Control: En el nivel más básico, el controlador PID ajusta el par del motor cientos o miles de veces por segundo para seguir esa trayectoria.
Estos niveles suelen ser escritos por diferentes personas en distintos laboratorios y ensamblados con un extremo cuidado. Los comportamientos (por ejemplo, “si la taza es roja, recógela; de lo contrario, espera”) se codifican como máquinas de estado o árboles de comportamiento: es decir, diagramas de flujo que el robot ejecuta paso a paso.

Las ventajas de este método son evidentes. Es predecible y cumple con los estándares de seguridad. Por eso tu automóvil está equipado con un sistema de frenos ABS eficaz.
Las desventajas son igualmente evidentes. Este robot solo puede demostrar su inteligencia en los escenarios previstos por los ingenieros. Una vez que se lo coloca en una fábrica nueva, condiciones de iluminación distintas o vasos de colores diferentes, se colapsa. Su capacidad de generalización es casi nula.
Dos: El aprendizaje automático se introduce silenciosamente
Durante la década de 2010, el aprendizaje profundo comenzó a abordar problemas en la capa de percepción. Esas redes neuronales convolucionales (CNN) que superaron a los humanos en la tarea de clasificación de imágenes de ImageNet pudieron ser reentrenadas para detectar puntos de agarre en objetos, segmentar muebles en una habitación o reconocer la postura humana. De repente, la capa de "percepción" en la cima de la pila tecnológica ya no requería diseño manual; podías entrenarla directamente.
Luego, el mecanismo de aprendizaje se extendió a la capa de "control". Investigadores de la Universidad de Berkeley, DeepMind y OpenAI demostraron que el aprendizaje por refuerzo (que permite a los agentes robóticos probar millones de veces en entornos simulados y reforzar los comportamientos efectivos) puede generar pasos sorprendentemente hábiles, manipulación de objetos con la mano (el resolver el cubo de Rubik con una sola mano por OpenAI en 2019 fue un hito) y estrategias de movimiento adaptativas a distintos terrenos.
Otra línea de investigación paralela es el aprendizaje por imitación, comúnmente conocido como clonación de comportamiento: registrar cientos de intentos de un humano controlando remotamente un robot para completar una tarea, y luego entrenar una red neuronal para predecir qué acciones tomaría el humano según lo que observa el robot.
La clave de todo esto es que cada estrategia aprendida es demasiado específica. Entrenar una red para recoger un bloque rojo no le enseña cómo manejar una taza amarilla. Entrenarla para caminar sobre el césped hace que se caiga sobre el suelo de baldosas. La capacidad de generalización sigue siendo un desafío pendiente.
Es importante destacar que durante este período surgió una infraestructura que aún hoy sustenta casi todo: ROS, el Sistema Operativo de Robot (lanzado por primera vez en noviembre de 2007). ROS no es un sistema operativo en el sentido de Windows o Linux, sino un marco de middleware, un sistema de tuberías robóticas generalizado. Permite que "nodos de cámara", "nodos de navegación", "nodos de control de brazo robótico" y docenas de otros nodos publiquen y suscriban mensajes a través de un bus compartido.
La versión actual de ROS2 opera en la capa inferior de la mayoría de los robots científicos y comerciales del mundo, desde los laboratorios de la Universidad de Stanford hasta las empresas emergentes chinas de robots humanoides, sin excepción. Cuando las personas hablan del "sistema operativo" de los robots, casi siempre se refieren a ROS2 junto con los diversos paquetes de percepción, planificación y control que se ejecutan sobre él.

ROS2: no es un sistema operativo, sino un canal general que permite que los software robóticos independientes se comuniquen entre sí
Tres: Aplicación de LLM en el campo de la robótica
Luego, nació ChatGPT.
De repente apareció algo así: LLM. Puede leer instrucciones simples en inglés, realizar razonamiento multietapa, escribir código y llamar funciones. Los expertos en robótica se dieron cuenta casi al instante de que este era precisamente el eslabón que llevaban años tratando de resolver. La parte más difícil para hacer que un robot realice tareas útiles en el hogar o la oficina generalmente no es el control de los motores, sino la interacción humano-robot: ¿cómo le dice la persona al robot qué hacer, y cómo el robot descompone ese objetivo en acciones atómicas que ya sabe ejecutar?
La primera ola de aplicación de LLM a robots consistió en considerar el modelo de lenguaje como un compilador de lenguaje natural situado encima de ROS. El patrón es el siguiente:
Trae la taza de café de la encimera de la cocina y ponla sobre mi mesa.
El LLM genera un plan según la lista de habilidades atómicas disponibles para el robot: puede ser una secuencia de llamadas a funciones, un autómata finito o un árbol de comportamiento escrito en XML.
Los nodos de ROS2 ejecutarán el plan paso a paso. Si algún paso falla, se informará el error al LLM para que pueda replantearlo.
El proyecto SayCan de Google en 2022 fue una versión muy concisa de esta idea: el LLM propone habilidades, un modelo independiente de “afordancia” evalúa la probabilidad actual de éxito de cada habilidad, y el robot elige la combinación de habilidades con la puntuación conjunta más alta. Marcos abiertos como ROS-LLM, ROSGPT y ROSA, liderados por el laboratorio de investigación de Huawei, han promovido este modelo.
Esto realmente representa un salto significativo. De repente, puedes decirle al robot: "Limpia la mesa y pon los reciclables en el contenedor azul", y este intentará realizar algunas acciones razonables. Pero ten en cuenta que aún existen algunos problemas: el modelo de lenguaje aún se encuentra en el nivel de planificación. Las instrucciones de acción reales siguen siendo generadas por controladores subyacentes cuidadosamente diseñados o específicamente entrenados. El modelo de lenguaje es simplemente un programador inteligente, no se encarga de la ejecución.

Cuatro: Modelos de visión-lenguaje-acción (VLA), cuando el cerebro comienza a controlar robots

El robot Keenon XMAN-R1 está recogiendo medicamentos de los estantes en la farmacia automatizada de la empresa Galbot en Beijing. Solo por 100.000 dólares.
El próximo salto será más difícil, pero también más importante. Los investigadores plantearon una pregunta más ambiciosa: ¿y si el modelo no solo pudiera planificar, sino también generar directamente instrucciones de acción? ¿Y si se pudieran ingresar imágenes de la cámara y instrucciones de lenguaje directamente a una red neuronal, y obtener inmediatamente los movimientos articulares para el siguiente milisegundo?
Este es el modelo viso-lingüístico-acción (VLA). Actualmente es el paradigma dominante en el campo de los robots humanoides y cuadrúpedos.
El primer robot de visión y lenguaje ampliamente conocido fue el RT-2, lanzado por Google DeepMind en 2023. Su ingenio radica en utilizar un modelo de lenguaje visual grande (entrenado previamente para describir imágenes y responder preguntas) y continuar entrenándolo con datos de demostraciones robóticas, tratando las acciones robóticas como otro tipo de token que se debe predecir. La misma red neuronal que antes podía generar “el gato está sentado sobre la alfombra”, ahora puede generar una secuencia de tokens que codifican “mover la pata derecha 3 cm hacia adelante, cerrar la garra, levantar 5 cm”. La inferencia y la acción se realizan dentro del mismo modelo.
Luego, a mediados de 2024, un equipo liderado por la Universidad de Stanford lanzó OpenVLA, un modelo VLA de código abierto con 7 mil millones de parámetros, entrenado sobre el conjunto de datos Open X-Embodiment. Este conjunto reúne más de un millón de fragmentos de entrenamiento provenientes de 21 laboratorios de investigación distintos y que abarcan 22 tipos diferentes de cuerpos robóticos. Por primera vez, personas fuera de Google pudieron descargar un modelo robótico general y comenzar a modificarlo. Cambió por completo el campo de la noche a la mañana.
Actualmente, los principales VLA, aunque en número limitado, están creciendo rápidamente:
- π0 y π0.5 de Physical Intelligence: excelente adaptación a tareas.
- NVIDIA Isaac GR00T N1.7: pesos abiertos, licencia comercial, diseñado específicamente para robots humanoides, es el modelo que la mayoría de las empresas de hardware chinas están utilizando actualmente para postentrenamiento con sus propios datos.
- Helix y Helix-02 actualizado de Figure AI: tecnología propietaria, pero fundamental en arquitectura.
- AgiBot's Genie Envisioner: Plataforma basada en el modelo mundial chino.
- SmolVLA, NORA, ACoT-VLA, CogACT: la comunidad académica está viendo un creciente número de VLA que exploran distintas direcciones de diseño.
Cómo funciona VLA (sin fórmulas matemáticas)
Puedes imaginar VLA como la fusión de tres señales de entrada en una sola señal de salida.
El primer flujo de datos son los datos visuales. Cámaras RGB (a veces sensores de profundidad o LiDAR), a veces sensores táctiles en las puntas de los dedos, son procesados por un codificador visual (generalmente un modelo Transformer como DINOv2 o SigLIP), que comprime cada imagen en cientos de “tokens visuales” que resumen lo que el robot ve.
El segundo flujo de datos es el lenguaje. Tus instrucciones ("Pásame el destornillador") se convierten en tokens igual que en ChatGPT.
Estos dos flujos de datos se conectan y se ingresan a un “backbone” Transformer (generalmente un pequeño modelo de lenguaje de código abierto como Qwen3 o Llama). Este backbone se encarga de la inferencia, combinando la información que ve con la información que se le pregunta.
Tercer flujo de datos: acción, fluyendo desde el otro extremo. Aquí es donde divergen los diversos diseños arquitectónicos:
- Token de acciones discretas: el modelo genera directamente tokens que se pueden decodificar como ángulos articulares o posiciones del efector final, al igual que ChatGPT genera palabras. Este enfoque es sencillo, pero puede causar interrupciones al ejecutarse a alta frecuencia.
- Head de acción de difusión o emparejamiento de flujo (flow-matching): una red microscópica independiente recibe la salida del backbone y deshace el ruido para generar una trayectoria suave de posiciones articulares, similar a los modelos de difusión de imágenes, pero generando movimiento. Esto es lo que hace π0, produciendo acciones más suaves y naturales.
- Action chunking: Instead of predicting the next single instruction, predict the entire set of instructions for the next half-second to smooth out jitter.

En el modelo VLA: dos flujos de entrada, salida de instrucciones de movimiento, inferencia y acción integradas en una sola red.
Este es el cambio arquitectónico crucial: la inferencia y la acción ya no están separadas. Enseñar a la red neuronal a reconocer una taza también le enseña cómo agarrarla. Es precisamente este acoplamiento lo que permite que las VLA realicen generalizaciones, algo que sus predecesoras no podían hacer.
Cinco: Estrategia de doble cerebro, cómo trabajan juntos LLM y VLA
Aquí hay un detalle que rara vez se explica claramente en el marketing. Los robots humanoides con mejor rendimiento actual no ejecutan un solo sistema VLA, sino dos modelos con velocidades diferentes que se comunican entre sí. Esto a veces se denomina arquitectura de doble sistema o sistema 1 / sistema 2, inspirada en el marco psicológico de Daniel Kahneman, que sostiene que los humanos poseen un cerebro intuitivo rápido y un cerebro reflexivo lento.
El Helix de Figure AI hizo que este diseño se volviera clásico, y ahora se imita casi en todas partes (y sus variantes). Especialmente importante es que NVIDIA's GR00T N1.7 adopta este diseño, y la mayoría de los robots humanoides chinos también lo hacen. Su estructura es la siguiente:
- Sistema 2 (S2): Cerebro de pensamiento lento. Un modelo visolenguaje con 7 mil millones de parámetros que opera a una frecuencia de aproximadamente 7–9 Hz (es decir, de 7 a 9 veces por segundo). Su función es observar escenarios, interpretar instrucciones, realizar razonamientos en múltiples pasos (por ejemplo, “el tazón está detrás de la caja de cereales; necesito mover primero la caja”) y emitir intenciones de alto nivel —generalmente un conjunto de vectores internos compactos, no el texto en sí.
- Sistema 1 (S1): Cerebro de reacción rápida. Un modelo de estrategia visomotriz mucho más pequeño (aproximadamente 80 millones de parámetros) que opera a 200 Hz. Recibe el vector de intención de S2 junto con los datos de sensores más recientes y genera instrucciones articulares continuas. No tiene ningún tipo de “pensamiento” real, solo reacciona.
Recientemente, la empresa Figure añadió el Sistema 0 a Helix-02. Se encuentra debajo del sistema de doble cerebro y es una capa de reflexión, no una tercera capa cognitiva. Es una red de 10 millones de parámetros que opera a 1 kHz, encargada de gestionar el equilibrio básico y la coordinación corporal total, reemplazando más de 100.000 líneas de código C++ de control de movimiento escrito a mano. Puedes imaginar al S0 como una médula espinal adquirida: no razona ni planifica, simplemente mantiene el cuerpo erguido y coordinado, mientras que el pensamiento lo realiza el sistema de doble cerebro superior.

La arquitectura de doble cerebro de los robots humanoides modernos: el sistema 2 piensa lentamente, el sistema 1 reacciona rápidamente—debajo de ellos hay una capa de reflejos del sistema 0 para mantener el equilibrio, el contacto táctil y la coordinación corporal
Esta división se debe a limitaciones físicas. Si se envía una instrucción de movimiento solo cada 200 milisegundos (la velocidad a la que opera una VLA grande), los movimientos del robot serán tan lentos como si se moviera bajo el agua. La frecuencia de actualización de las instrucciones de movimiento debe ser más rápida que la oscilación natural de las articulaciones que controla, lo que implica cientos o miles de actualizaciones por segundo. Ningún modelo Transformer de 7 mil millones de parámetros puede ejecutarse a esta velocidad en un robot alimentado por batería.
Por lo tanto, las tareas cognitivas se dividen: el modelo grande y lento se encarga de pensar; el modelo pequeño y rápido se encarga de actuar. No se comunican en inglés, sino a través de vectores latentes aprendidos: el modelo lento emite objetivos abstractos, y el modelo rápido sabe cómo interpretarlos.
Seis: La nube, el cómputo de borde y la ubicación del "cerebro"
¿Dónde se realizan todos estos cálculos?
Hoy en día, entre los equipos de robots casi se ha formado un consenso fuerte, casi ideológico, de que los bucles de control críticos para la seguridad deben ejecutarse localmente. Hay dos razones:
Retraso. El tiempo de ida y vuelta de la red WiFi o celular es de al menos 30-80 milisegundos. Las órdenes de acción requieren actualizaciones cada 1-5 milisegundos. Este ciclo de red simplemente no puede funcionar correctamente.
Reliability. Robots operate in factories, warehouses, kitchens, hospitals, and other locations. The network may go offline at any time. If a robot stops working as soon as the Wi-Fi disconnects, it becomes a safety hazard.
Entonces, la división moderna es aproximadamente la siguiente:
En el dispositivo (local), ejecutándose en módulos similares a NVIDIA Jetson Thor o AGX Thor (aproximadamente 2,000 TFLOPS, 128 GB de memoria, consumo de 40–130 W):
- Todas las funciones de S0/S1: equilibrio, movimiento, control de movimientos finos.
- VLA en sí mismo (sistema 2), para adaptarse a las limitaciones del hardware, se está cuantizando cada vez más a formatos FP8 o FP4. Hoy en día, los modelos con un rango de 2 mil millones a 7 mil millones de parámetros pueden ejecutarse en el dispositivo.
- Percepción, fusión de sensores y programas de monitoreo de seguridad que pueden cubrir cualquier otra operación.
Nube o servidor remoto (si existe):
- Interfaz conversacional (“Oye, robot, ¿qué debería cenar?”): estas interfaces pueden tolerar retrasos.
- Cluster learning: Miles de robots envían datos de operación remota de vuelta al servidor para ser agregados en el próximo modelo.
- Se requiere una planificación a largo plazo a gran escala, que podría emplear modelos de escala avanzada.
- Dashboard y monitoreo del operador.
Además, existe una capa intermedia en crecimiento: servidores de borde locales ubicados en fábricas o almacenes, que se comunican con flotas de robots a través de redes locales con latencias de solo unos pocos milisegundos. Los LLM más grandes podrían implementarse en este nivel, encargándose de tareas de programación avanzadas que los robots individuales no necesitan gestionar por sí mismos.
La ola de robots humanoides en China se basa en este supuesto: Unitree, AgiBot, Xpeng IRON, Fourier, EngineAI. Sus robots están equipados con capacidad de cómputo a bordo (generalmente Jetson, a veces también chips nacionales como Huawei Ascend), mientras que la nube se utiliza para el aprendizaje en clúster y las interfaces de conversación, no para los bucles de control.

La ubicación real donde funciona el cerebro del robot: los bucles críticos para la seguridad se ejecutan localmente, mientras que la nube se utiliza para procesar cosas que pueden esperar.
Siete: ¿Por qué los modelos de código abierto se han convertido silenciosamente en el centro de atención?
Si solo miras la demostración, podrías pensar que este campo está dominado por unas pocas empresas estadounidenses con grandes recursos. Pero la realidad es mucho más compleja. La velocidad de desarrollo de la inteligencia artificial física está determinada en gran medida por modelos de pesos abiertos que cualquiera puede descargar y ajustar.
Los modelos enumerados a continuación, aunque no son muchos, son de gran importancia:
- OpenVLA (Stanford University): El primer modelo robótico general de 7B abierto.
- NVIDIA Isaac GR00T (N1, N1.5, N1.7): Los pesos abiertos pronto estarán disponibles, así como la licencia comercial; este modelo se entrenó con decenas de miles de horas de videos centrados en el ser humano. GR00T N1.7 se lanzará en marzo de 2026, momento en el que cualquier usuario con un robot humanoide podrá usar gratuitamente su arquitectura de doble sistema.
- Physical Intelligence's π0: weights released for research.
- NVIDIA Cosmos: Modelo base de mundo abierto.
- AgiBot World: un extenso conjunto de datos de código abierto de una startup de Shanghái que incluye demostraciones de robots humanoides controlados remotamente.
- LeRobot de Hugging Face: una biblioteca abierta que se ha convertido en el punto de encuentro de todas las plataformas mencionadas.
- mimic robotics's mimic-video: un modelo de video-a acción de código abierto con una eficiencia muestral 10 veces mayor que las VLA tradicionales.
Es importante por dos razones. En primer lugar, las startups de robots ya no necesitan gastar decenas de millones de dólares en preentrenar un modelo base: pueden tomar GR00T o π0 y realizar un entrenamiento posterior con los datos de sus propios robots. Unitree, ZhiJi Power, Booster, Galbot y docenas de empresas chinas más pequeñas están haciendo exactamente esto. Por eso una empresa con solo cientos de empleados puede producir robots humanoides que caminan, hablan y doblan ropa: están de pie sobre los hombros de una pila de tecnología de código abierto.
En segundo lugar, los modelos de código abierto son el único camino realista para abordar los problemas de seguridad. Si un modelo completamente cerrado funciona dentro de un robot en una planta de fabricación, y el exterior no tiene ninguna capacidad de inspección sobre su lógica de inferencia, sin duda se trata de una pesadilla regulatoria. Los modelos abiertos permiten a los auditores, investigadores y operadores verificar realmente qué se ha entrenado en el robot.
Ocho: ¿Qué otros problemas aún no se han resuelto?
Si has visto suficientes videos de demostraciones de robots, también has visto muchos videos de fallos de robots. Los robots actuales de LLM+VLA son realmente impresionantes, pero también presentan limitaciones evidentes. Aquí están los problemas que tienen:
- Recuperación en medio de la tarea. La capacidad de VLA para manejar cambios inesperados es superior a cualquier tecnología anterior. Pero cuando las cosas realmente salen mal (por ejemplo, errores de agarre, objetos que ruedan, o alguien entra en el área de trabajo), volver a la trayectoria correcta sigue siendo una debilidad. El robot repite ciegamente las acciones fallidas.
- Eficiencia de muestra. Entrenar una VLA desde cero requiere miles de horas de datos de operación remota. Los humanos pueden aprender a operar una nueva herramienta en minutos. Esta brecha de eficiencia es enorme.
- Generalización entre entidades. Un modelo entrenado con el brazo robótico Franka en el laboratorio de Stanford no se puede transferir perfectamente al robot humanoide Unitree en un almacén de Shenzhen. Sus formas físicas son diferentes.
- Tareas a largo plazo. Cualquier tarea que requiera un comportamiento coherente de más de 30-60 segundos y que incluya múltiples subobjetivos tiende a desviarse del objetivo. Tareas como “prepara el desayuno” siempre permanecen inalcanzables.
- Conocimientos físicos. VLA es entrenado mediante imitación, no mediante comprensión. No entiende realmente el principio de que el agua se derramará cuando se voltee un vaso. Simplemente ha visto algunos ejemplos y predice lo que sucederá a continuación mediante coincidencia de patrones.
- Razonamiento espacial. Aunque son multimodales, son sorprendentemente débiles en tareas como “evitar obstáculos en lugar de atravesarlos” o “apilar estas cosas sin que se caigan”.
Esta última serie de debilidades impulsó al sector a apostar por un modelo completamente diferente.
Nueve: Modelos mundiales
Imagina esto: ¿qué pasaría si en lugar de entrenar a un robot para predecir acciones, lo entrenaras para predecir las consecuencias de esas acciones?
Un Modelo del Mundo es una red neuronal que, dado el estado actual del mundo (generalmente un video o una secuencia de imágenes) y una acción predefinida, predice cómo será el mundo a continuación. En términos sencillos, puedes imaginarlo como un predictor de video con aprendizaje y un volante: le muestras la última segundo de imágenes de la cámara y le dices “el robot moverá su brazo 10 cm hacia adelante”, y generará un video realista que predice la escena del siguiente segundo.
Why is this important?
Una vez que se tiene un modelo del mundo, el robot puede pensar antes de actuar. Puede anticipar tres o cuatro acciones candidatas diferentes, predecir los resultados de cada una, calificarlas y elegir la mejor opción. Todo esto se completa antes de cualquier movimiento motor. Es exactamente cómo funcionan los motores de ajedrez: no memorizan movimientos, sino que simulan el futuro. Anteriormente, los robots físicos nunca habían tenido esta capacidad, porque nunca se había dispuesto de un modelo lo suficientemente preciso para simular el complejo mundo real.

Los modelos mundiales permiten a los robots simular múltiples escenarios futuros posibles, puntuarlos y seleccionar la mejor opción antes de activar cualquier motor.
¿Qué aspecto tendrá el modelo mundial en 2026?
Actualmente, existen numerosos modelos del mundo más avanzados, pero se desarrollan rápidamente. A continuación, algunos de ellos:
- NVIDIA Cosmos: una serie de modelos base de mundos abiertos, que incluyen Cosmos Predict 2.5 (modelo generativo), Cosmos Transfer 2.5 (modelo de simulación controlable), Cosmos Reason 2 (rasonador de visión y lenguaje para robots) y el más reciente Cosmos Policy. Cosmos Policy va un paso más allá, generando directamente acciones para control mediante postentrenamiento de modelos del mundo. Cosmos se entrena con decenas de miles de horas de GPU en datos de video (Cosmos Predict 2.5 es el modelo del mundo de esta serie).
- DeepMind Genie 3: un modelo de mundo interactivo que genera entornos completamente navegables a partir de indicaciones de texto, con una tasa de 24 fotogramas por segundo y capacidad de funcionamiento continuo y estable durante varios minutos. Diseñado originalmente para entornos de juegos.
- Meta V-JEPA 2: Se utilizó más de un millón de horas de videos de la web para la preentrenamiento, y luego solo 62 horas de videos de robots para el entrenamiento condicionado por acciones. En brazos robóticos reales en diferentes laboratorios, sin ningún entrenamiento específico para tareas, se logró una tasa de éxito del 80% en la tarea de recoger y colocar en modo cero muestra. El método "JEPA" es arquitectónicamente muy diferente a otros métodos.
- DeepMind Dreamer 4: Aprendió a recolectar diamantes en Minecraft (una tarea de 20,000 pasos) utilizando únicamente datos offline, sin ninguna interacción con el entorno. Esto demuestra que es posible realizar aprendizaje por refuerzo real en mundos virtuales.
- AgiBot's Genie Envisioner: una plataforma de modelo universal de China, entrenada con más de 3000 horas de videos de operaciones de robots humanoides del mundo real. Puede generar tanto trayectorias de expansión predichas como trayectorias de acciones ejecutables. AgiBot utiliza NVIDIA Cosmos Predict 2 como red principal y realiza un post-entrenamiento con sus propios datos. Este es exactamente el modelo descrito anteriormente de "pila de tecnología abierta + datos propios".
- Toyota Research Institute's world model based on Cosmos: for remote operation data augmentation and navigation.

Los seis modelos mundiales más importantes de 2025-2026, cada uno con una visión diferente sobre cómo debería aprender la física la máquina.
Diez: arquitectura alternativa, ya que el campo aún no está definido
No existe un estándar único para construir modelos del mundo. La disputa sobre arquitecturas es una de las discusiones más interesantes en el campo actual de la IA, y afecta directamente lo que los robots podrán hacer en el futuro. Estos tres bandos merecen atención:
Difusión de video a nivel de píxeles (escuela Cosmos/Sora): utilizar modelos de difusión para predecir los píxeles reales de los fotogramas futuros. La ventaja es que puede servir como generador de datos sintéticos, capaz de renderizar demostraciones de robots completamente nuevas que nunca ocurrieron. La desventaja es que es costoso, a veces viola las leyes físicas y predecir píxeles que nunca se verán es un desperdicio.
Arquitectura de predicción de embebidos conjuntos, conocida como JEPA (escuela de LeCun): no predice píxeles, sino la representación abstracta del siguiente fotograma. Descarta los detalles texturales y conserva solo la esencia semántica de los elementos en la escena. Sus ventajas incluyen eficiencia y enfoque en los factores cruciales para la acción. Sus desventajas incluyen una mayor dificultad de uso. Modelos como V-JEPA, V-JEPA 2 y el nuevo modelo híbrido JEPA-VLA están explorando este campo.
Modelos de mundo potenciales (generación de acciones, estilo Genie/Dreamer): aprender a comprimir un video completo en un “lenguaje de acciones” potencial que capture la estructura del comportamiento, y luego entrenar un modelo del mundo para predecir el siguiente estado potencial a partir del siguiente potencial de acción. La ventaja es que permite entrenar con videos de internet sin acciones, y luego agregar solo unos pocos datos reales de robots. La desventaja es que las acciones potenciales no son comprensibles por humanos, lo que complica el análisis de seguridad.

Difusión de píxeles, JEPA y acciones latentes: mismo objetivo, formas radicalmente distintas de construir modelos del mundo
Eleven: Aplicaciones prácticas de robots basados en modelos del mundo
Si adelantamos varios años, la arquitectura de los robots humanoides de vanguardia podría verse así:
VLA lleva un modelo del mundo. Cuando el robot se encuentra con una situación nueva, realiza operaciones similares a las siguientes:
- VLA ha propuesto algunas opciones de acciones posteriores (aún es una estrategia).
- El modelo mundial tomará cada acción candidata y simulará un video hipotético de 1 a 3 segundos.
- Los evaluadores de valor calificarán según los resultados imaginados: ¿Se levantó la taza? ¿Algo se cayó? ¿Alguien fue golpeado?
- El robot seleccionará la acción con la puntuación más alta y solo ejecutará su primera parte.
- Real sensor data feedback; cyclic repetition.
Esto es control predictivo basado en modelos, una tecnología que durante años se ha utilizado para estabilizar cohetes y drones, pero que reemplaza las ecuaciones físicas derivadas manualmente con modelos del mundo aprendidos. Su escalabilidad radica en que los modelos del mundo se entrenan previamente con millones de horas de video, no porque alguien haya derivado ecuaciones de Navier-Stokes para entornos de cocina.
Sus beneficios se incrementan progresivamente:
- La situación de recuperación ha mejorado. Si ocurre un error en la acción de captura, el modelo mundial puede imaginar múltiples rutas de corrección y seleccionar la más prometedora.
- La capacidad de generalización ha mejorado. El modelo mundial entrenado con videos en red ha experimentado varios órdenes de magnitud más fenómenos físicos que cualquier conjunto de datos de operación remota de robots.
- La planificación a largo plazo se vuelve manejable. Planifica en la imaginación, no en la realidad.
- La brecha entre la simulación y la realidad se ha reducido. Anteriormente, era necesario entrenar con simuladores propios (por ejemplo, Isaac Sim, motor físico Newton) y confiar en que los resultados del entrenamiento se pudieran transferir a aplicaciones reales; ahora se puede entrenar con simuladores ya entrenados que coinciden con videos reales. Por lo tanto, la brecha es menor.
- Los datos sintéticos están creciendo exponencialmente. Un modelo del mundo puede generar casi gratuitamente millones de trayectorias de robots distintas, cubriendo diferentes iluminaciones, materiales y configuraciones de objetos. Esto resuelve uno de los mayores cuellos de botella del campo.
Además, ofrece una importante ventaja de seguridad. Los robots capaces de simular las consecuencias de sus acciones pueden rechazar realizar operaciones peligrosas: no por restricciones de reglas preestablecidas, sino porque anticipan que alguien podría resultar herido en el futuro.

Dos formas de movimiento: VLA reacciona según lo que ve; los robots con modelo del mundo piensan antes de moverse.
Doce: Lo que también deberías saber
El verdadero problema central es el problema de los datos: si no se puede alimentar al modelo con datos, todos los avances arquitectónicos del mundo serán inútiles. Actualmente, la operación remota (humanos que manipulan robots de forma marioneta mediante dispositivos VR) es el principal cuello de botella tecnológico. La ventaja competitiva de una empresa de robótica depende cada vez más de su cadena de recopilación de datos que del modelo en sí. Agi Robotics ya ha establecido almacenes llenos de operadores. La ley de escalabilidad de destreza de NVIDIA GR00T N1.7 indica que más videos en primera persona humana mejoran directa y predeciblemente la destreza de los robots. Esta es también una de las razones por las que China tiene una ventaja estructural: costos laborales más bajos para la recopilación de datos, un entorno de implementación más permisivo y una coordinación nacional activa de la cadena de suministro.
La simulación es un universo paralelo. Isaac Sim de NVIDIA, el nuevo motor físico de código abierto Newton (versión 1.0 que se lanzará oficialmente en abril de 2026) y la plataforma Omniverse permiten a las empresas entrenar robots en millones de entornos de simulación simultáneos sin necesidad de desplegarlos en el mundo real. La mayoría de las funciones que parecen “inteligencia robótica” se cultivan en entornos simulados y luego se transfieren al hardware.
Los beneficios económicos están comenzando a manifestarse. Unitree entregó aproximadamente 5,500 robots humanoides en 2025 y planea alcanzar de 10,000 a 20,000 en 2026. El precio promedio se redujo de 85,000 dólares a 25,000 dólares en dos años. El R1 de Unitree se vende a 5,900 dólares. El precio de lanzamiento de Noetix Bumi es de 1,400 dólares. Los precios del hardware de los robots humanoides se están acercando al nivel de los productos de consumo electrónico, mientras que su tecnología de IA interna aún se encuentra rezagada respecto a los productos de demostración. Esta brecha finalmente se cerrará, momento en el cual el crecimiento del mercado impulsará un impacto significativo en toda la industria.
Los modos de fallo parecen extraños. Cuando los robots basados en LLM fallan, lo hacen de maneras que los robots tradicionales no pueden lograr. Por ejemplo, hacer cosas incorrectas con confianza, percibir “ilusoriamente” ciertas funciones, quedar atrapados en ciclos de diálogo con su propio planificador. La comunidad de robots tradicionales mantiene un grado considerable de escepticismo hacia esto, lo cual es comprensible, ya que insisten en que los sistemas de aprendizaje deben estar sujetos a supervisión de seguridad y restricciones de comportamiento. Los robots más confiables actualmente desplegados son híbridos: un cerebro VLA colocado dentro de una jaula de seguridad diseñada manualmente.
La narrativa del "momento ChatGPT" es una metáfora útil pero engañosa: Jensen Huang ha estado diciéndole a todos que el momento ChatGPT de los robots ya ha llegado. Él dice esto porque NVIDIA vende palas y picos. La versión más honesta es: actualmente estamos aproximadamente en la era GPT-2 de la IA física. Es poderosa y puede impresionarte; pero aún no es lo suficientemente potente como para ser desplegada sin supervisión. Está evolucionando rápidamente, pero aún no ha alcanzado el punto de inflexión para una adopción viral, sino una trayectoria de crecimiento lento pero constante.
Conclusión

Evolución del robot cuadripedal Unitree (de derecha a izquierda)
En la demostración vista en las oficinas de Unitree, cinco robots humanoides G1 realizaron artes marciales con movimientos cuidadosamente coreografiados, controlados por un sistema VLA integrado y supervisados por un operador remoto para garantizar que todo funcionara correctamente. En esencia, no era completamente autónomo. Pero todo el proceso: percepción, planificación y control del movimiento, estaba siendo reemplazado por redes neuronales. Dos años después, el mismo robot podía realizar los mismos movimientos sin coreografía, ya que había ideado previamente toda la secuencia y seleccionado la mejor versión.
El desarrollo completo descrito en este artículo: desde controladores escritos a mano, hasta la percepción basada en machine learning, luego planificadores de LLM, luego VLA, luego arquitectura de doble sistema, y finalmente modelos del mundo, es en realidad un cambio lento en la ubicación de la inteligencia robótica. Comenzó en la mente de los ingenieros, luego evolucionó hacia código escrito a mano, después entró en la capa de percepción, luego en el planificador, luego en la capa de política. Ahora, finalmente, se dirige hacia el aprendizaje de modelos del mundo mismo.
Cada transformación hace que los robots sean más universales, más adaptables y más útiles. Si el cambio en el modelo del mundo tiene éxito, otorgará a los robots una capacidad verdaderamente poderosa: tan poderosa que la pregunta ya no será “¿Qué pueden hacer los robots?”, sino “¿Qué deberíamos hacer que hagan?”.
Lectura relacionada: Repaso de más de 30 empresas de robots humanoides: ¿quiénes ganarán en 2026?
