En 2026, la industria de la IA presencia el auge de la 'IA física' con importantes avances

Physical AI, ha tomado el relevo.

Autor del artículo, fuente: Grupo de Investigación de Insight

Desde el inicio de 2026, un término popular ha surgido en el mundo de la IA: "IA física".

Huang Renxun mencionó en múltiples ocasiones durante la feria CES al comienzo del año: “La próxima ola de IA será la IA que opera en el mundo físico”. Sun Yuchen también ha declarado recientemente con gran aparato mediático: “El auge de la IA virtual ha terminado; la IA física es la mayor oportunidad de los próximos tres años”.

En el sector industrial, la empresa estrella Figure AI generó un fenómeno en línea con un transmisión en vivo ininterrumpida de cinco días de clasificación robótica, y la empresa china Zhìyuán Robotics anunció la producción de su 10.000ª unidad de robot embodiado general...

Los comentarios de los grandes jugadores y los cambios reales en la inteligencia encarnada han desviado la atención de la industria hacia esta gran narrativa que atraviesa la transición de la inteligencia virtual a la ejecución física. Sin embargo, muchas personas aún se preguntan: ¿es esta llamada “IA física” un punto de inflexión inevitable en el desarrollo tecnológico, o simplemente un concepto hábilmente empaquetado?

En 2026, el sector de la IA desató una ola de "IA física". Jensen Huang afirmó que la próxima ola de IA será aquella que opera en el mundo físico. Figure AI demostró mediante una transmisión en vivo de cinco días de clasificación robótica que su tecnología ha superado el punto crítico de las demostraciones de laboratorio, mientras que Agi Robotics logró la producción de su 10.000ª unidad de robot embodiado general. El núcleo de esta tecnología consiste en dotar a la IA de una capacidad de bucle cerrado de "percepción-razonamiento-acción-retroalimentación" en el mundo real. Los impulsores detrás de esto incluyen modelos de lenguaje grande que otorgan a los robots capacidad de comprensión, modelos del mundo que resuelven problemas de acción en el mundo físico, y modelos VLA que cierran la última milla entre comprender y ejecutar correctamente. La IA física está pasando de la validación técnica a la concreción comercial; desde 2026, la financiación ha superado los 110.000 millones de yuanes, y la competencia ha entrado en la fase de producción masiva y entrega.

Fuente del artículo:洞见新研社

01 De "saber chatear" a "saber hacer cosas"

Antes de responder la pregunta anterior, desglosemos este término profesional un poco rígido.

La IA física, entendida literalmente, es una tecnología de inteligencia artificial que integra profundamente la IA con el mundo físico; pero al profundizar en su núcleo, la IA virtual se encarga de “pensar y comunicar”, mientras que la IA física debe “percibir y actuar”, convirtiéndose así no en un agente en la pantalla, sino en una máquina que percibe, comprende y ejecuta operaciones complejas en el mundo físico real.

La IA física es una tecnología que "permite que máquinas autónomas, como robots y vehículos autónomos, perciban, comprendan y ejecuten operaciones complejas en el mundo físico real". El miembro ejecutivo del Consejo Chino de Informática, Wang Xiang, explicó sistemáticamente este concepto en la tercera Feria Internacional de Cadena de Suministro de China: "La IA física significa que los sistemas de IA poseen la capacidad de cerrar un bucle de 'percepción-razonamiento-acción-retroalimentación' en el mundo real".

En pocas palabras, la IA anterior “sabía conversar”, mientras que la IA física actual “sabe hacer cosas”; cuando la IA sale del cuadro de ChatGPT y entra en fábricas, almacenes y hogares del mundo real, es precisamente eso lo que la IA física busca resolver.

Esta diferencia se refleja especialmente claramente en las actividades de las dos empresas estrella de robots este año.

Uno es Figure AI de Estados Unidos, que utilizó cinco días consecutivos de transmisión en vivo para demostrar que “los robots realmente pueden trabajar”. La transmisión comenzó el 14 de mayo y mostró a tres robots humanoides Figure 03 turnándose en la línea de producción para clasificar paquetes de correo. La tarea de los robots consistía en detectar códigos de barras, agarrar los paquetes, reorientarlos y colocarlos en la cinta transportadora con el código de barras hacia abajo.

Durante la transmisión en vivo, un robot trabajó continuamente más de 33 horas, procesando más de 40,000 paquetes. El fundador, Brett Adcock, indicó que el robot utiliza el modelo más reciente de la empresa, Helix 02, operando en "modo completamente autónomo".

El significado de la transmisión en vivo de Figure AI no solo radica en mostrar su capacidad tecnológica, sino también en comunicar al mundo mediante imágenes en tiempo real que la tecnología de IA física ha superado el punto crítico de las "demostraciones de laboratorio". Que una empresa transmita en vivo durante varios días cómo un robot trabaja continuamente en la línea de producción sin experimentar problemas importantes, es en sí mismo un poderoso mensaje tecnológico.

La empresa china Zhìyuán Robotics también realizó un transmisión en vivo similar, colocando a su robot Zhìyuán精灵 G2 en la línea de producción de tabletas en el Parque Tecnológico Longqi de Nanchang, trabajando junto a humanos en la línea MMIT (Integración Multimedia). Los datos de prueba en vivo mostraron que el robot realizó 8 horas de trabajo continuo sin ninguna anomalía grave, con una tasa general de éxito del 99,5% o más; cada proceso individual requiere solo 18-20 segundos, permitiendo completar 310 unidades por hora, con un solo robot capaz de manejar el volumen de trabajo de dos procesos.

Además de Figure AI, Agi Robotics anunció en marzo la entrega de los 10,000 primeros robots de inteligencia corporal general del mundo, logrando el salto de 5,000 a 10,000 unidades en solo tres meses, desde diciembre de 2025 hasta marzo de 2026.

Además de la cantidad entregada, AgiRobot reveló que la empresa planea alcanzar ingresos de 10.000 millones de yuanes en 2027. Si se mira la experiencia de desarrollo de industrias emergentes anteriores como la energía nueva, la conducción autónoma o los chips, una empresa con menos de dos años de existencia que logre una producción en masa y entrega a nivel de diez mil unidades, y que establezca un objetivo de ingresos de miles de millones, puede considerarse fenomenal en el campo de la tecnología dura.

Ambas empresas han demostrado con datos y escenarios reales que la IA física ya no necesita depender de controles remotos o guiones preestablecidos para "actuar", sino que posee la capacidad de completar tareas complejas de forma autónoma en entornos reales.

Más importante aún, Zhiyuan es la primera en superar el umbral de 10,000 unidades entregadas, vinculando su capacidad de producción con los pedidos pendientes, lo que indica que este sector ya ha atravesado el punto de inflexión de la “validación técnica” a la “realización comercial”. En otras palabras, la “viabilidad” de la inteligencia artificial física ya no es una duda; la verdadera competencia ha entrado en las aguas profundas de la “usabilidad” y la “economía”.

02 Impulsores tecnológicos del auge de la IA física

Entonces, la pregunta ahora es: ¿por qué la IA física explotó repentinamente este año? Al revisarlo ahora, además de la verdadera demanda comercial, una serie de avances tecnológicos fueron el mayor impulsor.

En primer lugar, los modelos de lenguaje grandes (LLM) han brindado a los robots la "capacidad de comprensión". Los robots tradicionales dependen de código determinista y programación basada en reglas, lo que equivale a que los ingenieros escriban previamente un "guión", y cada acción del robot se ejecuta estrictamente según las especificaciones predefinidas del guión. Este modelo tiene una gran vulnerabilidad: si el entorno de trabajo del robot cambia ligeramente, el código debe reescribirse completamente, lo que resulta en una baja robustez y dificulta superar la barrera de la comercialización.

Sin embargo, tras el intento de Google de combinar los LLM con la ejecución física de robots y el lanzamiento en agosto de 2023 de modelos multimodales encarnados como Google PaLM-E y RT-2, los robots ahora pueden descomponer automáticamente tareas complejas en varios pasos y ejecutarlos mediante instrucciones en lenguaje natural, lo que marca la transición de los modelos de lenguaje grande desde la "comprensión de conversación" hasta la "ejecución física".

Huang Renxun señaló en su discurso en CES 2026 la esencia de esta evolución tecnológica: la IA física es en realidad un cambio de control subyacente; cuando la IA física atraviesa el punto crítico de la evolución tecnológica, el control se transfiere desde el código determinista escrito por humanos hacia redes neuronales con capacidad de generalización y comprensión de las leyes físicas.

En este punto, los robots ya no solo "ejecutan código", sino que poseen la capacidad de "comprender instrucciones y planificar sus propias acciones".

Si los modelos de lenguaje grande resolvieron el problema de "entender", entonces los modelos del mundo resuelven el problema de "actuar en el mundo físico"; el núcleo de los modelos del mundo consiste en permitir que la IA aprenda una comprensión interna de las leyes que rigen el funcionamiento del mundo físico.

La plataforma Cosmos, lanzada por NVIDIA en el CES del año pasado como modelo de base para mundos de IA física, se convirtió en un hito; la capacidad central de este modelo es generar datos de acción coherentes con las leyes físicas a partir de texto o imágenes, permitiendo a los desarrolladores acelerar el desarrollo de agentes de IA física para automóviles inteligentes, robots y análisis de video.

Según NVIDIA, Cosmos se entrenó con más de 20 millones de horas de datos reales, reduciendo en gran medida la dificultad de la simulación y el entrenamiento del modelo. Con un modelo del mundo, los sistemas de IA pueden realizar una gran cantidad de simulaciones en entornos virtuales y luego transferirlas al mundo físico real.

La capacidad definitiva de los robots no es "entender" o "escuchar", sino "hacer lo correcto". La aparición de los modelos Vision-Language-Action permite a los robots procesar simultáneamente entradas visuales, comprensión del lenguaje y control de acciones, logrando un ciclo cerrado de "ver para hacer".

DeepMind lanzó en septiembre del año pasado el nuevo modelo multimodal de inteligencia incorporada Gemini Robotics 1.5, afirmando que es el primer modelo de pensamiento del mundo optimizado específicamente para razonamiento incorporado; NVIDIA presentó el modelo abierto Isaac GR00T N1.6 diseñado específicamente para robots humanoides, que permite el control total del cuerpo.

Al mismo tiempo, el Centro de Innovación de Robot Humanoide de Pekín lanzó como código abierto el modelo grande XR-1 para el cerebelo encarnado, convirtiéndose en el primer modelo nacional que cumple con la norma nacional de inteligencia encarnada, entrenado con más de un millón de datos y capaz de realizar tareas complejas de manipulación con ambos brazos, como recoger y colocar, empujar y tirar, y rotar.

Hasta ahora, la IA física ha reunido las capacidades tecnológicas básicas necesarias para su implementación: los LLM permiten que las máquinas "entiendan" las intenciones humanas, los modelos del mundo les permiten "predecir" las consecuencias físicas, y las VLA cierran el último kilómetro entre "comprender" y "hacer correctamente". La combinación de estos tres elementos otorga a los robots, por primera vez, la capacidad básica de ejecutar tareas de forma autónoma en entornos abiertos.

Claro, aún existen cuellos de botella en las operaciones hábiles; el control fino de los brazos y las manos sigue presentando muchos problemas por resolver. En otras palabras, la IA física ha obtenido la entrada para "trabajar en fábricas", pero para realmente "entrar a los hogares y servir té", aún debe superar el umbral cualitativo de pasar de "movimientos groseros" a "operaciones refinadas".

03 De la visión técnica a la capacidad de entrega

Es importante comprender el pasado y el presente de la IA física, y ahora, la industria de la inteligencia encarnada debe enfrentar la pregunta: ¿en torno a qué dimensiones clave se desarrollará la próxima competencia?

A partir de la evolución de la conducción autónoma, extraemos lecciones: la batalla por los datos no se pudo evitar en la conducción autónoma, y la inteligencia encarnada, que sigue una lógica similar, tampoco puede evitarla. En general, quien posea datos de entrenamiento de mayor calidad tendrá mayor poder de decisión.

Actualmente en la industria, NVIDIA ha establecido una barrera de modelos mundiales basada en Cosmos, cuyo modelo, entrenado con más de 20 millones de horas de datos reales, es difícil de replicar rápidamente, mientras que Zhiyuan ha logrado la producción en masa y despliegue de 10,000 robots, lo que significa que posee una capacidad real de recopilación de datos impulsada por retroalimentación, lo cual en la industria también se considera ampliamente una ventaja competitiva basada en datos.

Es importante señalar que los datos necesarios para la competencia de IA física no se tratan simplemente de quién tiene más cantidad, sino de la colaboración entre datos sintéticos y datos reales.

Depender únicamente de datos reales enfrenta problemas de escala y costos de desgaste de hardware, mientras que depender excesivamente de datos sintéticos implica una brecha de transferencia de simulación a la realidad (sim2real). La solución de "aprendizaje multi-fuente de datos" del Centro de Innovación de Robot Humanoides de Pekín es un producto de este enfoque, permitiendo que los robots se entrenen utilizando enormes cantidades de videos humanos, reduciendo significativamente los costos de entrenamiento y mejorando la eficiencia.

Así es mucho más fácil de entender: quien logre establecer plenamente el ciclo completo de “entrenamiento con datos sintéticos, ajuste fino con datos reales y retroalimentación en escenarios reales” tendrá la ventaja en esta competencia.

After resolving the data issues, efficiently integrating physical AI with virtual AI became the key to enabling physical AI to advance further.

Ahora hablamos de IA física, y una dirección que a menudo se pasa por alto es que la IA física y la IA virtual no son opuestas; desde el punto de vista de la arquitectura técnica, un sistema completo de IA física se puede dividir aproximadamente en tres capas: la capa inferior es la capa de percepción (sensores, reconocimiento visual), la capa media es la capa de cognición y toma de decisiones (inferencia de IA) y la capa superior es la capa de ejecución de acciones (control mecánico).

La IA virtual se encarga principalmente de la capa intermedia, mientras que la IA física debe conectar toda la cadena desde la percepción hasta la ejecución.

La solución integral de NVIDIA de "chip + modelo + herramientas" refleja este enfoque: la plataforma de computación en el borde Jetson Thor proporciona potencia de cómputo, el modelo GR00T ofrece inteligencia y la plataforma Isaac proporciona la cadena de herramientas de desarrollo. Siguiendo esta solución, quienes logren integrar profundamente el software y el hardware en el futuro no solo podrán completar el ciclo cerrado de la IA física, desde el "cerebro" hasta el "cuerpo", sino que también podrán construir su propia ventaja tecnológica.

Por último, el proceso de comercialización de la inteligencia artificial física: hace tres años, la imaginación del capital en el sector de los robots se basaba en una "visión tecnológica", pero ahora, los mercados financieros tienen criterios de evaluación más prácticos, es decir, la capacidad de entrega.

Según estadísticas de los medios, en 2025, la suma total de financiamiento en el sector de inteligencia encarnada en China alcanzó 73.500 millones de yuanes, con 744 operaciones de inversión y financiamiento. Desde 2026, se han añadido más de 37.000 millones de yuanes adicionales, superando acumulativamente los 110.000 millones de yuanes; sin embargo, bajo esta floreciente escena, el flujo de capital ha experimentado una transferencia estructural visible a simple vista.

En mayo de 2026, Tianji Intelligence completó una ronda de financiación B de 1.000 millones de yuanes, con su activo principal siendo un pedido pendiente superior a 10.000 unidades en el primer trimestre, con clientes que cubren a 45 empresas de robótica.

Zhongke Fifth Era ha recibido una ronda de financiación Serie A de miles de millones de yuanes y ha revelado que ha obtenido pedidos internacionales por miles de millones de yuanes.

Vitao Power y Lu Ming Robotics están en proceso de financiación, con inversores industriales como SAIC Shangqi Capital y Mitsubishi Electric ingresando sucesivamente, con el objetivo de vincular la capacidad de producción de la línea con la capacidad de entrega de robots.

Por otro lado, la startup estadounidense de robots humanoides Cartwheel Robotics, que tenía una visión tecnológica pero sin pedidos que la respaldaran, anunció su cierre en marzo de 2026.

Los casos positivos y negativos demuestran que el capital ya no paga por demos impresionantes, sino únicamente por la capacidad real de producción y entrega.

04 Conclusión

El auge de la IA física parece repentino, pero es algo natural y lógico.

Por supuesto, algunos expertos de la industria consideran que la "IA física" es más bien un nuevo concepto creado por los mercados financieros, que en esencia sigue siendo una evolución natural de la inteligencia encarnada y la robótica; sin embargo, no se puede negar que el auge de la IA física marca claramente que la industria de la IA está pasando de la "inteligencia virtual" a la "ejecución física", un proceso histórico irreversible.

En la última ronda de competencia, Figure AI mostró su potencial en vivo ante el mundo, Agi Robotics estableció barreras industriales mediante la producción masiva y entrega, y NVIDIA construyó un ecosistema de plataforma con Cosmos y GR00T... La pregunta siguiente es: ¿cuál empresa se convertirá en el OpenAI del campo de la IA física? ¿Qué escenario de aplicación experimentará primero su "momento ChatGPT"?