China's AI laguja a los EE.UU. en el acceso a chips de entrenamiento de alto rendimiento y potencia de cómputo

Limitación de la potencia de cálculo

Desde finales del año pasado, empresas nacionales de GPU como Moore Threads, Muxi Shares, Biren Technology y TianShu Intelligent Chip han generado una ola de capital. Sin embargo, bajo el banquete de riqueza en el mercado secundario, una línea oculta que no puede ignorarse se está volviendo cada vez más clara, y los problemas que plantea se vuelven cada vez más urgentes.

En los últimos años, los chips de IA nacionales se han centrado principalmente en la "lado de inferencia", relativamente seguro y más periférico, como el reciente plan de Doubao para adquirir 50.000 chips de TianShu Intelligence para tareas de inferencia, con el fin de satisfacer la alta frecuencia de llamadas de esta aplicación de IA más grande de China.

En la cima de la pirámide de potencia de cálculo para el entrenamiento de IA, los chips nacionales solo pueden participar en tareas periféricas de apoyo.

Los chips de entrenamiento de IA se utilizan principalmente para el entrenamiento de modelos de inteligencia artificial, durante los cuales se realizan numerosas operaciones matriciales y ajustes de parámetros, por lo que requieren una potente capacidad de cálculo y una alta eficiencia energética; son más potentes y también muy costosos, como los NVIDIA A100, H100, H200 y la serie AMD MI300.

En comparación, la tarea de los chips de inferencia es mucho más sencilla. Utilizados en la fase de despliegue tras el entrenamiento del modelo, se encargan principalmente de ejecutar tareas de inferencia, requiriendo alta latencia en tiempo real; los chips de inferencia deben ofrecer respuestas rápidas y bajo consumo energético, sin comprometer la precisión.

Un análogo adecuado es que el entrenamiento permite que el modelo de IA "aprenda conocimientos", mientras que la inferencia permite que el modelo grande "aplique esos conocimientos". Durante la fase de aprendizaje, los chips de entrenamiento deben utilizar cantidades masivas de datos para "alimentar" actualizaciones dinámicas de parámetros en escalas de miles de millones, billones e incluso decenas de billones; no solo requieren una potencia de cálculo formidable, sino también una ancho de banda y capacidad de comunicación eficientes, además de garantizar la estabilidad en clústeres de decenas de miles de unidades.

La brecha entre los modelos de EE. UU. y China radica en estos lugares "invisibles", especialmente en la ausencia de chips de entrenamiento de gama alta.

Bajo la ley de escalado de los modelos grandes, a mayor número de parámetros del modelo, la demanda de capacidad de cómputo crece linealmente, y los costos exponencialmente crecientes en capacidad de cómputo y hardware hacen que el entrenamiento de modelos grandes sea un "juego exclusivo" de unas pocas grandes empresas tecnológicas.

Entre las grandes empresas tecnológicas de Estados Unidos, solo Meta planea desplegar más de 1,2 millones de GPU de gama alta para finales de 2026, con una inversión anual superior a 145 mil millones de dólares; según cálculos, la capacidad total de cómputo de IA de Google equivale a 5 millones de GPU H100 de NVIDIA, lo que representa una cuarta parte del total global de una sola empresa.

Las cuatro empresas Amazon, Microsoft, Alphabet y Meta gastarán este año 725.000 millones de dólares en gastos de capital, un aumento del 77% interanual, una cifra equivalente al 13% de la inversión total privada nacional de Estados Unidos en un año. Morgan Stanley predice además que para 2027, los gastos de capital de las empresas tecnológicas estadounidenses podrían alcanzar un récord histórico de 1,1 billones de dólares.

Actualmente, Estados Unidos controla más del 70% de las GPU de gama alta a nivel mundial; tras la prohibición de chips, los chips de gama alta disponibles en el país solo representan 1/8 de los de Estados Unidos. El Informe del Índice de IA de Stanford 2026 indica que el número de centros de datos en Estados Unidos (5.427) es más de diez veces superior al de China.

Según cálculos del Instituto de Investigación de la Información y la Comunicación de China (CAICT), a principios de 2025, la capacidad de cómputo de Estados Unidos era de 2400 EFLOPS y la de China de 1053 EFLOPS, lo que significa que Estados Unidos tiene más del doble que China.

La capacidad de cómputo que poseen estas cuatro gigantes tecnológicas, cada una por separado, ya supera la suma de todas las empresas de IA de China.

Esta ventaja abrumadora en poder de cómputo permite a las empresas estadounidenses completar docenas de iteraciones de experimentos con modelos grandes en un solo año.

Musk es aún más lujoso: su xAI posee el Colossus 2, denominado el primer cluster de IA de GW a nivel mundial. Por ello, tiene la confianza para afirmar que está entrenando simultáneamente siete modelos: dos de un billón de parámetros, dos de 1.5 billones, uno de 6 billones y otro de 10 billones. Esta "estética de la fuerza bruta" solo es posible con una capacidad de cómputo extremadamente abundante.

Al mismo tiempo, debido a las restricciones estadounidenses sobre la exportación de chips, la cuota obtenida por las empresas chinas en los chips AI de gama alta enviados en los últimos años ha seguido disminuyendo (según estadísticas de epoch.AI).

Sin exagerar, la enorme brecha en la capacidad de cómputo hará que la IA china permanezca durante mucho tiempo en una fase de追赶, y hará aún más difícil que los grandes modelos nacionales alcancen a sus homólogos estadounidenses.

Diferencia generacional

El ritmo de innovación de China es incontenible; quien piense que China no puede lograrlo (los chips) realmente se equivoca. La brecha entre China y Estados Unidos es solo de nanosegundos.

Jensen Huang, fundador de NVIDIA, ha elogiado en múltiples ocasiones los avances de la industria semiconductora china.

Musk también suele expresar opiniones similares en X: "China resolverá sin duda el problema de la dependencia de los chips; en el ámbito de la capacidad de cómputo para inteligencia artificial, superará con creces a todos los demás países del mundo", "China ganará la carrera de IA en la Tierra".

Las alabanzas exageradas de figuras influyentes del mundo tecnológico sobre el desarrollo de la IA en China pueden hacer que uno las crea fácilmente. Estos comentarios claramente tienen el sospechoso propósito de alabar hasta destruir. Algunos medios estadounidenses continúan promoviendo la narrativa de que la brecha entre los modelos chinos y estadounidenses es mínima, intentando confundir la realidad y ocultar ciertas verdades objetivas.

Para esto, todos los ámbitos relacionados con la inteligencia artificial en el país deberían mantenerse conscientes y tranquilos.

Si hoy en día los grandes modelos avanzados de China tienen una diferencia mínima con sus competidores estadounidenses al resolver problemas estandarizados, entonces en entornos industriales y empresariales complejos, la brecha se vuelve mucho más evidente.

En comparación con los modelos de vanguardia de empresas estadounidenses como Anthropic, China aún es un seguidor. La evaluación de CAISI de EE. UU. indica que el más avanzado modelo nacional, DeepSeek V4 Pro, se encuentra aproximadamente 8 meses detrás de la vanguardia estadounidense.

Li Kaifu señaló recientemente en una entrevista con The Wall Street Journal que, con modelos estadounidenses de primer nivel como Claude Fable 5 lanzado por Anthropic como referencia, Estados Unidos actualmente lleva una ventaja de aproximadamente 15 meses sobre China.

Los modelos grandes siguen la ley de escalado: cuanto mayor sea la cantidad de parámetros del modelo, más datos de entrenamiento se utilicen y mayor sea la potencia de cómputo invertida, mejor será el rendimiento del modelo. Actualmente, los modelos grandes más avanzados de Estados Unidos han entrado en la era de los diez billones de parámetros, y su velocidad de iteración sigue aumentando.

El modelo más potente de Anthropic, Mythos, ya alcanza 10 billones de parámetros, y su entrenamiento requiere 10 mil millones de dólares; xAI está entrenando simultáneamente 7 modelos con Colossus 2, incluyendo modelos de 6 y 10 billones de parámetros; OpenAI completa un ciclo de iteración de un modelo de 4 billones de parámetros en solo un mes.

El modelo más potente de China, DeepSeek V4 Pro, tiene un total de 1.6 billones de parámetros, aproximadamente 6 veces menos que los modelos前沿 de Estados Unidos de diez billones.

La serie Claude, de Anthropic, ya se ha reconocido como el modelo de IA de programación más potente de los últimos dos años; Mythos vuelve a superar las expectativas del público, con un rendimiento aún más potente que el anterior modelo insignia, Opus 4.6.

OpenBSD tiene la reputación de ser el sistema más seguro del sector, pero Mythos encontró una vulnerabilidad que pasó desapercibida durante 27 años, además de descubrir vulnerabilidades en FFmpeg y el kernel de Linux que habían pasado desapercibidas durante años e incluso décadas, todo ello de forma autónoma, sin depender de humanos.

Hay que tener en cuenta que el "entrenamiento previo" de los modelos grandes determina el límite superior de su capacidad, y no es posible alcanzar el nivel de capacidad de un modelo de 10 billones de parámetros mediante "entrenamiento posterior" en un modelo de un billón de parámetros. El factor determinante en el entrenamiento previo son los chips de cómputo de alto rendimiento, que determinan la escala de parámetros y la velocidad de iteración del entrenamiento.

Liu Qingfeng, presidente de iFlytek, admitió abiertamente que actualmente todas las principales empresas de modelos grandes, especialmente los gigantes estadounidenses, están construyendo plataformas de cómputo de escala ultramasiva. Actualmente, el cómputo nacional enfrenta efectivamente un período de dificultades, lo que limita la capacitación en contextos de texto extremadamente largos.

Se puede ver que la brecha en el poder de cómputo es la raíz de la diferencia entre los modelos de EE. UU. y China.

Auge nacional

Una empresa monopoliza el 90% del mercado global de chips de entrenamiento de IA de gama alta, lo que ha ayudado a NVIDIA a mantener su posición como la empresa con la mayor capitalización bursátil del mundo. Su capitalización total superó en un momento el PIB de Alemania, la tercera economía más grande del mundo, en 2025.

Según datos de TrendForce, en el Q1 de 2026, NVIDIA representó el 68% del mercado global de servidores GPU, AMD ocupó entre el 5% y el 6%, y los fabricantes chinos de GPU en conjunto no superaron el 4%.

Gracias a su ventaja de primer movimiento, sólidas barreras tecnológicas, alta interconexión, ecosistema de software y la asociación con los procesos avanzados de TSMC, NVIDIA domina el mercado. En escenarios de entrenamiento de alto rendimiento, el GB300 de NVIDIA supera al AMD MI325 y también al思元690 de Cambricon y al MTT40 de Moore Threads, especialmente en el entrenamiento de modelos grandes con billones de parámetros, donde supera a sus competidores en más del 30%.

Bajo la prohibición de exportación, Huang Renxun ya había indicado que la cuota de mercado (nueva) de NVIDIA en China se ha reducido prácticamente a cero, quedando únicamente el mercado existente. Bajo el apoyo de la política de sustitución nacional, empresas como el Ascend 910 de Huawei, el DCU Shensuan No. 2 de Hygon, el Siyuan 370/590 de Cambricon, así como Moore y Muxi, han surgido sucesivamente.

El Ascend 910 es el chip de mayor potencia de cálculo de Huawei, con el Ascend 910B alcanzando 640 TOPS (INT8), comparable al chip NVIDIA A100.

En términos de rendimiento absoluto, las GPU nacionales aún presentan ciertas diferencias, pero pueden comenzar por escenarios de inferencia y borde. Actualmente, las GPU nacionales satisfacen básicamente las necesidades de inferencia general de entidades gubernamentales y empresariales en China, reduciendo la brecha con los productos de gama media de NVIDIA a entre el 15% y el 20%, lo que hace viable su sustitución.

Es importante destacar que, aunque el rendimiento de la potencia de cómputo es fundamental, el ecosistema de software técnico detrás de él es el punto débil de las GPU nacionales. Como el CUDA es la base del imperio de GPU de NVIDIA, el académico de la Academia China de Ingeniería Zheng Weimin señaló que el problema central de los chips de IA nacionales es que su ecosistema no es lo suficientemente bueno; si el ecosistema fuera sólido, incluso con un rendimiento del 60% habría quienes lo utilizarían.

Se puede decir que el ecosistema de software es la barrera más sólida en la carrera de GPU, y la capacidad de NVIDIA en este aspecto también es difícil de reemplazar.

El ecosistema CUDA, tras más de una década de desarrollo profundo, cuenta con más de 4 millones de desarrolladores, decenas de miles de modelos de código abierto y cadenas de herramientas de terceros para todas las categorías, abarcando entrenamiento de IA, inferencia, renderizado gráfico y cálculo científico, con una barrera ecológica sin igual.

Según datos de IDC, actualmente más del 95% de los modelos de IA en el mundo se desarrollan en el ecosistema CUDA. Los GPU nacionales, respaldados por políticas públicas, necesitan una colaboración a largo plazo con la cadena de suministro, así como paciencia por parte de los medios de comunicación y los mercados financieros.

En enero de este año, Zhipu colaboró con Huawei para lanzar de forma abierta el nuevo modelo de generación de imágenes GLM-Image, que se basa en el dispositivo Huawei Ascend Atlas 800T A2 y el marco de IA Ascend MindSpore, completando un ciclo completo desde el procesamiento de datos hasta el entrenamiento del modelo, y es el primer modelo multimodal SOTA entrenado completamente con chips nacionales;

Mole Thread, junto con el Instituto de Investigación de Inteligencia Artificial de Beijing, completó el entrenamiento completo del modelo RoboBrain 2.5, desarrollado internamente por Zhiyuan, utilizando el clúster de cómputo inteligente MTT S5000 y el marco FlagOS-Robo. Este logro validó por primera vez la viabilidad de los clústeres de cómputo nacionales en el entrenamiento de modelos grandes de inteligencia encarnada.

Se puede ver que las GPU nacionales ya han logrado avances en compatibilidad y construcción de ecosistema, pasando de una "ruptura puntual" en inferencia hacia una "adaptación progresiva" en entrenamiento, lo cual representa un gran avance.

Resumen

En general, ante la interrupción de la importación de chips avanzados del extranjero, es aconsejable adoptar un enfoque combinado de “integración entre Oriente y Occidente”, impulsando simultáneamente los chips de cómputo nacionales para satisfacer la urgente demanda del mercado.

La autenticidad de la demanda no es cuestionable; la teoría de la burbuja aún existe, pero su voz no se está volviendo más fuerte. La pasión del mercado global por la construcción de IA ya ha superado cualquier etapa temprana de desarrollo de una industria anterior.

Este año, los mercados de capitales globales han presenciado nuevamente un ciclo superinteligente artificial: las acciones de Samsung, SK Hynix, Broadcom y TSMC han alcanzado nuevos máximos históricos; en el mercado doméstico, tecnologías duras como Cambricon también han experimentado un fuerte repunte, y la capitalización de mercado del gigante de módulos ópticos InnoLight superó temporalmente la de Kweichow Moutai.

Al repasar la historia del desarrollo de la industria semiconductora de Corea del Sur, Corea apoyó con todo su esfuerzo nacional a la industria de chips de memoria, superó los momentos más oscuros y finalmente superó a Japón para convertirse en el absoluto líder mundial de la industria de memoria.

China still lags behind in storage chips, mobile chips, and even today’s AI chips—this is no feat that can be achieved overnight. However, with its massive market, a growing pool of AI talent, and substantial capital strength, domestic GPUs are beginning to demonstrate adaptability and address many real-world needs of AI companies.

En este juego de IA sobre el destino nacional, Estados Unidos y China son rivales, pero también poseen tecnologías, mercados y recursos que el otro necesita.

Este artículo proviene del canal de WeChat: Juetao WAVE, editado por Yang Xuran, autor: Xie Zefeng, título original: «El desafío de la potencia de cálculo bajo el juego de IA entre EE. UU. y China | Juetao»