Este artículo analizará en profundidad la situación actual de la implementación de chips AI desarrollados internamente por grandes empresas globales, argumentando desde una perspectiva económica y lógica técnica subyacente por qué la inversión masiva en chips propios es una elección inevitable para los gigantes tecnológicos, y realizará una proyección sobre los desafíos que enfrentan y el resultado final del futuro panorama de capacidad de cómputo.

Autor del artículo, fuente: 0x9999in1, ME News

Introducción

Desde el auge de la IA generativa a finales de 2022, la industria tecnológica global ha entrado en una nueva carrera armamentista centrada en modelos grandes. En esta competencia, la capacidad de cómputo se ha convertido en la infraestructura subyacente que determina el éxito o el fracaso. Nvidia, aprovechando su acumulación a largo plazo en el ámbito de los procesadores gráficos universales (GPU) y su dominio absoluto del ecosistema de software CUDA, ha capturado las ganancias más lucrativas de esta ola de IA. Sin embargo, unos márgenes brutos superiores al 70% y una capacidad insuficiente para satisfacer la demanda han sumido a los proveedores de servicios en la nube (CSP) y a las grandes empresas tecnológicas de IA en una ansiedad por el cómputo: “trabajar para Nvidia”.

Sobre esta base, «ME News Think Tank» observa que los principales gigantes tecnológicos globales están acelerando la extensión de su enfoque estratégico hacia el hardware subyacente, desatando una ola sin precedentes de “desarrollo propio de chips de IA”. Desde Google, Amazon, Microsoft y Meta en Norteamérica hasta Huawei, Baidu, Alibaba y ByteDance en China, la fabricación de chips por parte de las grandes empresas ha evolucionado desde una “prueba inicial” a una “estrategia central” que determina la supervivencia empresarial. Este artículo analizará en profundidad la situación actual de la implementación de chips de IA de desarrollo propio por parte de las grandes empresas globales, argumentando desde una perspectiva económica y lógica técnica por qué la inversión masiva en chips propios es una elección inevitable para los gigantes tecnológicos, y realizará una proyección sobre los desafíos que enfrentan y el futuro escenario de la capacidad de cómputo.

Estado actual de la implementación de chips AI desarrollados internamente por los principales gigantes tecnológicos globales

Actualmente, los chips AI desarrollados internamente por grandes empresas globales se centran principalmente en la nube (centros de datos), divididos en dos escenarios principales: entrenamiento (Training) e inferencia (Inference). A diferencia de la estrategia de NVIDIA orientada a la versatilidad, las grandes empresas suelen adoptar arquitecturas de circuitos integrados de propósito específico (ASIC), sacrificando parte de su versatilidad a cambio de una eficiencia energética óptima en escenarios internos específicos.

La triada de proveedores de nube de Norteamérica y el disruptor

Los cuatro grandes proveedores de nube de Norteamérica (los cuatro hyperscalers) tienen diferencias de tiempo en su desarrollo de chips propios, pero ahora han entrado completamente en el mercado, creando un "pozo de cobertura" contra la dependencia de la capacidad de cómputo de NVIDIA.

Google: pionero y referente absoluto de la ruta de desarrollo propio

Google fue la primera gran empresa en reconocer que el aprendizaje profundo exige nuevos requisitos para el hardware subyacente. Ya en 2015, Google implementó internamente la primera generación de unidades de procesamiento de tensores (TPU). Tras casi una década de iteraciones, la TPU actual ha evolucionado hasta la sexta generación (Trillium).

La ventaja de Google radica en su ecosistema cerrado: desde el hardware TPU de nivel inferior, hasta el compilador XLA y el marco JAX en la capa intermedia, y hasta el modelo grande Gemini en la capa superior. Esta colaboración integral entre software y hardware permite a Google entrenar modelos grandes multimodales de primer nivel mundial sin depender de clústeres de GPU de NVIDIA. Las mejoras significativas en ancho de banda de interconexión y memoria de alto ancho de banda (HBM) en TPU v5p y Trillium demuestran que Google ya posee la capacidad de red de clústeres a gran escala para competir con NVLink de NVIDIA.

Amazon (AWS): centrado en el costo y la elección del cliente

La historia de AWS en el diseño de chips comenzó en 2015 con la adquisición de Annapurna Labs. En el campo de la IA, AWS ha desarrollado dos líneas de productos: Trainium (orientado al entrenamiento) e Inferentia (orientado a la inferencia). La estrategia de AWS es profundamente pragmática: no busca reemplazar completamente las GPU con chips propios, sino ofrecer a sus clientes de nube opciones de potencia de cómputo de alto rendimiento y bajo costo. Según datos oficiales de AWS, el uso del chip Inferentia2 para la inferencia de modelos grandes ofrece un 50 % más de rendimiento por vatio en comparación con instancias Amazon EC2 similares.

Microsoft y Meta: de pagar pasivamente a romper activamente

Microsoft y Meta fueron los mayores compradores previos de los H100/A100 de NVIDIA. Para respaldar el entrenamiento de OpenAI y su negocio de Copilot, Microsoft lanzó oficialmente a finales de 2023 su propio chip de aceleración AI, Azure Maia 100. Este chip utiliza el proceso de 5 nm de TSMC y está diseñado específicamente para entrenamiento e inferencia en la nube.

La ruta de Meta está altamente alineada con su propio negocio. Su chip MTIA (Meta Training and Inference Accelerator), inicialmente diseñado para modelos de recomendación de aprendizaje profundo (DLRM), busca optimizar la entrega de anuncios en Facebook e Instagram. Con el auge de los modelos de lenguaje grandes de código abierto de la serie Llama, la nueva generación de chips MTIA ha mejorado significativamente el soporte para la inferencia de IA generativa, con el objetivo de reducir los costos de inferencia exorbitantes generados por cientos de millones de llamadas.

La sustitución nacional y la ruptura ecológica de las grandes empresas chinas

A diferencia de las grandes empresas de Norteamérica que buscan “reducir costes y aumentar la eficiencia”, los gigantes tecnológicos chinos, frente a las restricciones de exportación estadounidenses sobre chips AI de alta gama, desarrollan chips AI propios con un enfoque estratégico de “defensa mínima” y “seguridad de la cadena de suministro”.

Huawei: pilar del poder de cómputo nacional

La serie Ascend de Huawei es actualmente el único producto nacional capaz de reemplazar a los A100/H20 de NVIDIA en entrenamiento en clústeres de escala ultramasiva. El Ascend 910B utiliza la arquitectura Da Vinci y está profundamente integrado con marcos nacionales como MindSpore a través de la capa CANN (Computational Architecture for Neural Networks). Actualmente, más de la mitad de los principales modelos grandes nacionales (como Xinghuo de iFlytek y Zhipu AI) han completado o están en proceso de adaptación y entrenamiento sobre la base de cálculo Ascend.

La estrategia práctica de las grandes empresas de internet: Baidu, Alibaba y ByteDance

El chip Kunlun de Baidu es uno de los primeros chips AI desarrollados internamente por una gran empresa de internet en China, ya ha llegado a su tercera generación y respalda integralmente la inferencia y ciertos ajustes finos del modelo grande Wenxin Yiyan. Alibaba's Pingtouge Semiconductor lanzó el Hanguang 800, centrado principalmente en escenarios de inferencia de alta concurrencia internos de Alibaba, como búsqueda de comercio electrónico e identificación de imágenes. ByteDance, como la empresa con la mayor demanda de capacidad de cómputo para algoritmos de recomendación a nivel mundial, aunque entró más tarde al mercado, está activamente colaborando con gigantes del diseño y fabricación de chips como TSMC y Broadcom para desarrollar chips ASIC personalizados para AI, con el fin de hacer frente al enorme consumo diario de inferencia de su modelo grande DouBao y de TikTok/Douyin.

Tabla 1: Visión general de la distribución de chips de IA de los principales gigantes tecnológicos mundiales

Análisis profundo: ¿Por qué las grandes empresas deben invertir fuertemente en chips AI propios?

Desarrollar un chip de IA con un proceso avanzado (como 5 nm/3 nm) implica costos de fabricación de decenas de millones de dólares, además de requerir mantener un amplio equipo de diseño de chips y validación de software. Frente a esta barrera tan elevada, las grandes empresas tecnológicas continúan entrando en este campo; «ME News智库» considera que esto se debe a una lógica comercial clara, la negociación en la cadena de suministro y leyes tecnológicas fundamentales.

Altos costos de hash y falta de sostenibilidad del modelo de negocio

El modelo de negocio actual de la IA generativa enfrenta un grave riesgo de inversión inversa. Entrenar un modelo de gran escala de nivel GPT-4 con billones de parámetros requiere decenas de miles de GPU H100 funcionando durante meses, con un gasto de capital en hardware (CapEx) que supera cientos de millones de dólares. Una vez desplegado el modelo, los costos continuos de inferencia se convierten en un pozo sin fondo.

NVIDIA posee una capitalización de mercado superior a un billón de dólares porque, en esencia, cobra un alto "impuesto de potencia de cómputo" a toda la industria de la IA. Los GPU generales deben equilibrar funciones como la renderización gráfica (Graphics) y el cálculo en punto flotante de doble precisión (FP64), las cuales ocupan una gran cantidad de área de transistores en el chip, pero son inútiles en el aprendizaje profundo puro (que depende principalmente de FP16, FP8 e incluso INT8). Cuando las grandes empresas compran GPU, en realidad están pagando por esta "silicio oscuro (Dark Silicon)" que no se utiliza.

Mediante chips ASIC personalizados desarrollados internamente, las grandes empresas pueden eliminar todas las funciones redundantes y utilizar cada centímetro cuadrado de superficie de silicio para optimizar el cálculo tensorial y el ancho de banda de memoria. Según la evaluación de la industria, en escenarios específicos de inferencia a gran escala, el costo por cálculo unitario (TCO) de los ASIC personalizados es solo de 1/3 a 1/5 del costo de los GPU genéricos. Para empresas como Meta y ByteDance, que requieren miles de millones de llamadas de inferencia diariamente, una vez que los chips personalizados se implementen a gran escala, los ahorros anuales en gastos operativos (OpEx) ascenderán a miles de millones de dólares. Invertir cientos de millones de dólares en el desarrollo de chips para obtener ahorros de costos de decenas de miles de millones de dólares es una ecuación económica con una rentabilidad altamente segura.

Hedging supply chain security and geopolitical risks

Además del costo, la vulnerabilidad de la cadena de suministro es la espada de Damocles que cuelga sobre las grandes tecnológicas. NVIDIA tiene el control absoluto sobre la asignación de capacidad, y los tiempos de entrega de tarjetas gráficas clave como la H100/B200 suelen extenderse por meses. Sin capacidad de cómputo, el avance de los negocios de IA de las grandes empresas se detiene.

Desarrollar sus propios chips es, en esencia, aumentar el “poder de negociación” frente a NVIDIA. Incluso si las grandes empresas no pueden eliminar por completo la dependencia de NVIDIA en el entrenamiento de modelos de vanguardia, el uso de chips propios en inferencia y sistemas de recomendación reduce significativamente la dependencia absoluta de GPU genéricas externas, otorgando así más margen de maniobra en las negociaciones de compra.

Para las empresas chinas, el desarrollo propio de chips es una opción inevitable e ineludible. Debido a las regulaciones de control de exportación de la BIS del Departamento de Comercio de EE.UU., las empresas nacionales no pueden obtener chips comerciales con la mayor densidad de cálculo y ancho de banda de interconexión. Construir una base de cálculo autónoma y controlable mediante el desarrollo propio y la integración con sistemas de fabricación semiconductora nacionales o no estadounidenses es la única vía para garantizar la soberanía nacional en IA y la continuidad de los negocios de los centros de datos empresariales.

Optimización conjunta de hardware y software y barreras competitivas diferenciadas

Hoy en día, con la ley de Moore desacelerándose, los aumentos de rendimiento derivados únicamente de la tecnología de fabricación de chips (por ejemplo, pasar de 5 nm a 3 nm y luego a 2 nm) están experimentando efectos marginales decrecientes. Los futuros avances en capacidad de cómputo dependerán cada vez más de la “definición de hardware por software” y el “diseño conjunto de software y hardware (Hardware-Software Co-design)”.

Las GPU genéricas deben ser compatibles con miles de aplicaciones y algoritmos diferentes, por lo que su arquitectura debe ser neutral. En cambio, los chips desarrollados internamente por grandes empresas pueden optimizarse específicamente según los tipos de datos, las características de dispersión y los patrones de comunicación de sus modelos principales.

Por ejemplo, si el enfoque principal de una gran empresa es la inferencia de modelos de lenguaje de gran contexto (long-context), sus chips desarrollados internamente pueden diseñarse para maximizar extremadamente la capacidad de SRAM en chip o el ancho de banda de memoria HBM, en lugar de perseguir ciegamente el pico de rendimiento (FLOPS). Esta capacidad de “grabar” sus propios algoritmos de IA en la capa de silicio subyacente permite crear una experiencia de rendimiento que los competidores no pueden replicar fácilmente, construyendo así una ventaja competitiva profunda.

Retos reales y caminos para superarlos en el desarrollo de chips AI propios

Aunque el valor estratégico de los chips AI desarrollados internamente es evidente, no es un camino fácil. Fabricar chips ciegamente no solo puede llevar a que se pierdan grandes cantidades de capital, sino que también puede ralentizar la iteración de sus propios negocios de IA.

Trascendiendo las barreras ecológicas: ¿Qué tan profundo es el foso de CUDA?

La barrera más formidable de NVIDIA no es el rendimiento del hardware, sino su ecosistema de software CUDA, desarrollado durante casi dos décadas. Actualmente, la gran mayoría de los desarrolladores de IA y las bibliotecas de algoritmos de IA de primer nivel (como los operadores subyacentes de PyTorch) están profundamente vinculados a CUDA.

El mayor desafío al que se enfrentan los grandes fabricantes con sus propios chips es “fáciles de fabricar, difíciles de usar”. Incluso si el proceso de fabricación tiene éxito, si los desarrolladores necesitan meses para reescribir el código de bajo nivel y adaptarlo al compilador del nuevo chip, este no podrá implementarse internamente.

Para romper el monopolio, la industria está lanzando un rodeo contra CUDA. Por un lado, las grandes empresas están desarrollando activamente sus propios compiladores (como XLA de Google); por otro, se confía mucho en Triton, el lenguaje de programación de código abierto lanzado por OpenAI. Triton busca ofrecer un lenguaje con un nivel de abstracción superior al de CUDA: los desarrolladores solo necesitan escribir el código una vez, y el compilador Triton lo convertirá en código máquina adaptado a distintos hardware subyacentes (como GPU de Nvidia, GPU de AMD e incluso ASIC de diversos fabricantes). Una vez que Triton o un ecosistema intermedio similar madure, el periodo de bloqueo de CUDA se verá significativamente reducido, y el costo de migración para los chips desarrollados internamente por las grandes empresas disminuirá notablemente.

La tensión entre los altos costos de investigación y desarrollo y los efectos de escala

La industria de los chips es un mercado de ganador se lleva todo que enfatiza extremadamente los efectos de escala. NVIDIA puede distribuir sus enormes costos de investigación y desarrollo entre millones de unidades de GPU enviadas globalmente. Por otro lado, los chips desarrollados internamente por grandes empresas suelen utilizarse solo internamente o para sus propios inquilinos en la nube, con volúmenes de envío que podrían ser de solo decenas de miles o cientos de miles.

Si no se logra una escala suficiente, el costo amortizado por chip diseñado internamente será mucho mayor que el de comprar directamente GPUs genéricas. Por lo tanto, el desarrollo propio de chips de IA está destinado a ser solo un “juego valiente para unas pocas grandes empresas”. Para las empresas tecnológicas de mediana y larga cola, intentar diseñar chips de IA subyacentes no solo es financieramente insostenible, sino que también no puede seguir el ritmo de actualización tecnológica de fabricantes especializados como NVIDIA; la opción más inteligente es adoptar servicios de nube de capacidad de cómputo listos para usar.

Tabla 2: Comparación de ventajas y desventajas entre GPU comerciales genéricas y chips ASIC desarrollados internamente por grandes empresas

Análisis: La evolución final del panorama de la potencia de cálculo

Con base en el análisis anterior, «ME News智库» realiza las siguientes evaluaciones sobre el panorama global de la capacidad de cómputo de IA para los próximos 3 a 5 años:

De "un superpoder con múltiples fuertes" a "segmentación vertical": GPU domina el entrenamiento, ASIC ocupa la inferencia

NVIDIA seguirá siendo el rey insustituible para explorar los límites de los modelos de IA de vanguardia (Frontier Models) durante un período muy prolongado en el futuro, ya que en el entrenamiento de parámetros extremadamente complejos y a gran escala, los algoritmos aún presentan una alta incertidumbre, y esta etapa requiere extremadamente la versatilidad de las GPU y la flexibilidad y capacidad de corrección del ecosistema CUDA.

Sin embargo, en la fase de inferencia tras el maduramiento del modelo, así como en el despliegue diario de aplicaciones de internet a gran escala (como recomendaciones de videos cortos o reescritura de motores de búsqueda), el alto costo de las GPU generales obligará a las empresas a migrar completamente hacia ASIC personalizados de desarrollo propio. Los centros de datos del futuro serán heterogéneos: unos pocos clusters de GPU extremadamente costosos dedicados a “cocinar” (entrenar los próximos modelos grandes), mientras que inmensos clusters de ASIC de desarrollo propio se encargarán de atender miles de millones de llamadas diarias de usuarios finales.

La silicona personalizada se convierte en estándar para servicios en la nube

Al igual que los grandes centros de datos de hoy en día diseñan sus propias placas base y sistemas de refrigeración, personalizar hasta el nivel más profundo del chip se convertirá en un estándar para los principales proveedores de nube (CSP). La capacidad de desarrollar chips propios se convertirá en la competencia clave que los proveedores de nube utilizarán para vender servicios de IA a sus clientes. Los proveedores de nube que no puedan desarrollar hardware de bajo nivel perderán por completo su margen de beneficio en las futuras guerras de precios y se convertirán en meros “subarrendatarios de centros de datos”.

En resumen, los grandes fabricantes que desarrollan sus propios chips de IA no buscan eliminar por completo a NVIDIA, sino librar una batalla por el control de la distribución de beneficios en la era de la IA. A través de la independencia en capacidad de cómputo en el extremo de inferencia y en sus operaciones internas clave, las grandes empresas tecnológicas están recuperando el control sobre los pilares tecnológicos y los beneficios comerciales. En esta profunda transformación de software y hardware coordinados, la capacidad de cómputo ya no es simplemente un producto que se puede comprar, sino el activo estratégico más importante de una empresa.

Fuente de referencia:

Semianalysis. (2024). AI Inference Economics: GPUs vs Custom Silicon.
Stanford University HAI. (2024). Artificial Intelligence Index Report 2024.
Bloomberg Technology. (2023). Microsoft presentará un chip de IA para reducir la dependencia de Nvidia.
Patterson, D., et al. (2021). Emisiones de carbono y entrenamiento de redes neuronales grandes. arXiv preprint.
AWS Blog Oficial. (2023). Instancias Amazon EC2 Inf2 para IA generativa de bajo costo y alto rendimiento.