Cuellos de botella en la cadena de suministro de cómputo de IA pasan de las GPU a la energía y el enfriamiento

Autor: qinbafrank

En febrero, en “¿Qué significa esta guerra de gasto de capital?”, se mencionó que los eslabones clave de la cadena de valor de la capacidad de cómputo aún pueden capturar el mayor valor: chips, empaquetado y prueba, almacenamiento, módulos ópticos, etc.; aquellos con capacidad que no se puede expandir rápidamente y aquellos con altísimas barreras de entrada disfrutarán de los beneficios del enorme gasto de capital.

Aún existe un gran margen de optimización de eficiencia: técnicas como la distilación, cuantización, MoE, chips dedicados, refrigeración líquida y fusión nuclear (a largo plazo) en el extremo de inferencia podrían reducir el consumo energético y el costo por unidad de potencia de cómputo entre 10 y 100 veces. Es necesario buscar oportunidades en estos aspectos.

Recientemente, varios bancos de inversión, incluidos Morgan Stanley, JPMorgan Chase, Bank of America, Goldman Sachs, UBS, Citigroup, Bernstein y HSBC, publicaron informes actualizados sobre IA, semiconductores, energía y almacenamiento. La limitación en el hardware de IA ya ha pasado de una sola dimensión, "la oferta de GPU", a una tensión colectiva en cinco dimensiones: energía, chips, almacenamiento, equipos y materiales.

La demanda de IA ya ha superado todos los intervalos de predicción de la planificación tradicional de energía, la capacidad de producción de equipos semiconductores, los modelos de precios de almacenamiento y las suposiciones sobre la instalación de robots.

El repaso de investigación temática global de Morgan Stanley señala que el consumo semanal global de tokens de modelos de lenguaje grande aumentó de 6,4 billones a 22,7 billones en tres meses, un crecimiento de 2,5 veces; la brecha de electricidad para centros de datos en Estados Unidos entre 2025 y 2028 es de 55 gigavatios; JPMorgan, en su primera cobertura de bonos para proyectos de cómputo de alto rendimiento en centros de datos, estimó directamente una brecha de financiación de "122 gigavatios en los próximos cinco años"; la planificación eléctrica de Estados Unidos para cinco años aumentó de 101 a 230 gigavatios, y el 44% de los nuevos proyectos esperan más de cuatro años para su conexión a la red; en el informe más reciente de Bank of America sobre Alphabet, el gasto de capital para 2026 se revisó al alza hasta 181.500 millones de dólares, duplicándose año tras año, mientras que el flujo de efectivo libre disminuyó un 62%. Estos tres conjuntos de datos no son el resultado de un mismo marco, sino retratos independientes generados por tres instituciones distintas a través de rutas de investigación propias.

La evolución de los cuellos de botella en la cadena de suministro de semiconductores (especialmente en el ámbito de la capacidad de cómputo para IA) sigue un orden claro y progresivo: de “cómputo (GPU) → almacenamiento (HBM, etc.) → interconexión óptica → electricidad/refrigeración líquida”. Este es el consenso de la industria para 2025-2026. A medida que los clústeres de entrenamiento/inferencia de IA se expanden desde un solo gabinete (decenas de GPU) hasta escalas ultramasivas (miles a decenas de miles de GPU), cada vez que se resuelve un cuello de botella, inmediatamente se revela la siguiente limitación física o de cadena de suministro, generando restricciones complementarias de tipo “Leontief” (falta uno, no se puede enviar).

Módulo óptico

Es importante comprender por qué ha ocurrido esta evolución, el estado actual y las razones físicas/ingenieriles detrás de ella:

1. Cuello de botella de la fase uno: cálculo GPU (dominante en 2022-2024) Limitación principal:

La capacidad de oblea de GPU de gama alta (como NVIDIA Hopper H100 → Blackwell B200 → Rubin) + empaquetado avanzado.

¿Por qué es un cuello de botella?: Los grandes modelos de IA requieren una gran cantidad de cálculo paralelo; la capacidad de producción de los procesos lógicos TSMC 4nm/3nm/2nm junto con CoWoS (empaquetado 2.5D/3D) se convirtió en el mayor cuello de botella. Incluso si hay suficiente oblea frontal, si la capacidad posterior para empaquetar y apilar chips lógicos con HBM no sigue el ritmo, no se puede producir toda la GPU.

Situación aliviada: TSMC está expandiendo en gran medida CoWoS (duplicando la capacidad de 2024 a 2025), y NVIDIA Blackwell ya se ha enviado en gran escala. Pero esto solo desbloquea la etapa de "cómputo", inmediatamente revelando nuevos problemas.

2. Cuello de botella de la segunda fase: almacenamiento (HBM, memoria de alto ancho de banda, se convertirá en la más escasa en 2024-2025)

Restricción principal: capacidad de HBM3/HBM3e/HBM4.

Por qué el relevo se convierte en un cuello de botella: la potencia de cálculo de la GPU ha aumentado, pero los parámetros del modelo han crecido exponencialmente (billones e incluso decenas de billones de parámetros), y la transferencia de datos (ancho de banda de memoria) se ha convertido en la "pared de memoria". HBM puede transferir varios TB de datos por segundo, más de 20 veces más rápido que la memoria DDR convencional. Debido a que HBM está ubicado cerca del chip lógico, los datos no necesitan recorrer largas distancias, lo que reduce el consumo de energía.

Una GPU B200 requiere 192 GB o más de HBM3e; el total de HBM por gabinete (NVL72) ya alcanza los 30-40 TB, y la demanda de ancho de banda supera con creces la de la DRAM tradicional.

Estado actual de la cadena de suministro: Solo SK Hynix, Samsung y Micron pueden producir HBM a escala; el proceso es complejo (TSV y apilamiento). Todo el HBM de 2025 ya está agotado, y la oferta seguirá siendo insuficiente en 2026, con un aumento de precios del 246% interanual. Incluso si los chips GPU están listos, sin HBM no se pueden ensamblar ni entregar, lo que retrasa toda la implementación de clústeres de IA.

Resultado: El almacenamiento se ha convertido de un producto en un punto crítico estratégico, y su participación en el gasto de capital puede alcanzar el 30%.

3. Cuello de botella de la tercera fase: interconexión óptica (en transición durante 2025-2026)

Límite fundamental: los cables de cobre (NVLink/NVSwitch) tienen límites físicos en ancho de banda, distancia, consumo de energía y peso.

Por qué la transición hacia la luz es inevitable: dentro de un solo gabinete (72 GPUs), aún se puede utilizar cableado de cobre, pero al expandirse a múltiples gabinetes y conectar miles de GPUs, el cableado de cobre sufre una atenuación severa (distancia efectiva <1 metro bajo un ancho de banda de 1.8 TB/s), un peso excesivo (más de 5,000 cables de cobre en el gabinete NVL72, con un peso total de 1.36 toneladas) y un alto consumo energético (la sustitución de los cables de cobre por módulos ópticos intercambiables aumenta el consumo en 20,000 vatios). La integridad de la señal, la latencia y la disipación térmica no pueden soportar clusters más grandes.

Solución: adoptar la interconexión óptica (CPO: óptica empaquetada conjuntamente + tecnología de fotónica en silicio). Integre directamente el motor óptico junto a la GPU/ASIC y utilice fibra óptica para Scale-Out, logrando una mayor densidad de ancho de banda, menor consumo de energía por bit y distancias más largas.

Módulo óptico

NVIDIA ha realizado una fuerte apuesta en la GTC de 2026, invirtiendo en empresas de tecnología óptica, lo que ha generado un crecimiento explosivo en la demanda de módulos ópticos de 800G/1.6T. Lite, Broadcom, Coherent, Ayar Labs y otras se han convertido en nuevos ganadores.

Avance actual: El cableado de cobre ha alcanzado su límite; la interconexión óptica está pasando de ser una "opción" a convertirse en una "necesidad", superando el techo de rendimiento de los centros de datos de IA.

4. Cuello de botella de la cuarta fase (la frontera más avanzada actual): Electricidad + refrigeración líquida (a partir de 2026, se convertirá en la restricción física final). Limitación principal: pared de consumo de energía + pared de disipación de calor + acceso a la red eléctrica.

¿Por qué es el cuello de botella definitivo: cada GPU pasa de 300 W a 700-1200 W, y cada gabinete pasa de 10-20 kW (era CPU) a 120-200 kW o más. El límite físico del enfriamiento por aire tradicional es solo de 20-50 kW; el ruido, el flujo de aire y el consumo energético son inaceptables.

Lado eléctrico: Los centros de datos requieren suministro de potencia en GW; la cola para la conexión a la red eléctrica puede durar años, y los ciclos de entrega de equipos como transformadores y transformadores de estado sólido se han extendido hasta 100 semanas. El CEO de Microsoft afirmó directamente: “Tengo GPU, pero no hay tomas de corriente”.

Lado de refrigeración líquida: se debe cambiar a refrigeración líquida directa al chip (Direct-to-Chip) o refrigeración por inmersión, combinando tecnologías como microfluídica y placas frías. TSMC ya ha demostrado en la plataforma CoWoS la refrigeración líquida basada en silicio, con soporte para TDP > 2,6 kW. Fabricantes de refrigeración líquida y gestión térmica como Vertiv (VRT) se convierten en el nuevo núcleo de la infraestructura.

Efecto dominó: Los requisitos de PUE (eficiencia en el uso de la energía) deben ser <1.2, y la recuperación de calor residual, así como la integración de energía nuclear o nuevas fuentes de energía, se convierten en nuevos temas. Incluso si todos los pasos anteriores se resuelven, sin electricidad y refrigeración, los gabinetes no pueden instalarse ni funcionar.

Módulo óptico

La lógica esencial detrás del desplazamiento de cuellos de botella en la cadena de suministro de la potencia de cómputo de IA: La potencia de cómputo de IA no es un problema "puntual", sino una función de producción Leontief sistémica: GPU, HBM, interconexión, electricidad y refrigeración deben coincidir con el componente más débil. Cada vez que un hyperscaler (Google, Microsoft, Meta, etc.) resuelve un cuello de botella, inmediatamente redirige capital e innovación hacia el siguiente eslabón.

Actualmente (2026), se encuentra en la transición entre la aceleración de la implementación de interconexiones ópticas y la comercialización a gran escala de electricidad/refrigeración líquida; es posible que surjan nuevas limitaciones en el futuro (como láseres, materiales de fibra óptica o transformadores de red eléctrica), pero esta cadena de “cálculo → almacenamiento → óptico → eléctrico/refrigeración” ya se ha convertido en una ruta reconocida por la industria.

Esto también explica por qué la lógica de inversión ha pasado de NVIDIA/TSMC a los tres grandes de HBM (SK Hynix, etc.), fabricantes de tecnología óptica (Lumentum, Coherent) e infraestructura de refrigeración líquida y energía (Vertiv, empresas relacionadas de alimentación eléctrica).

Cada transferencia de cuello de botella reconfigura la distribución de valor en toda la cadena de valor de semiconductores y centros de datos.