Les goulets d'étranglement de la chaîne d'approvisionnement en calcul IA passent des GPU à l'alimentation et au refroidissement

Auteur : qinbafrank

En février, dans « Que signifie cette guerre des dépenses en capital ? », nous avons abordé les étapes clés de la chaîne de valeur des calculateurs qui continuent d’extraire la plus grande valeur : puces, emballage et test, stockage, modules optiques, etc. Les capacités difficiles à étendre rapidement et celles dotées d’un avantage concurrentiel très élevé bénéficieront des retombées des importantes dépenses en capital.

Il reste encore de grandes possibilités d’optimisation de l’efficacité : le distillation, la quantification, le MoE, les puces dédiées, le refroidissement liquide et la fusion nucléaire (à long terme) sur le côté inférence pourraient réduire la consommation énergétique et le coût par unité de calcul de 10 à 100 fois. Il faut chercher des opportunités dans ces domaines.

Récemment, plusieurs banques d'investissement — Morgan Stanley, JPMorgan Chase, Bank of America, Goldman Sachs, UBS, Citigroup, Bernstein et HSBC — ont publié des rapports mis à jour sur l'IA, les semi-conducteurs, l'électricité et le stockage. Les goulots d'étranglement dans l'infrastructure de l'IA se sont étendus au-delà de la seule offre de GPU pour inclure une tension collective sur l'électricité, les puces, le stockage, les équipements et les matériaux.

La demande en IA a dépassé tous les intervalles de prévision des modèles traditionnels de planification énergétique, de capacité de production d'équipements semi-conducteurs, de prix du stockage et d'hypothèses d'installation de robots.

La revue de recherche thématique mondiale de Morgan Stanley indique que la consommation hebdomadaire mondiale de tokens de modèles linguistiques massifs a augmenté de 6,4 billions à 22,7 billions en trois mois, soit une hausse de 2,5 fois, avec un déficit électrique de 55 GW pour les centres de données aux États-Unis entre 2025 et 2028 ; JPMorgan, dans sa première couverture des obligations pour des projets de calcul haute performance dans les centres de données, évalue directement le déficit de financement à 122 GW sur les cinq prochaines années ; la planification énergétique américaine sur cinq ans passe de 101 GW à 230 GW, avec 44 % des nouveaux projets en attente de raccordement pendant plus de quatre ans ; dans le dernier rapport d'objectif de prix pour Alphabet de Bank of America, les dépenses en capital pour 2026 ont été révisées à 181,5 milliards de dollars, en hausse de 100 % en glissement annuel, tandis que le cash-flow libre a diminué de 62 %. Ces trois jeux de données ne proviennent pas d'un même cadre, mais représentent des évaluations indépendantes réalisées par trois institutions distinctes selon des approches de recherche différentes.

La progression des goulets d'étranglement dans la chaîne de valeur des semi-conducteurs, en particulier dans le domaine de la puissance de calcul pour l'IA, suit un ordre clair : « calcul (GPU) → stockage (HBM, etc.) → interconnexion optique → électricité / refroidissement liquide ». C'est un consensus industriel pour 2025-2026 : à mesure que les clusters d'entraînement et d'inférence IA évoluent d'une seule baie (dizaines de GPU) vers une échelle ultra-élevée (des milliers à des centaines de milliers de GPU), la résolution de chaque goulot d'étranglement révèle immédiatement la contrainte physique ou de chaîne d'approvisionnement suivante, créant des contraintes complémentaires de type « Leontief » (l'absence d'un seul élément empêche toute livraison).

Module optique

Il est nécessaire de comprendre pourquoi cette évolution est survenue, l'état actuel et les raisons physiques/ingénierie sous-jacentes :

1. Goulot d'étranglement de la première phase : calcul GPU (dominant de 2022 à 2024) Limitation principale :

La capacité de wafer des GPU haut de gamme (comme NVIDIA Hopper H100 → Blackwell B200 → Rubin) + l'emballage avancé.

Pourquoi c’est un goulot d’étranglement : les grands modèles d’IA nécessitent un calcul massivement parallèle ; la capacité de production des procédés logiques TSMC 4nm/3nm/2nm combinés au CoWoS (emballage 2.5D/3D) est devenue le principal point de blocage. Même si les wafers avant sont suffisants, si la capacité en arrière-plan pour empiler et emballer les puces logiques avec les HBM ne suit pas, les GPU complets ne peuvent pas être produits.

Situation atténuée : TSMC élargit massivement CoWoS (capacité doublée en 2024-2025), et NVIDIA Blackwell est déjà livré en grande quantité. Mais cela ne débloque que la phase « calcul », révélant immédiatement de nouveaux problèmes.

2. Goulot d'étranglement de la deuxième phase : stockage (HBM, mémoire à haut débit, le plus critique en 2024-2025)

Contrainte principale : capacité de production HBM3/HBM3e/HBM4.

Pourquoi le transfert de données devient un goulot d'étranglement : la puissance de calcul GPU a augmenté, mais le nombre de paramètres du modèle a explosé (des milliers de milliards, voire des dizaines de milliards de paramètres), faisant du transfert de données (bande passante mémoire) un « mur de mémoire ». HBM peut transférer plusieurs To par seconde, soit plus de 20 fois plus vite que la mémoire DDR classique. Étant donné que HBM est situé à proximité immédiate du circuit logique, les données n'ont pas besoin d'être transmises sur de longues distances, ce qui réduit la consommation d'énergie.

Une GPU B200 nécessite 192 Go+ de HBM3e ; le total HBM par baie (NVL72) atteint déjà 30 à 40 To, avec une demande en bande passante bien supérieure à celle de la DRAM traditionnelle.

État actuel de la chaîne d'approvisionnement : Seules SK Hynix, Samsung et Micron sont capables de produire à grande échelle des HBM, avec un processus complexe (via de silicium TSV + empilement). Toute la production de 2025 est déjà vendue, et la demande continuera de dépasser l'offre en 2026, entraînant une hausse des prix de 246 % en glissement annuel. Même si les puces GPU sont prêtes, l'absence de HBM empêche l'assemblage et la livraison, provoquant des retards dans le déploiement de l'ensemble du cluster AI.

Résultat : Le stockage est passé d’un simple « produit » à un point critique stratégique ; la part des dépenses en capital consacrées au stockage peut atteindre 30 %.

3. Goulet d'étranglement de la troisième phase : interconnexion optique (en cours de transition en 2025-2026)

Contrainte fondamentale : les limites physiques des câbles en cuivre (NVLink/NVSwitch) en termes de bande passante, de distance, de consommation d'énergie et de poids.

Pourquoi le passage à la lumière est inévitable : dans un seul rack (72 GPU), les câbles en cuivre sont encore utilisables, mais lorsqu'on étend à plusieurs racks, voire à des milliers de GPU interconnectés, les câbles en cuivre subissent une forte atténuation (distance efficace < 1 mètre à 1,8 To/s), un poids exponentiel (plus de 5 000 câbles en cuivre dans un rack NVL72, pour un poids total de 1,36 tonne) et une consommation élevée (le remplacement des câbles en cuivre par des modules optiques amovibles entraîne une consommation supplémentaire de 20 000 watts). L'intégrité du signal, la latence et la dissipation thermique ne peuvent plus soutenir des clusters plus grands.

Solution : Passer à l'interconnexion optique (CPO : optique co-emballée + technologie photonique sur silicium). Intégrez directement le moteur optique à côté du GPU/ASIC et utilisez des fibres optiques pour le Scale-Out, offrant une densité de bande passante plus élevée, une consommation énergétique par bit plus faible et une portée plus grande.

Module optique

NVIDIA mise fortement sur le GTC 2026, ayant investi dans des entreprises d'optique, entraînant une croissance exponentielle de la demande pour les modules optiques 800G/1,6T. Lite, Broadcom, Coherent, Ayar Labs deviennent de nouveaux gagnants.

Progrès actuel : les câbles en cuivre ont atteint leurs limites ; les interconnexions optiques passent de « facultatives » à « indispensables » et brisent le plafond de performance des centres de données AI.

4. Goulot de la quatrième phase (frontière actuelle) : Électricité + refroidissement liquide (contrainte physique finale à partir de 2026). Limitation principale : mur de consommation énergétique + mur de dissipation thermique + accès au réseau électrique.

Pourquoi c'est le goulot d'étranglement ultime : chaque GPU passe de 300 W à 700-1200 W, et un seul baie passe de 10-20 kW (ère CPU) à 120-200 kW+ voire plus. La limite physique du refroidissement par air traditionnel n'est que de 20-50 kW ; le bruit, le débit d'air et la consommation énergétique deviennent inacceptables.

Côté électricité : les centres de données nécessitent une alimentation de niveau GW ; la file d'attente pour le raccordement au réseau électrique peut atteindre plusieurs années ; les délais de livraison des équipements tels que les transformateurs et les transformateurs à semi-conducteurs s'allongent jusqu'à 100 semaines. Le PDG de Microsoft a déclaré ouvertement : « Nous avons des GPU, mais pas de prise électrique. »

Côté refroidissement liquide : il faut passer au refroidissement direct sur puce (Direct-to-Chip) ou au refroidissement par immersion, combiné à des technologies telles que le microfluidique et les plaques froides. TSMC a démontré sur la plateforme CoWoS un refroidissement liquide sur silicium prenant en charge une TDP > 2,6 kW. Des fabricants de refroidissement et de gestion thermique tels que Vertiv (VRT) deviennent le nouveau cœur de l’infrastructure.

Effet domino : les exigences en matière d’efficacité énergétique (PUE) inférieures à 1,2 font des sujets comme la récupération de chaleur résiduelle et le raccordement à des centrales nucléaires ou des énergies nouvelles. Même si toutes les étapes précédentes sont résolues, sans électricité ni refroidissement, les armoires ne peuvent pas être installées ni mises en service.

Module optique

La logique fondamentale du déplacement des goulets d'étranglement dans la chaîne de valeur de l'IA et du calcul : la puissance de calcul pour l'IA n'est pas un problème ponctuel, mais une fonction de production Leontief systémique — GPU, HBM, interconnexion, électricité et refroidissement doivent être équilibrés selon le plus faible maillon. Chaque fois qu'un hyperscaler (Google, Microsoft, Meta, etc.) résout un problème, il déplace immédiatement le capital et l'innovation vers le prochain maillon.

Actuellement (en 2026), nous sommes en période de transition entre « l'accélération de l'adoption des interconnexions optiques » et « la mise en œuvre à grande échelle de l'alimentation électrique et du refroidissement liquide ». Des goulets d'étranglement nouveaux pourraient encore apparaître à l'avenir (comme les lasers, les matériaux de fibre optique ou les transformateurs du réseau électrique), mais cette chaîne « calcul → stockage → optique → électrique/refroidissement » est désormais reconnue comme la voie industrielle standard.

Cela explique également pourquoi la logique d'investissement a basculé de NVIDIA/TSMC vers les trois leaders du HBM (SK Hynix, etc.), les fabricants d'optique (Lumentum, Coherent) et les infrastructures de refroidissement liquide/électrique (Vertiv, entreprises de alimentation associées).

Chaque transfert de goulot d'étranglement redéfinit la répartition des valeurs dans toute la chaîne industrielle des semi-conducteurs et des centres de données.