Cet article analysera en profondeur la situation actuelle des initiatives de développement de puces IA internes par les grands acteurs mondiaux, en partant de logiques économiques et technologiques fondamentales pour démontrer pourquoi un investissement massif dans la conception de puces internes est une nécessité incontournable pour les géants de la technologie, et en extrapolant les défis auxquels ils sont confrontés ainsi que l'issue finale du paysage du calcul.

Auteur et source de l'article : 0x9999in1, ME News

Introduction

Depuis l'émergence de l'IA générative à la fin de 2022, l'industrie technologique mondiale a entré une nouvelle course aux armements centrée sur les grands modèles. Dans cette course, la puissance de calcul est devenue l'infrastructure fondamentale déterminant le succès ou l'échec. Grâce à son积累 à long terme dans le domaine des processeurs graphiques généralistes (GPU) et à la domination absolue de son écosystème logiciel CUDA, NVIDIA a capté les bénéfices les plus importants de cette vague d'IA. Toutefois, une marge brute supérieure à 70 % et une capacité de production insuffisante ont plongé les fournisseurs de services cloud (CSP) et les géants de la technologie AI dans une anxiété liée à la puissance de calcul, les faisant se sentir comme des employés d'NVIDIA.

Sur la base de ce contexte, « ME News Think Tank » observe que les géants technologiques mondiaux accélèrent le déplacement de leur centre de stratégie vers l'infrastructure matérielle de base, déclenchant une vague sans précédent de « développement interne de puces AI ». Des États-Unis — Google, Amazon, Microsoft, Meta — à la Chine — Huawei, Baidu, Alibaba, ByteDance — la conception de puces par les grandes entreprises est passée d'une simple « expérimentation » initiale à une stratégie centrale déterminant leur survie. Cet article analysera en profondeur la situation actuelle du développement interne de puces AI par les géants mondiaux, en partant de logiques économiques et technologiques fondamentales pour démontrer pourquoi un investissement massif dans la conception de puces propres constitue une nécessité inévitable pour les géants technologiques, et en extrapolant les défis auxquels ils sont confrontés ainsi que l'issue finale du paysage des capacités de calcul.

État actuel des initiatives de développement de puces IA internes par les géants mondiaux de la technologie

Actuellement, les puces AI développées en interne par les grandes entreprises mondiales se concentrent principalement sur le cloud (centres de données), divisées en deux scénarios principaux : l'entraînement (Training) et l'inférence (Inference). Contrairement à NVIDIA, qui privilégie une approche généraliste, les grandes entreprises adoptent souvent une architecture de circuits intégrés spécifiques (ASIC), sacrifiant une partie de leur polyvalence pour obtenir un rapport efficacité-énergie optimal dans des scénarios internes spécifiques.

La tripartition des fournisseurs de cloud en Amérique du Nord et le challenger

Les quatre géants du cloud nord-américains (les quatre hyperscalers) ont avancé à des rythmes différents dans le développement de leurs propres puces, mais ils sont désormais tous pleinement engagés, créant un « portefeuille de couverture » contre la dépendance à la puissance de calcul de NVIDIA.

Google : pionnier et référence absolue de la voie autonome

Google a été l'une des premières grandes entreprises à reconnaître que l'apprentissage profond exigeait de nouveaux besoins en matière d'infrastructure matérielle. Dès 2015, Google a déployé en interne la première génération d'unités de traitement de tenseurs (TPU). Après près de dix ans d'itérations, les TPU actuels ont atteint la sixième génération (Trillium).

L'avantage de Google réside dans son écosystème fermé : du matériel TPU en couche inférieure, en passant par le compilateur XLA et le framework JAX en couche intermédiaire, jusqu'au modèle géant Gemini en couche supérieure. Cette intégration logicielle-hardware end-to-end permet à Google d'entraîner des modèles géants multimodaux de pointe mondiale sans dépendre des clusters GPU NVIDIA. Les améliorations significatives de la bande passante d'interconnexion et de la mémoire à haute bande passante (HBM) des TPU v5p et Trillium démontrent que Google possède désormais une capacité de mise en réseau de clusters à très grande échelle capable de rivaliser avec NVLink de NVIDIA.

Amazon (AWS) : centré sur le coût et le choix du client

L'histoire de AWS dans la conception de puces a commencé en 2015 avec l'acquisition d'Annapurna Labs. Dans le domaine de l'IA, AWS a développé deux lignes de produits : Trainium (axée sur l'entraînement) et Inferentia (axée sur l'inférence). La stratégie de AWS est fortement pragmatique : elle ne cherche pas à remplacer entièrement les GPU par des puces propriétaires, mais à offrir à ses clients cloud des options de calcul à haut rapport qualité-prix. Selon les données officielles de AWS, l'utilisation de la puce Inferentia2 pour l'inférence de grands modèles offre une performance par watt supérieure de 50 % par rapport aux instances Amazon EC2 équivalentes.

Microsoft et Meta : du paiement passif à la rupture active

Microsoft et Meta étaient les plus grands acheteurs précédents des puces H100/A100 de NVIDIA. Pour soutenir l'entraînement d'OpenAI ainsi que son propre service Copilot, Microsoft a officiellement lancé fin 2023 sa puce d'accélération AI conçue en interne, Azure Maia 100. Cette puce est fabriquée selon le procédé 5 nm de TSMC et est spécifiquement conçue pour l'entraînement et l'inférence dans le cloud.

Le chemin de Meta est étroitement aligné sur ses propres activités. Sa puce MTIA (Meta Training and Inference Accelerator), initialement conçue pour les modèles de recommandation d'apprentissage profond (DLRM), vise à optimiser la diffusion de publicités sur Facebook et Instagram. Avec l'explosion des modèles grands ouverts de la série Llama, la nouvelle génération de puces MTIA a considérablement renforcé le soutien à l'inférence d'IA générative, dans le but de réduire les coûts d'inférence exorbitants liés à des milliards d'appels.

La substitution nationale et la percée écosystémique des grands groupes chinois

Contrairement à la logique des grands fabricants nord-américains qui cherchent à réduire les coûts et à améliorer l'efficacité, les géants technologiques chinois, face aux restrictions d'exportation américaines sur les puces AI haut de gamme, développent des puces AI en interne avec une dimension stratégique de « défense minimale » et de « sécurité de la chaîne d'approvisionnement ».

Huawei : pilier de la puissance de calcul nationale

La série Ascend de Huawei est le seul produit national capable de remplacer les NVIDIA A100/H20 dans l'entraînement sur des clusters à très grande échelle. Le Ascend 910B utilise l'architecture Da Vinci et est étroitement intégré à des frameworks nationaux tels que CANN (Compute Architecture for Neural Networks) et MindSpore. Actuellement, plus de la moitié des principaux modèles de langage en Chine (tels que Xinghuo de iFlytek et Zhipu AI) ont terminé ou sont en cours d'adaptation et d'entraînement sur l'infrastructure de calcul Ascend.

La stratégie pragmatique des géants d'Internet : Baidu, Alibaba et ByteDance

Le Kunlun芯 de Baidu est l'une des premières puces AI développées en interne par une grande entreprise internet en Chine, déjà passée à sa troisième génération, et elle prend désormais en charge intégralement l'inférence et certaines opérations de fine-tuning du modèle majeur Wenxin Yiyan. Alibaba Pingtouge Semiconductor a lancé le Hanguang 800, principalement dédié aux scénarios d'inférence à haut débit internes à Alibaba, tels que la recherche e-commerce et la reconnaissance d'images. ByteDance, entreprise mondiale présentant la plus grande demande en puissance de calcul pour ses algorithmes de recommandation, bien qu'entrant plus tard sur le marché, collabore activement avec des géants de la conception et de la fabrication de puces comme TSMC et Broadcom pour concevoir des puces ASIC AI dédiées, afin de répondre à la consommation massive d'inférence quotidienne de son modèle majeur Doubao ainsi que de TikTok/Douyin.

Tableau 1 : Aperçu de la répartition des puces AI des géants technologiques mondiaux

Analyse approfondie : pourquoi les grandes entreprises doivent-elles investir massivement dans le développement de puces IA propriétaires ?

Développer une puce AI fabriquée selon un procédé avancé (comme 5 nm / 3 nm) coûte des dizaines de millions de dollars en production, et nécessite de maintenir une équipe vaste dédiée à la conception de puces et à la vérification logicielle. Face à un tel seuil élevé, les géants technologiques continuent de s'y engager avec détermination ; selon « ME News智库 », cela est déterminé par une logique commerciale claire, des négociations au sein de la chaîne d'approvisionnement et des lois fondamentales de la technologie.

Coût élevé de la puissance de calcul et insoutenabilité du modèle économique

Le modèle économique de l'IA générative actuelle fait face à un risque sérieux de « inversion ». Former un modèle de grande taille au niveau de GPT-4 avec des billions de paramètres nécessite des dizaines de milliers de GPU H100 fonctionnant pendant plusieurs mois, avec des dépenses en capital matériel (CapEx) atteignant des centaines de millions de dollars. Une fois le modèle déployé, les coûts continus d'inférence constituent un gouffre sans fond.

NVIDIA possède une capitalisation boursière dépassant mille milliards de dollars parce qu'elle impose essentiellement une « taxe sur la puissance de calcul » à l'ensemble de l'industrie de l'IA. Les GPU généralistes doivent prendre en charge des fonctions telles que le rendu graphique (Graphics) et les opérations en virgule flottante double précision (FP64), qui occupent une grande partie de la surface des transistors sur la puce, mais sont inutiles dans l'apprentissage profond pur (qui repose principalement sur FP16, FP8 ou même INT8). Lorsque les grandes entreprises achètent des GPU, elles paient en réalité pour ces « régions sombres de silicium (Dark Silicon) » non utilisées.

En utilisant des puces ASIC personnalisées développées en interne, les grandes entreprises peuvent éliminer toutes les fonctions redondantes et consacrer chaque micromètre carré de surface de silicium à l'optimisation des calculs tensoriels et de la bande passante mémoire. Selon les évaluations du secteur, dans des scénarios spécifiques d'inférence à grande échelle, le coût unitaire de calcul (TCO) d'une puce ASIC personnalisée n'est que d'un tiers à un cinquième de celui d'un GPU généraliste. Pour des entreprises comme Meta et ByteDance, qui effectuent des milliers de milliards d'appels d'inférence chaque jour, une mise en œuvre à grande échelle de leurs puces personnalisées permettrait d'économiser des dizaines de milliards de dollars annuellement en dépenses opérationnelles (OpEx). Investir quelques centaines de millions de dollars dans la recherche et le développement de puces pour obtenir des économies de coûts de plusieurs dizaines de milliards de dollars représente un calcul économique extrêmement certain.

Couverture des risques géopolitiques et de la sécurité de la chaîne d'approvisionnement

Outre les coûts, la vulnérabilité de la chaîne d'approvisionnement est l'épée de Damoclès au-dessus des géants de la technologie. NVIDIA détient un pouvoir absolu sur l'allocation de capacité, et les délais de livraison des cartes graphiques essentielles comme les H100/B200 s'étendent souvent sur plusieurs mois. Sans puissance de calcul, le progrès des activités d'IA des grandes entreprises stagne.

Développer ses propres puces revient fondamentalement à renforcer sa « capacité de négociation » face à NVIDIA. Même si les grandes entreprises ne peuvent pas totalement se passer de NVIDIA pour l'entraînement des modèles les plus avancés, l'utilisation de puces propriétaires pour l'inférence et les systèmes de recommandation permet de réduire considérablement la dépendance absolue aux GPU génériques externes, acquérant ainsi davantage de leviers lors des négociations d'achat.

Pour les entreprises chinoises, le développement interne de puces est une option incontournable. Soumises aux règles de contrôle des exportations du Département américain du Commerce (BIS), les entreprises nationales ne peuvent pas obtenir les puces commerciales offrant la plus forte densité de calcul et la plus grande bande passante d'interconnexion. En développant leurs propres puces et en s'appuyant sur des systèmes de fabrication de semi-conducteurs nationaux ou non américains, construire une base de calcul autonome et maîtrisée constitue la seule voie pour garantir la souveraineté nationale en matière d'IA et la continuité des activités des centres de données des entreprises.

Optimisation logicielle-hardware et barrières à la concurrence différenciées

Aujourd'hui, alors que la loi de Moore ralentit progressivement, les gains de performance issus uniquement de l'amélioration des processus de fabrication de puces (par exemple, du 5 nm au 3 nm, puis au 2 nm) présentent des effets marginaux décroissants. Les percées futures en matière de puissance de calcul dépendront de plus en plus de la « définition logicielle du matériel » et de la « conception conjointe logiciel-hardware (Hardware-Software Co-design) ».

Les GPU génériques doivent être compatibles avec des milliers d'applications et d'algorithmes différents, donc leur architecture doit être neutre. En revanche, les puces conçues sur mesure par les grands acteurs peuvent être optimisées spécifiquement en fonction des types de données, des caractéristiques de clairsemement et des modèles de communication de leurs modèles centraux.

Par exemple, si l'accent d'une grande entreprise se situe sur l'inférence de modèles de langage à très long contexte, ses puces internes peuvent être conçues pour maximiser la capacité de la SRAM intégrée ou la bande passante de la mémoire HBM, plutôt que de poursuivre aveuglément le pic de performance (FLOPS). Cette capacité à « graver » ses propres algorithmes d'IA dans la couche sous-jacente de silicium permet de créer une expérience de performance difficilement reproductible par les concurrents, établissant ainsi un avantage concurrentiel durable.

Défis réels et solutions pour les puces AI développées en interne

Bien que la valeur stratégique des puces AI développées en interne soit évidente, ce n'est certainement pas un chemin de rosée. La fabrication aveugle de puces peut non seulement entraîner une perte considérable de fonds, mais aussi ralentir le rythme d'itération de votre activité AI.

Traverser les barrières écologiques : quelle est la profondeur du fossé de CUDA ?

Le véritable obstacle de NVIDIA n'est pas la performance de ses composants matériels, mais son écosystème logiciel CUDA, développé depuis près de vingt ans. Actuellement, la grande majorité des développeurs d'IA mondiaux et les bibliothèques d'algorithmes d'IA les plus avancées (comme les opérateurs sous-jacents de PyTorch) sont fortement intégrés à CUDA.

Le plus grand défi auquel sont confrontées les grandes entreprises pour leurs puces internes est « facile à fabriquer, difficile à utiliser ». Même si le dépôt de puce réussit, si les développeurs doivent passer plusieurs mois à réécrire le code de bas niveau pour adapter le compilateur à la nouvelle puce, celle-ci ne pourra pas être adoptée en interne.

Pour briser cette impasse, l'industrie lance une stratégie d'encerclement autour de CUDA. D'une part, les grandes entreprises développent activement leurs propres compilateurs (comme XLA de Google) ; d'autre part, le langage de programmation open source Triton, lancé par OpenAI, suscite de grands espoirs. Triton vise à offrir un langage à un niveau d'abstraction supérieur à CUDA : les développeurs n'ont qu'à écrire une seule fois leur code, et le compilateur Triton le convertit en code machine adapté à différents matériels sous-jacents (comme les GPU Nvidia, les GPU AMD ou même les ASIC de divers fabricants). Dès que Triton ou un écosystème intermédiaire similaire atteindra sa maturité, la dépendance à CUDA sera fortement réduite, et le coût de migration vers des puces développées en interne par les grandes entreprises diminuera considérablement.

Conflit entre les coûts de recherche et développement élevés et les effets d'échelle

Le secteur des puces est un marché dominé par les effets d'échelle, où le vainqueur emporte tout. NVIDIA peut répartir ses coûts de recherche et développement considérables sur des millions d'unités de GPU livrées dans le monde entier. En revanche, les puces conçues en interne par les grands acteurs sont généralement réservées à un usage interne ou à leurs propres clients cloud, avec un volume de livraison de l'ordre de quelques dizaines de milliers d'unités.

Si une échelle suffisante ne peut être atteinte, le coût unitaire amorti d'une puce conçue en interne sera bien supérieur à celui de l'achat direct de GPU génériques. Ainsi, le développement de puces AI en interne est destiné à n'être qu'un « jeu de courage réservé aux rares géants ». Pour les entreprises technologiques de la moyenne et petite taille, tenter de concevoir des puces AI de base n'est pas seulement financièrement insoutenable, mais elles ne pourront jamais suivre le rythme d'innovation des fabricants spécialisés comme NVIDIA. La décision la plus judicieuse consiste à adopter des services de cloud computing prêts à l'emploi.

Table 2 : Comparaison des avantages et inconvénients des GPU commerciaux génériques et des puces ASIC développées en interne par les grandes entreprises

Analyse : Évolution finale du paysage de la puissance de calcul

Sur la base de l'analyse ci-dessus, « ME News Think Tank » établit les prévisions suivantes pour le paysage mondial des capacités de calcul IA au cours des 3 à 5 prochaines années :

Passage de « un dominant, plusieurs forts » à « segmentation verticale » : les GPU dominent l'entraînement, les ASIC occupent l'inférence

NVIDIA restera le roi incontournable pour explorer les limites des modèles de pointe (Frontier Models) pendant une période très longue à venir, car, dans le cadre d'entraînements à paramètres extrêmement complexes, les algorithmes présentent encore une grande incertitude, et cette phase nécessite impérativement la polyvalence des GPU et la flexibilité ainsi que la capacité de correction du système CUDA.

Cependant, lors de la phase d'inférence après la maturité du modèle, ainsi que lors du déploiement quotidien dans des applications Internet à grande échelle (telles que les recommandations de courtes vidéos ou la réécriture de moteurs de recherche), le coût élevé des GPU généralistes contraindra les entreprises à passer entièrement à des ASIC personnalisés développés en interne. Les centres de données futurs seront hétérogènes : quelques clusters GPU extrêmement coûteux serviront à « faire des expériences » (entraîner les prochaines générations de grands modèles), tandis que d'immenses clusters d'ASIC personnalisés géreront des milliards d'appels quotidiens des utilisateurs finaux.

Les puces personnalisées (Custom Silicon) deviennent une norme dans les services cloud

Comme les grands centres de données d'aujourd'hui conçoivent eux-mêmes les cartes mères et les systèmes de refroidissement des serveurs, la personnalisation en profondeur au niveau des puces deviendra une configuration standard pour les principaux fournisseurs de cloud (CSP). La capacité à concevoir des puces en interne deviendra la compétence clé permettant aux fournisseurs de cloud de vendre des services d'IA à leurs clients. Les fournisseurs de cloud incapables de concevoir leur propre matériel de base perdront complètement leur marge bénéficiaire dans les guerres de prix futures et ne seront plus que des « sous-locataires d'infrastructure ».

En résumé, les grands groupes qui développent leurs propres puces IA ne visent pas à éliminer complètement NVIDIA, mais à mener une bataille pour reprendre le contrôle de la répartition des profits fondamentaux à l'ère de l'IA. En réalisant l'indépendance en matière de puissance de calcul au niveau de l'inférence et des activités internes essentielles, les géants de la technologie reprennent le contrôle sur les leviers technologiques et les profits commerciaux. Dans cette profonde transformation où logiciel et matériel sont étroitement intégrés, la puissance de calcul n'est plus simplement un bien achetable, mais l'actif stratégique le plus crucial pour les entreprises.

Source :

Semianalysis. (2024). AI Inference Economics: GPUs vs Custom Silicon.
Stanford University HAI. (2024). Artificial Intelligence Index Report 2024.
Bloomberg Technology. (2023). Microsoft va présenter une puce IA pour réduire sa dépendance à Nvidia.
Patterson, D., et al. (2021). Carbon Emissions and Large Neural Network Training. arXiv preprint.
AWS Official Blog. (2023). Amazon EC2 Inf2 Instances pour l'IA générative à faible coût et haute performance.