Contrainte de puissance de calcul
Depuis la fin de l’année dernière, des entreprises nationales de GPU telles que Moore Threads, Muxi Shares, Biren Technology et TianShu Intelligent Chip ont déclenché une vague de capital. Toutefois, sous le festin de richesse sur le marché secondaire, une ligne souterraine impossible à ignorer devient de plus en plus claire, et les problèmes qu’elle soulève s’aggravent de plus en plus.
Au cours des dernières années, les puces AI nationales se sont principalement concentrées sur les tâches de « déduction », relativement sûres et plus marginales, comme le récent projet DouBao qui a acheté 50 000 puces de TianShu Intelligence pour des tâches de déduction, afin de répondre aux appels fréquents de cette application AI la plus grande en Chine.
Dans la hiérarchie des puissances de calcul pour l'entraînement de l'IA, les puces nationales ne peuvent actuellement participer qu'à des tâches périphériques et accessoires.
Les puces d'entraînement AI sont principalement utilisées pour l'entraînement de modèles d'intelligence artificielle, pendant lesquelles de nombreuses opérations matricielles et ajustements de paramètres sont effectués, nécessitant ainsi une puissance de calcul élevée et un rapport efficacité-énergie optimal ; elles sont plus performantes et beaucoup plus coûteuses, comme les NVIDIA A100, H100, H200 et la série AMD MI300.

En comparaison, la tâche des puces d'inférence est beaucoup plus légère. Utilisées lors de la phase de déploiement après l'entraînement du modèle, elles sont principalement chargées d'exécuter les tâches d'inférence du modèle, ce qui exige une forte réactivité. Les puces d'inférence doivent garantir une précision élevée tout en offrant une réponse rapide et une faible consommation d'énergie.
Une analogie appropriée est que l'entraînement permet au modèle d'IA d'"apprendre des connaissances", tandis que l'inférence permet au grand modèle d'"utiliser ces connaissances". Pendant la phase d'apprentissage, les puces d'entraînement doivent mobiliser d'énormes quantités de données pour "nourrir" la mise à jour dynamique de paramètres à l'échelle des milliards, des billions, voire des dizaines de billions. Elles doivent non seulement posséder une puissance de calcul exceptionnelle, mais aussi être équipées d'une bande passante et d'une capacité de communication efficaces, tout en garantissant la stabilité dans des clusters de dizaines de milliers de cartes.
L'écart entre les modèles chinois et américains trouve sa source dans ces endroits « invisibles », notamment l'absence de puces de formation haut de gamme.
Dans le cadre des lois d'échelle des grands modèles, plus le nombre de paramètres du modèle augmente, plus les besoins en puissance de calcul croissent linéairement, et les coûts exponentiels en puissance de calcul et en matériel rendent l'entraînement de grands modèles un « jeu réservé » à un très petit nombre de géants technologiques.
Parmi les géants technologiques américains, seul Meta prévoit de déployer plus de 1,2 million de GPU haut de gamme d'ici la fin 2026, avec un investissement annuel dépassant 145 milliards de dollars ; selon des estimations, la puissance totale en IA détenue par Google équivaut à 5 millions de GPU NVIDIA H100, soit un quart de la capacité mondiale totale.
Les quatre entreprises Amazon, Microsoft, Alphabet et Meta ont dépensé 725 milliards de dollars en investissements en capital cette année, soit une augmentation de 77 % par rapport à l'année précédente, un montant équivalent à 13 % de l'investissement total privé intérieur américain pour l'année. Morgan Stanley prévoit même que les dépenses en capital des entreprises technologiques américaines pourraient atteindre un record historique de 1 100 milliards de dollars d'ici 2027.
Actuellement, les États-Unis contrôlent plus de 70 % des GPU haut de gamme mondiaux ; après l'interdiction des puces, les puces haut de gamme disponibles en Chine ne représentent qu'un huitième de celles des États-Unis. Le rapport Stanford AI Index Report 2026 indique que le nombre de centres de données aux États-Unis (5 427) est plus de dix fois supérieur à celui de la Chine.

Selon les estimations de l'Institut chinois d'information et de communication (CAICT), au début de l'année 2025, la puissance de calcul des États-Unis s'élevait à 2400 EFLOPS, contre 1053 EFLOPS en Chine, soit plus de deux fois la puissance chinoise.

La puissance de calcul détenue par chacune des quatre géants technologiques mentionnés dépasse déjà la somme de la puissance de calcul de toutes les entreprises d'IA en Chine.
Cet avantage écrasant en puissance de calcul permet aux entreprises américaines d'effectuer des dizaines de cycles d'expérimentation d'itération de grands modèles en un an.
Elon Musk va encore plus loin : sa société xAI possède Colossus 2, prétendu être le premier cluster AI au monde de niveau GW. Il peut donc affirmer avec assurance qu’il entraîne simultanément sept modèles — deux de 1 trillion, deux de 1,5 trillion, un de 6 trillion et un de 10 trillion paramètres. Cette « esthétique de la puissance » n’est possible que grâce à une capacité de calcul extrêmement abondante.

Dans le même temps, en raison des restrictions américaines sur l'exportation de puces, la part des entreprises chinoises parmi les puces AI haut de gamme livrées ces dernières années a continué de diminuer (selon les données d'epoch.AI).
On peut sans exagération dire que le grand écart en matière de puissance de calcul rendra l’IA chinoise tributaire d’une phase prolongée de rattrapage et rendra encore plus difficile la tâche pour les grands modèles nationaux de rattraper leurs homologues américains.
Écart générationnel
Le rythme de l'innovation en Chine est irréversible. Celui qui pense que la Chine ne peut pas produire (de puces) se trompe gravement. L'écart entre la Chine et les États-Unis n'est que de quelques nanosecondes.
Jensen Huang, fondateur de NVIDIA, a plus d'une fois loué les progrès de la semi-conducteur chinoise lors de discours publics.

Elon Musk exprime également fréquemment des opinions similaires sur X : « La Chine résoudra inévitablement le problème du blocage des puces », « Dans le domaine de la puissance de calcul pour l'intelligence artificielle, la Chine dépassera de loin tous les autres pays du monde », « La Chine remportera la course à l'IA sur Terre ».
Les grandes figures du monde technologique qui prodiguent des éloges sans réserve au développement de l'IA en Chine peuvent facilement tromper l'opinion publique. Ces déclarations présentent clairement un risque de surenchère. Certains médias américains diffusent continuellement l'idée que l'écart entre les modèles chinois et américain est minime, dans le but de confondre les faits et de cacher certaines vérités objectives.
À ce sujet, tous les domaines liés à l'IA en Chine devraient rester lucides et calmes.
Si les grands modèles avancés chinois actuels présentent peu de différences avec leurs concurrents américains lors de la résolution de problèmes standardisés, l'écart devient plus évident dans des environnements industriels et entrepreneuriaux complexes.
Par rapport aux modèles de pointe d'entreprises américaines telles qu'Anthropic, la Chine reste un poursuivant. L'évaluation de CAISI aux États-Unis estime que le meilleur modèle national, DeepSeek V4 Pro, est en retard d'environ huit mois par rapport aux modèles américains de pointe.
Li Kaifu a récemment indiqué lors d'une interview avec le Wall Street Journal que, avec des modèles américains de premier plan tels que Claude Fable 5 lancé par Anthropic, les États-Unis sont actuellement en avance d'environ 15 mois sur la Chine.

Les grands modèles suivent la loi d'échelle : plus le nombre de paramètres du modèle, plus les données d'entraînement et plus les ressources de calcul investies sont élevés, meilleure est la performance du modèle. Aujourd'hui, les plus avancés grands modèles américains sont entrés dans l'ère des dix mille milliards de paramètres, et leur vitesse d'itération continue d'augmenter.
Le plus puissant modèle de Mythos d'Anthropic atteint 10 billions de paramètres, et son entraînement coûte 10 milliards de dollars ; xAI entraîne simultanément 7 modèles avec Colossus 2, incluant des modèles de 6 et 10 billions de paramètres ; OpenAI effectue une itération d'un modèle de 4 billions de paramètres en seulement un mois.

Le modèle chinois le plus puissant, DeepSeek V4 Pro, possède un total de 1,6 billion de paramètres, soit environ six fois moins que les modèles de pointe américains de niveau dix billions.
La série Claude, détenue par Anthropic, est reconnue comme le plus puissant modèle de programmation AI des deux dernières années ; Mythos vient une fois encore repousser les limites de la perception publique, offrant des performances encore supérieures à celles du précédent modèle phare, Oups 4.6.
OpenBSD est réputé pour posséder le système le plus sécurisé du secteur, mais Mythos a découvert une faille inédite après 27 ans, tout en identifiant des vulnérabilités non détectées depuis des années, voire des décennies, dans FFmpeg et le noyau Linux, entièrement de manière autonome, sans intervention humaine.
Il faut savoir que le « pré-entraînement » des grands modèles détermine la limite supérieure de leurs capacités ; il est impossible d’atteindre le niveau de performance d’un modèle de 10 billions de paramètres via un « post-entraînement » d’un modèle de 1 trillion de paramètres. Le facteur déterminant du pré-entraînement est la puce de calcul haut de gamme, qui détermine l’échelle des paramètres et la vitesse d’itération de l’entraînement.
Liu Qingfeng, PDG de iFlytek, a admis que les principaux fabricants de grands modèles, en particulier les géants américains, construisent actuellement des plateformes de calcul à très grande échelle. Les capacités de calcul nationales font actuellement face à une période difficile, ce qui limite la formation dans des contextes de texte très long.
Il est visible que l'écart en puissance de calcul est la cause fondamentale de la différence entre les modèles chinois et américain.
Émergence nationale
Une entreprise monopolise 90 % du marché mondial des puces haut de gamme pour l'entraînement de l'IA — ce qui permet à NVIDIA de conserver son statut de société la plus valorisée au monde. Sa capitalisation boursière a un jour dépassé le PIB de l'Allemagne, troisième économie mondiale, prévu pour 2025.
Selon les données de TrendForce, au premier trimestre 2026, NVIDIA représente 68 % du marché mondial des serveurs GPU, AMD occupe 5 à 6 %, tandis que les fabricants chinois de GPU cumulent moins de 4 %.
Grâce à un avantage de premier arrivant, des barrières technologiques supérieures, une interconnexion rapide, un écosystème logiciel et un partenariat avec les procédés avancés de TSMC, NVIDIA domine le marché. Dans les scénarios d'entraînement haut de gamme, la performance de la GB30 de NVIDIA dépasse celle de la MI325 d'AMD, ainsi que celles du Siyuan 690 de Cambricon et de la MTT40 de Moore Threads, notamment dans l'entraînement de modèles à mille milliards de paramètres, où elle surpasse ses concurrents de plus de 30 %.
Sous l'interdiction d'exportation, Huang Renxun avait précédemment déclaré que la part de marché (nouvelle) d'NVIDIA en Chine était essentiellement réduite à zéro, ne restant que le marché existant. Sous le soutien des politiques de substitution nationale, des entreprises telles que Huawei Ascend 910, Higon DCU Shen Suan n°2, Cambricon MLU370/590, ainsi que Moore et Musen, sont apparues successivement.
Le Ascend 910 est la puce la plus puissante en termes de calcul d'Huawei, avec une puissance de calcul de 640 TOPS (INT8) pour le Ascend 910B, comparable à la puce NVIDIA A100.

Sur le plan des performances absolues, les GPU nationaux présentent encore un écart, mais ils peuvent commencer par les scénarios d’inférence et d’edge. Actuellement, les GPU nationaux répondent essentiellement aux besoins d’inférence généraux des entités publiques et privées en Chine, et l’écart avec les produits moyens de NVIDIA se réduit à 15 % - 20 %, ce qui rend leur substitution possible.

Il faut souligner que si la performance de calcul est importante, c’est l’écosystème logiciel sous-jacent qui constitue le point faible des GPU nationaux. Comme le CUDA est la base de l’empire GPU de NVIDIA, l’académicien de l’Académie chinoise d’ingénierie Zheng Weimin a souligné que le problème fondamental des puces AI nationales réside dans un écosystème insuffisamment développé : si l’écosystème était solide, même une performance à 60 % serait adoptée.
On peut dire que l'écosystème logiciel constitue la barrière la plus technique du segment GPU, et les capacités d'NVIDIA dans ce domaine sont tout aussi irremplaçables.
L'écosystème CUDA, après plus de dix ans de développement approfondi, compte plus de 4 millions de développeurs, des dizaines de milliers de modèles open source et une gamme complète d'outils tiers, couvrant l'entraînement et l'inférence AI, le rendu graphique et le calcul scientifique, avec un壁垒 d'écosystème sans égal.
Selon les données de IDC, plus de 95 % des modèles d'IA mondiaux sont actuellement développés sur l'écosystème CUDA. Les GPU nationaux, soutenus par des politiques publiques, nécessitent une coordination à long terme avec la chaîne de valeur, ainsi qu'une patience suffisante de la part des médias et des marchés financiers.

En janvier de cette année, Zhipu a collaboré avec Huawei pour ouvrir le nouveau modèle de génération d'images GLM-Image, qui a été entièrement entraîné, de la préparation des données à l'entraînement du modèle, sur les appareils Huawei Ascend Atlas 800T A2 et le framework d'intelligence artificielle Ascend MindSpore, devenant ainsi le premier modèle multimodal SOTA entraîné entièrement sur des puces nationales ;
Moore Threads, en collaboration avec l'Institut d'IA de Beijing Zhiyuan, a effectué l'entraînement complet du modèle RoboBrain 2.5, développé en interne par Zhiyuan, en utilisant le cluster de calcul intelligent MTT S5000 et le cadre FlagOS-Robo. Ce résultat valide pour la première fois la faisabilité des clusters de calcul nationaux pour l'entraînement de grands modèles d'intelligence incarnée.
On peut constater que les GPU nationaux ont déjà réalisé des progrès en matière d’adaptabilité et de construction d’écosystème, passant d’une approche « ponctuelle » axée sur l’inférence à une adaptation progressive dans le domaine de l’entraînement, ce qui constitue un progrès significatif.
Résumé
Dans le contexte où les importations de puces avancées à l’étranger sont entravées, il est judicieux d’adopter une approche combinée, en soutenant simultanément les puces de calcul nationales pour répondre aux besoins urgents du marché.
La légitimité de la demande n'est pas remise en question, la théorie de la bulle persiste, mais ses voix ne deviennent pas plus fortes. L'enthousiasme mondial pour la construction de l'IA a dépassé n'importe quel autre secteur à ses débuts.
Cette année, les marchés financiers mondiaux ont de nouveau été marqués par un cycle super-AI, avec des cours de bourse record pour Samsung, SK Hynix, Broadcom et TSMC. Sur le marché intérieur, des entreprises de haute technologie comme Cambricon ont également connu une forte hausse, et la capitalisation boursière du géant des modules optiques Innolight a même dépassé momentanément celle de Kweichow Moutai.
En revisitant l'histoire du développement des semi-conducteurs en Corée du Sud, la Corée du Sud a soutenu l'industrie des puces de mémoire avec un effort national, traversé les moments les plus sombres et finalement surpassé le Japon pour devenir le roi absolu de l'industrie mondiale du stockage.
Que ce soit pour les puces de stockage, les puces de téléphone ou même les puces AI actuelles, la Chine reste en phase de rattrapage, ce qui ne peut être accompli du jour au lendemain. Toutefois, grâce à son immense marché, à l’émergence constante de talents en IA et à sa puissance financière considérable, les GPU nationaux commencent à démontrer une certaine compatibilité, répondant ainsi à de nombreux besoins réels des entreprises d’IA.
Dans ce jeu d’IA déterminant l’avenir des nations, les États-Unis et la Chine sont à la fois des adversaires et des partenaires disposant des technologies, marchés et ressources dont l’autre a besoin.
Cet article provient du compte WeChat : Juetao WAVE, édité par Yang Xuran, écrit par Xie Zefeng, titre original : « Les défis de la puissance de calcul dans le cadre du duel IA sino-américain | Juetao »
