Le moteur de l'ère de l'IA est passé des modèles aux tokens.

Au cours des deux dernières années, le récit dominant de la première phase de l'industrie de l'IA s'est concentré sur la « guerre des grands modèles » lancée par les grandes entreprises. La taille des paramètres est passée de cent milliards à un billion, les coûts d'entraînement ont augmenté de plusieurs dizaines de millions à des centaines de millions de dollars, et les clusters GPU se sont étendus de plusieurs milliers à plusieurs dizaines de milliers de cartes. Tout le monde discutait du modèle le plus puissant et de qui se rapprochait le plus de l'AGI, comme si la fin de la compétition en matière d'IA résidait uniquement dans les performances des grands modèles eux-mêmes.

Mais en 2026, la logique motrice de l'industrie de l'IA a changé. Le dernier rapport de JPMorgan estime que la véritable force propulsant l'expansion continue des infrastructures d'IA ne sera plus l'entraînement des modèles, mais la demande massive d'inférence IA. Ce qui consommera le plus de puissance de calcul à l'avenir ne sera plus seulement l'entraînement de grands modèles, mais les agents IA répartis dans le monde entier. Chaque appel, chaque interaction, chaque exécution de tâche consomme fondamentalement des tokens. L'industrie de l'IA passe de l'ère des « modèles » à l'ère de l'« industrie des tokens ».

Ce qui véritablement fera fonctionner le monde de l'IA à l'avenir, ce ne sera pas seulement le modèle lui-même, mais le système de production, de distribution, de planification et de consommation autour des tokens. En particulier, avec l'apparition à grande échelle des agents IA, la manière dont les tokens seront générés en temps réel, distribués entre régions, planifiés dynamiquement et consommés efficacement deviendra la question la plus centrale de toute l'industrie de l'IA.

Comme l'a récemment souligné Jensen Huang, l'IA n'est pas simplement un secteur logiciel, mais un système d'infrastructure comparable à l'électricité et à Internet. Dans sa structure en « gâteau à cinq étages », l'industrie de l'IA est divisée en cinq niveaux : énergie, puces, infrastructure, modèles et applications. Alors que l'industrie de l'IA passe progressivement de l'ère de l'entraînement à l'ère de l'inférence, GoodVision AI tend à considérer toute la chaîne de valeur économique de l'IA comme une structure en « gâteau à sept étages » tournée autour des tokens :

Niveau 1 : Électricité — La base énergétique de l'ère de l'IA
Deuxième couche : AIDC — Usine de jetons
Niveau 3 : GPU — Équipement de production des tokens
Niveau 4 : LLM — Le moteur de production de tokens
Cinquième niveau : Distribution des jetons — le « réseau électrique » de l'ère de l'IA
Niveau 6 : Optimisation des jetons et planification intelligente — Le cerveau de l'ère de l'IA
Niveau 7 : Agent IA — Terminal de consommation de jetons

De l'énergie et les GPU aux AIDC et nœuds périphériques, en passant par l'inférence de modèles et l'ordonnancement intelligent, l'industrie de l'IA est en train de former un « système industriel Token » sans précédent.

Mais à ce stade, ce système est encore loin d'être mature.

Certains possèdent les GPU les plus avancés, mais sont limités par l'énergie ; d'autres construisent de vastes AIDC, mais manquent de planification efficace ; d'autres encore développent des AI Agent puissants, mais font face à des coûts d'inférence élevés et à des latences ; d'autres maîtrisent les nœuds périphériques, mais ne parviennent pas à créer un réseau coordonné et unifié. Bien que toute la chaîne de valeur connaisse un développement rapide, de nombreuses fractures, redondances et goulots d'étranglement persistent entre les différents niveaux.

Et ce n'est qu'une fois que ces sept couches d'infrastructure seront véritablement intégrées, coordonnées et connectées que l'industrie de l'IA passera de l'ère actuelle des « outils » à l'ère du « large déploiement » du monde intelligent.

Première couche du gâteau : l'électricité — l'énergie de l'ère de l'IA

La révolution industrielle a lutté pour le charbon et le pétrole, l'ère d'Internet pour le trafic et les serveurs, tandis que l'ère de l'IA voit la guerre la plus fondamentale revenir à l'énergie.

Parce que l'IA consomme finalement de l'électricité. La consommation énergétique d'un grand centre de données IA approche celle d'une ville de taille moyenne. Les nouveaux CDC IA (centres de données IA) partout dans le monde font face au même problème : on peut acheter des GPU, construire des bâtiments, mais l'approvisionnement en électricité et la gestion du réseau ne suivent pas.

C'est aussi pourquoi de plus en plus d'entreprises d'IA réorientent leur attention vers les infrastructures énergétiques. Lors de GTC 2026, Jensen Huang a même défini les centres de données futurs comme des « usines à tokens ». La chaîne d'approvisionnement de ces usines générera une industrie énergétique supérieure.

Sur le marché chinois, les entreprises telles que Yangtze River Power, China National Nuclear Power, China General Nuclear Power, Three Gorges Energy, Longyuan Power et Huadian New Energy représentent respectivement les secteurs clés de l'énergie hydraulique, nucléaire, éolienne et photovoltaïque. Parmi ceux-ci, l'énergie nucléaire et l'hydroélectricité, grâce à leur capacité d'approvisionnement stable, deviennent les sources d'énergie les plus importantes pour les AIDC ; tandis que l'énergie éolienne et photovoltaïque bénéficient de la demande croissante du secteur de l'IA pour l'électricité verte et les critères ESG. Avec la progression des projets « Calcul de l'Est, Calcul de l'Ouest » et de la construction de grands centres de données pour l'IA, la synergie entre les bases d'énergies renouvelables et les centres de calcul s'intensifie rapidement.

Sur le marché américain, des géants de l'énergie traditionnelle tels que NextEra Energy, Dominion Energy, Duke Energy, Southern Co. et Exelon profitent également de l'expansion des centres de données IA. NextEra est le leader nord-américain de l'énergie verte ; Dominion contrôle les ressources essentielles de transport d'électricité dans le « couloir des centres de données » de la Virginie du Nord ; Exelon, quant à lui, bénéficie de sa capacité de fourniture d'électricité stable grâce à l'énergie nucléaire, devenant ainsi un important bénéficiaire de la demande croissante en « électricité hautement stable 24/7 » à l'ère de l'IA. Dans l'ensemble, le secteur électrique mondial évolue progressivement d'une infrastructure d'utilité publique traditionnelle vers une couche de ressources fondamentale de l'ère des infrastructures IA.

Centre de données IA

Dans l'ensemble, le paysage concurrentiel de ce segment évolue d'une concurrence sur les tarifs électriques entre entreprises d'énergie traditionnelle à une concurrence pour le verrouillage de l'énergie entre les centres de données AI en aval, les fournisseurs de cloud et les entreprises énergétiques. Celui qui parvient à verrouiller une énergie à long terme, stable et à faible coût détient la première perle de dragon pour la production de tokens.

Deuxième couche du gâteau : AIDC — Usine de matières premières Token

Un seul GPU n'a pas de sens ; ce qui compte vraiment, c'est la mise à l'échelle des clusters. C'est ainsi que sont apparus les AIDC.

Il ressemble aux aciéries, centrales électriques et usines de production en chaîne de l'ère industrielle, regroupant des milliers de GPU pour créer une capacité de production de Token stable. Mais les problèmes des usines commencent à apparaître : le cycle de construction traditionnel des AIDC dure souvent de 18 à 36 mois, et l'extension du réseau électrique prend encore plus de temps. Alors que la demande en IA augmente de manière exponentielle, la vitesse de construction des IDC de l'ère précédente ne peut plus répondre aux besoins de la nouvelle économie de Token.

Sur le marché américain, Equinix est l'un des opérateurs de centres de données les plus avancés au monde, avec plus de 240 centres de données dans plus de 30 pays. Son avantage principal ne réside pas seulement dans le nombre de salles serveurs, mais dans sa capacité mondiale d'interconnexion et ses ressources réseau à faible latence, ce qui en fait un nœud d'infrastructure essentiel pour le déploiement de puissance de calcul AI.

Digital Realty pénètre l'infrastructure AI via la plateforme PlatformDIGITAL, servant des acteurs tels que de grands fournisseurs de cloud et des institutions financières.

Sur le marché chinois, Runze Technology est l'un des opérateurs AIDC les plus typiques du marché A. Son activité principale a progressivement évolué de l'IDC traditionnel vers des centres de calcul AI, avec un avantage concurrentiel fondé sur de vastes salles serveurs, des ressources énergétiques et des compétences en exploitation AIDC. Des entreprises telles que Aofei Data et Capital Online s'étendent continuellement dans les domaines des centres de données régionaux, des infrastructures cloud et de l'hébergement de capacités de calcul AI. Sugon se concentre sur la collaboration avec le secteur public et les institutions de recherche dans ses activités AIDC.

Une autre catégorie de joueurs provient de la transition des fermes de minage. Des entreprises telles que CoreWeave, IREN, Applied Digital et Cipher Mining, qui étaient initialement liées au minage de cryptomonnaies, ont rapidement pivoté vers les infrastructures de calcul AI suite à la demande explosive pour les GPU AI. IREN se concentre sur le modèle « énergie verte + calcul AI », en construisant des centres de données à haute densité de GPU à l'aide d'énergies renouvelables. Applied Digital et Cipher Mining effectuent également une transition des fermes de minage traditionnelles vers des infrastructures de calcul haute performance pour l'IA.

Centre de données IA

En outre, les AI Factory marginalisées, miniaturisées et modulaires commencent à émerger comme une nouvelle tendance. Tout comme l’ère d’Internet a évolué des calculateurs centraux vers le cloud, la puissance de calcul AI doit progressivement se déplacer des nœuds centraux ultra-larges vers des nœuds périphériques régionaux.

Ainsi, GoodVision AI a choisi une autre voie : construire une AI Factory plus légère, modulaire et facilement reproductible. Contrairement aux grands AIDC traditionnels, GoodVision AI met l'accent sur la capacité de déploiement régional, l'efficacité des clusters GPU à haute densité, ainsi que sur la synergie intégrée entre énergie et puissance de calcul.

Son logique fondamentale n'est pas de construire un seul centre de données ultra-gros, mais de déployer rapidement des nœuds AI Factory dans les régions à forte densité de population, généralement des salles de calcul d'inférence de 2 à 4 MW. Ce modèle permet non seulement d'accéder plus rapidement aux ressources énergétiques locales, mais s'adapte aussi mieux à la tendance future de la diffusion des besoins en inférence IA vers la périphérie.

Si les AIDC traditionnels ressemblent à de grands aciéries de l'ère industrielle, alors ce que GoodVision AI a construit ressemble davantage à une « usine de tokens régionalisée » de l'ère de l'IA — plus légère, plus flexible, plus proche des utilisateurs, et mieux adaptée à la direction future des réseaux distribués d'inférence mondiaux.

Troisième couche du gâteau : GPU — les équipements de production de tokens

Si l'électricité est une énergie, alors le GPU est un équipement de production. Au cours des premières années de l'explosion de l'IA, les GPU ont principalement servi à l'entraînement ; mais à l'avenir, la plus grande demande proviendra de l'inférence. Car l'entraînement n'est réservé qu'à quelques entreprises leaders, tandis que l'inférence s'imposera dans chaque application, chaque appareil, chaque terminal. Les robots ont besoin d'inférence, les véhicules autonomes ont besoin d'inférence, les lunettes IA ont besoin d'inférence, et même la collaboration en temps réel entre chaque agent IA consommera des tokens.

NVIDIA reste actuellement le cœur absolu de l'industrie mondiale des puces AI. Ses produits GPU, tels que le H100, le B200 et le Blackwell, définissent presque entièrement les normes mondiales actuelles en matière d'entraînement et d'inférence AI. Plus important encore, NVIDIA ne se contente pas de vendre des puces, mais construit un écosystème complet grâce à ses solutions logicielles et matérielles comme CUDA, TensorRT, DGX et HGX. Ainsi, ses concurrents doivent non seulement rivaliser en termes de performance GPU, mais aussi remettre en question l'ensemble de l'écosystème logiciel AI.

AMD est actuellement le principal concurrent de GPU, avec des produits phares tels que le MI300X et d'autres GPU IA. Contrairement à NVIDIA, AMD met l'accent sur un écosystème ouvert et la plateforme logicielle ROCm, en visant à attirer les développeurs et les clients entreprises IA grâce à une approche plus ouverte.

Broadcom et Marvell représentent une autre voie — les ASIC et les interconnexions à haute vitesse. À mesure que les scénarios d'inférence AI deviennent de plus en plus complexes, de plus en plus d'entreprises commencent à expérimenter des puces ASIC personnalisées pour obtenir un meilleur rapport efficacité-énergie et des coûts plus bas.

Intel pénètre le marché de l'IA grâce à ses processeurs serveur et ses cartes d'accélération Gaudi AI, en espérant utiliser son écosystème CPU pour réintégrer la compétition sur les infrastructures IA.

Sur le marché chinois, Cambricon est l'une des entreprises les plus représentatives de puces AI nationales, proposant principalement la série de puces AI Kunlun et ayant développé son propre framework AI, Neuware. Higon Information, quant à elle, détient une licence de l'architecture AMD Zen et se concentre sur les marchés DCU et de l'inférence AI.

Les entreprises chinoises de GPU telles que Moore Threads, Suanyuan Technology, Muxi股份 et Biren Technology représentent la direction de « substitution nationale » des puces AI en Chine. Elles mettent toutes en avant la compatibilité avec l'écosystème CUDA et tentent de construire des clusters de GPU nationaux.

Centre de données IA

De l'écosystème CUDA à la mémoire HBM, en passant par les Tensor Core, l'ensemble de l'industrie de l'IA repose en réalité sur une amélioration constante de l'efficacité de génération de tokens par unité de temps. Parallèlement, les GPU ainsi que les infrastructures sous-jacentes — serveurs, modules optiques, refroidissement liquide, commutateurs — sont étroitement liés à l'efficacité de production de tokens.

Ces éléments ne sont pas aussi médiatiques que NVIDIA ou OpenAI, mais ils déterminent si le monde de l’IA peut véritablement fonctionner. Tout comme la révolution industrielle nécessitait non seulement des machines à vapeur, mais aussi des chemins de fer, des réseaux électriques et des ports, la révolution de l’IA ne sera pas seulement une révolution logicielle. Ce sera une modernisation mondiale de la chaîne de valeur couvrant l’énergie, les puces, les réseaux, le cloud computing et les infrastructures.

Centre de données IA

Vertiv est le leader mondial des onduleurs et de la gestion de l'énergie pour les centres de données, offrant des solutions d'alimentation, de distribution électrique dans les armoires et de climatisation précise pour les centres de données.

Yingweike est le leader chinois des systèmes de refroidissement liquide et de contrôle thermique sur le marché des actions A, avec pour clients des grandes entreprises internet telles que BAT. À mesure que la puissance des GPU augmente, le refroidissement liquide devient une composante essentielle des centres de données pour l'IA.

Les entreprises telles que Zhongheng Electric, Kehua Data et Kedda occupent une position importante dans les domaines des UPS, des systèmes d'alimentation et de l'alimentation des centres de données.

Dans le domaine des réseaux et des modules optiques, les entreprises telles que Zhongji Xuchuang, Xinyisheng et Tianfu Communications bénéficient de la demande explosive en communication haute vitesse au sein des clusters AI.

En ce qui concerne les serveurs complets, des entreprises telles que Dell, HPE, Supermicro, Lenovo et Inspur assument la fabrication et la livraison à grande échelle des serveurs AI.

Bien que cette couche ne soit pas directement destinée aux utilisateurs finaux, elle détermine si l'infrastructure IA peut fonctionner de manière véritablement stable. Le refroidissement liquide, les UPS, les modules optiques, les commutateurs, le stockage d'énergie et les serveurs complets deviennent, comme les chemins de fer, les réseaux électriques et les ports de l'ère industrielle, le véritable métier des « vendeurs de pioches » dans le monde de l'IA.

Quatrième couche du gâteau : LLM — le moteur de production de tokens

Les modèles de langage à grande échelle (LLM) déterminent comment les jetons sont compris, générés et organisés. Au cours des deux dernières années, des entreprises telles qu'OpenAI, Anthropic, Google, Meta, xAI et DeepSeek ont lancé une course mondiale aux « grands modèles ». Le nombre de paramètres est passé de cent milliards à un billion, et les capacités des modèles se sont étendues progressivement de la génération de texte à la multimodalité, au raisonnement, au codage, à la collaboration d'agents et à la mémoire à long terme.

Mais à mesure que l'industrie évolue, le marché commence à réaliser que ce qui comptera vraiment à l'avenir ne sera plus simplement « qui possède le plus grand modèle », mais qui pourra faire fonctionner les modèles de manière continue avec un coût plus faible et une efficacité plus élevée. En effet, les modèles eux-mêmes ne créent pas directement de valeur ; c'est le processus d'inférence généré par leur utilisation répétée qui crée réellement de la valeur.

Cela signifie également que les LLM évoluent progressivement depuis une simple « démonstration de capacités » vers un « moteur de production de tokens » dans le monde de l'IA.

Les modèles propriétaires et open source tels qu'OpenAI, Anthropic, Google Gemini et Meta Llama se disputent l'accès à l'écosystème IA de l'avenir ; tandis que de nouveaux acteurs comme DeepSeek redéfinissent le paysage concurrentiel en offrant des coûts plus bas et une efficacité d'inférence supérieure. La concurrence au niveau des LLM ne se limite plus uniquement à la course aux paramètres ; les critères d'évaluation évoluent vers une comparaison multidimensionnelle :

Coût du token
Efficiency d'inférence
Contexte capacité
Coordination multi-agent
Mémoire à long terme
Capacité de coordination entre le modèle et l'infrastructure

Centre de données IA

Ce qui compte vraiment à l’ère de l’IA, ce n’est pas seulement que les grands modèles soient « intelligents », mais qu’ils puissent être exécutés de manière continue, à grande échelle et à faible coût dans le monde entier. GoodVision AI dispose également de sa propre solution d’optimisation à ce niveau : en collaborant avec les fabricants de grands modèles, elle déploie ces modèles dans des datacenters AI Factory, passant ainsi d’un modèle de location de puissance de calcul traditionnelle à la fourniture directe de services Token ; cela permet non seulement d’augmenter la marge brute, mais aussi d’améliorer l’expérience utilisateur.

Cinquième couche du gâteau : Distribution de tokens — le « réseau électrique » de l'ère de l'IA

Une fois que AIDC sera construit, la question suivante se pose : comment ces capacités de calcul seront-elles utilisées dans le monde entier ?

Ainsi, des plateformes de location de puissance de calcul sont apparues. Elles agissent comme le « réseau électrique » de l’ère de l’IA, en décomposant, distribuant et louant selon les besoins les ressources GPU initialement centralisées aux développeurs, entreprises et applications IA.

AWS, Azure, Google Cloud, Alibaba Cloud et Tencent Cloud restent les acteurs les plus puissants de ce niveau. Ils possèdent les plus grandes infrastructures de cloud computing au monde et intègrent progressivement des ressources GPU pour l'IA dans leur offre IaaS.

Mais en même temps, un ensemble de « nuages natifs à l'IA » commence à émerger rapidement. Des entreprises comme CoreWeave, Nebius et Nscale construisent spécifiquement des plateformes cloud GPU axées sur les besoins d'entraînement et d'inférence de l'IA. Contrairement aux fournisseurs de nuages traditionnels, elles sont plus flexibles, plus concentrées sur les tâches d'IA et plus compétentes en matière d'optimisation de clusters GPU.

CoreWeave est l'une des entreprises les plus représentatives de NeoCloud. Initialement axée sur le minage d'Ether, elle a entièrement pivoté vers les services cloud GPU pour l'IA et est désormais une entreprise d'infrastructure IA soutenue en priorité par NVIDIA.

Les plateformes cloud légères telles que DigitalOcean et Vultr ciblent les petits et moyens développeurs ainsi que les startups, en mettant l'accent sur le déploiement rapide et des services GPU à faible coût.

Sur le marché chinois, en dehors des géants, des entreprises telles que UCloud, Kingsoft Cloud et Capital Online sont des fournisseurs majeurs du marché du cloud GPU et de la location de puissance de calcul AI. La structure de la concurrence à ce niveau ressemble fortement à celle des premiers réseaux électriques : comment distribuer efficacement une puissance de calcul dispersée.

Centre de données IA

Sixième couche du gâteau : Optimisation des jetons et planification intelligente — Le cerveau de l'ère de l'IA

Cela pourrait être la couche de « gâteau » la plus sous-estimée, mais aussi la plus cruciale. Après l'explosion de l'utilisation des agents IA, on a constaté que toutes les tâches ne méritent pas d'appeler le modèle le plus coûteux. De nombreuses tâches simples peuvent être réalisées avec des modèles locaux ; de nombreuses tâches en temps réel sont mieux adaptées à l'inférence en périphérie ; et de nombreuses tâches impliquant des données sensibles ne peuvent même pas être envoyées dans le cloud. Après la question « Y a-t-il suffisamment de puissance de calcul ? », s'ajoute désormais une autre : « Comment utiliser la puissance de calcul de manière plus intelligente ? »

Avec la croissance exponentielle de la demande pour les tokens, « faire en sorte que le bon modèle, sur la bonne puissance de calcul, traite la bonne tâche » est essentiel pour une utilisation raisonnable et efficace des tokens. C’est précisément l’un des axes sur lesquels GoodVision AI travaille, en plus de son déploiement d’une usine de tokens AI.

Comme le système électrique d'aujourd'hui : certaines demandes proviennent du réseau électrique principal ; d'autres proviennent des panneaux solaires sur les toits. Ce qui compte vraiment, c'est la couche intermédiaire : le « système de gestion intelligente ».

L'IA future suivra la même structure : les tâches simples seront exécutées par de petits modèles locaux, les tâches complexes feront appel à de grands modèles cloud, les tâches à haute confidentialité seront traitées en périphérie, et les tâches à forte concurrence seront dynamiquement planifiées via un cloud hybride.

Outre Goodvision AI, des entreprises telles que Qingyun Technology, Lambda, OpenRouter et Fireworks AI sont également des leaders en matière d'optimisation et de planification intelligente des jetons.

Cette couche de « gâteau » présente un chevauchement important avec les deux couches précédentes — AIDC et la location de puissance de calcul. À mesure que les ressources GPU, les nœuds régionaux et l'échelle des tâches d'inférence continuent de croître, « posséder simplement de la puissance de calcul » ne suffit plus à établir un avantage concurrentiel durable. De plus en plus d'opérateurs AIDC et de plateformes cloud GPU commencent à réaliser que, dans le futur, ce qui déterminera véritablement l'efficacité et la rentabilité, ce n'est pas seulement le nombre de GPU, mais la capacité à orchestrer dynamiquement les modèles, la puissance de calcul et le trafic de jetons.

Ainsi, de nombreuses plateformes initialement axées sur l'infrastructure AIDC et le cloud GPU s'étendent vers une « couche d'ordonnancement intelligent ». Par exemple, des entreprises du marché chinois telles que UCloud, Capital Online et Sugon tentent de combiner leurs infrastructures GPU cloud, leurs ressources multi-cloud et leurs capacités d'ordonnancement d'inférence, passant progressivement de la « vente de puissance de calcul » à l'« optimisation de la puissance de calcul ».

Centre de données IA

Couche sept : Modèles et Agents — Consommateurs de tokens

Bien que cette couche soit la plus proche des utilisateurs et la plus facile à saturer en trafic, la concurrence y est également la plus intense. Lors du GTC 2026, Jensen Huang a formulé cette idée : à l'avenir, chaque entreprise deviendra un « producteur et consommateur de tokens ».

Un agent IA peut simultanément appeler plusieurs modèles, plusieurs outils et plusieurs API, tout en effectuant continuellement des raisonnements, des planifications et des exécutions. Cela signifie que la quantité de tokens consommée par l'IA à l'avenir dépassera largement l'échelle actuelle des interactions humaines avec l'IA. Certains utilisateurs intensifs de l'IA actuels ont déjà construit des systèmes concurrents avec des agents s'appelant mutuellement et consomment facilement 1 milliard de tokens par jour.

Le futur ne sera pas de 1 milliard d'utilisateurs utilisant l'IA, mais de 10 milliards, voire 100 milliards d'agents IA travaillant simultanément et s'appelant mutuellement. Le véritable goulot d'étranglement passera alors de la « capacité du modèle » à l'« efficacité de la planification des tokens ».

Les géants de la technologie, tels que Microsoft, Google, Meta et Amazon, intègrent progressivement les capacités de l'IA dans tous leurs produits via les systèmes de bureau, les moteurs de recherche, les réseaux sociaux et les services cloud.

Les entreprises de logiciels d'entreprise telles qu'Adobe, Salesforce, ServiceNow et Palantir avancent rapidement dans le domaine des agents IA d'entreprise et des flux de travail automatisés. Parallèlement, Hugging Face devient le « GitHub » de l'ère de l'IA. Il ne s'agit pas seulement d'une communauté de modèles, mais aussi d'une infrastructure essentielle pour l'écosystème mondial du développement IA.

En Chine, des entreprises telles que iFlytek, Kunlun Tech, 360, Kingsoft Office et SenseTime s'organisent autour des assistants IA, du bureau IA et des agents IA.

Lorsque le « gâteau sept couches » sera véritablement formé, le monde de l'IA commencera réellement.

L'industrie de l'IA d'aujourd'hui repose toujours sur un système d'infrastructure qui n'est pas encore entièrement mature.

Certains possèdent les GPU les plus avancés, mais sont limités par l'énergie ; d'autres ont construit de vastes AIDC, mais manquent de planification efficace ; d'autres encore développent des modèles et des agents puissants, mais font face à des coûts d'inférence élevés et à des latences ; certains maîtrisent les nœuds périphériques, mais ne parviennent pas à créer un réseau coordonné et unifié.

De l'électricité, de l'AIDC et du GPU à la LLM, la distribution de jetons, l'ordonnancement intelligent et les agents IA, toute la chaîne de valeur de l'IA, bien qu'en forte croissance, présente encore de nombreux silos, redondances et goulots d'étranglement en matière d'efficacité.

Et ce n'est qu'une fois que ce « gâteau en sept étages » sera pleinement construit et commencera à fonctionner de manière efficace et coordonnée que l'industrie de l'IA passera véritablement de l'ère actuelle des « outils » à l'ère du « large adoption » du monde intelligent.

Dans le futur monde de l'IA, il ne s'agira plus seulement de quelques géants technologiques entraînant de grands modèles, mais de milliards d'agents IA en ligne en permanence, collaborant en continu et sollicitant des ressources de calcul et des tokens. Chaque conversation, chaque raisonnement, chaque appel d'outil et chaque tâche exécutée automatiquement implique une coordination entre l'énergie, les GPU, le réseau, les systèmes d'ordonnancement et les nœuds d'inférence.

Cela signifie également que l'industrie de l'IA évolue progressivement depuis l'ancien « logiciel » vers un système industriel superposé couvrant l'énergie, les puces, le cloud computing, les réseaux périphériques et l'ordonnancement intelligent.

Comme la révolution industrielle n'a pas seulement nécessité la machine à vapeur, mais aussi les chemins de fer, les réseaux électriques et les ports ; comme la révolution internet n'a pas seulement nécessité les ordinateurs personnels, mais aussi les fibres optiques, les centres de données et le cloud computing ; le véritable accomplissement de la révolution de l'IA ne consistera pas seulement en une seule application à succès, mais en la formation d'un « réseau d'infrastructure intelligente » mondial capable de produire, distribuer, orchestrer et consommer des tokens de manière continue.

Et lorsque ces sept couches d'infrastructure seront finalement connectées ensemble, la logique de concurrence dans l'industrie de l'IA sera entièrement重构. Les entreprises les plus importantes à l'avenir ne seront peut-être plus seulement celles qui possèdent les plus grands modèles, mais celles capables de relier l'énergie, la puissance de calcul, le réseau, les modèles et le flux de jetons.

L'industrie de l'IA entre dans « l'ère des jetons » avec une infrastructure en sept couches

Le moteur de l'ère de l'IA est passé des modèles aux tokens.

Première couche du gâteau : l'électricité — l'énergie de l'ère de l'IA

Deuxième couche du gâteau : AIDC — Usine de matières premières Token

Troisième couche du gâteau : GPU — les équipements de production de tokens

Quatrième couche du gâteau : LLM — le moteur de production de tokens

Cinquième couche du gâteau : Distribution de tokens — le « réseau électrique » de l'ère de l'IA

Sixième couche du gâteau : Optimisation des jetons et planification intelligente — Le cerveau de l'ère de l'IA

Couche sept : Modèles et Agents — Consommateurs de tokens

Lorsque le « gâteau sept couches » sera véritablement formé, le monde de l'IA commencera réellement.