Article | Lin Wanwan
En 1876, à l'exposition de Philadelphie. L'empereur du Brésil Pierre II a pris le téléphone inventé par Bell, a entendu la voix à l'autre extrémité et s'est écrié : « Mon Dieu, ça parle ! »
Cent cinquante ans plus tard, le 18 mars 2026, au San Jose Convention Center. Jensen Huang, vêtu d'une veste en cuir noire, se tient sur scène à la conférence GTC et prononce une déclaration surprenante.
Dans dix ans, NVIDIA aura probablement 75 000 employés. Ils seront très, très occupés à travailler avec 7,5 millions d'agents IA.
Le public a ri.
75 000 personnes, 7,5 million d'agents, 1:100.
Huang Renxun a aussi souri et ajouté : « Elles fonctionneront 24 heures sur 24. J’espère que nos employés n’auront pas à rivaliser avec elles. »

Les applaudissements se sont éteints, et ce chiffre a été noyé par les présentations de puces plus spectaculaires et les accords de partenariat de la journée. Mais prenons un moment pour y réfléchir séparément : cela pourrait bien être l'une des phrases les plus importantes de toute la conférence.
Ce n'est pas seulement Jensen Huang. Il y a trois mois, une autre personne a décrit ce même avenir de manière plus précise.
Janvier 2026, CES à Las Vegas. Bob Sternfels, PDG de McKinsey, est assis sur scène en annonçant des chiffres.
« Nous avons maintenant 40 000 employés humains et environ 25 000 agents IA. » Il y a moins de deux ans, ce chiffre était de quelques milliers. Ces 25 000 agents ont généré 2,5 millions de graphiques au cours des six derniers mois.
2,5 millions de graphiques. Avant, ce travail était confié aux analystes recrutés récemment. Vingt-trois ou vingt-quatre ans, portant l'éclat d'une université de renommée mondiale, ils alignaient les axes à 3 heures du matin.
C'est le point de départ de chaque nouveau venu à McKinsey, un billet pour le chemin vers le statut de partenaire, acheté avec le travail le plus mécanique.
La première moitié de ce ticket est désormais gérée par l'agent. Sternfels dit : « L'IA a fait augmenter certains postes de 25 % et en a réduit d'autres de 25 %. L'entreprise est divisée en deux moitiés nettes : une en expansion et une en contraction. »
The story of NVIDIA and the story of McKinsey are about the same thing.
Dans un monde à 1:100, les agents pilotés par des tokens effectuent le travail, et les humains sont des interfaces connectées à ces agents.
La télécommande du cheat n'est pas entre vos mains
During the week of GTC, Jensen Huang appeared on the All-In Podcast and said something even more impactful.
Suppose you have an engineer earning $500,000 per year. If he hasn't consumed at least $250,000 worth of Tokens, I would be very concerned.
L'animateur demande si NVIDIA dépense 2 milliards de dollars pour acheter des tokens pour son équipe d'ingénierie, et Jensen Huang répond : « Nous y travaillons. »
Un ingénieur qui ne brûle pas de token ne vaut pas 500 000, même s'il en coûte 500 000.

La stratégie de NVIDIA est directe : intégrer des jetons dans les paquets de rémunération. Lors de sa conférence plénière GTC, Jensen Huang a déclaré que, à l'avenir, chaque ingénieur de NVIDIA disposera d'un budget annuel de jetons équivalent à environ la moitié de son salaire de base.
Un ingénieur avec un salaire de base de plusieurs centaines de milliers de dollars reçoit en plus une allocation de puissance d'inférence équivalente à la moitié de son salaire de base, et un tiers du total correspond à du carburant pur.
Une personne ayant un budget complet en tokens dispose en permanence de plusieurs dizaines d'agents IA pour lui écrire du code, exécuter des tests, rechercher des publications et réaliser des simulations. Une personne n'ayant que le quota gratuit de l'API doit encore taper à la main. Deux personnes peuvent avoir exactement le même CV, mais leur production diffère de 5 à 10 fois.
Cela n'est plus une théorie en Sillicon Valley.
En mars de cette année, Business Insider a rapporté un changement : les ingénieurs se font désormais demander lors des entretiens : « Quel est le budget Token pour ce poste ? » Tomasz Tunguz, associé chez Theory Ventures, appelle le budget Token la « quatrième colonne » de la rémunération des ingénieurs, après le salaire de base, les primes et les actions. Les propos de Greg Brockman, président d’OpenAI, sont encore plus directs : la quantité de puissance d’inférence à laquelle vous pouvez accéder déterminera de plus en plus votre productivité globale.
Huang Renxun a lui-même déclaré lors de sa conférence GTC : « Combien de tokens suivent mon poste ? C’est devenu un outil de recrutement à Silicon Valley. »
Dans les années 1950, les salaires des ouvriers de l'automobile à Détroit figuraient parmi les plus élevés aux États-Unis. Ce qui leur a véritablement permis de mener une vie de classe moyenne, c'est la chaîne de montage inventée par Henry Ford. Les ouvriers restaient en place tandis que la chaîne se déplaçait ; la production de chacun était multipliée par des dizaines de fois grâce à des bras mécaniques. Le niveau de vie d'un ouvrier de Détroit dépassait largement celui des artisans contemporains, même si leur savoir-faire n'était pas nécessairement supérieur ; ils marchaient simplement sur une chaîne de montage plus massive.
Le budget de token pour 2026 est la chaîne de montage de 1950.
Mais il y a une différence.
Les travailleurs de Détroit qui quittent Ford peuvent aller chez General Motors ou chez Chrysler ; les chaînes de montage sont partout. Le syndicat peut négocier avec la direction pour exiger des vitesses de chaîne plus raisonnables et un environnement plus sûr.
Les budgets de jetons sont différents. Le jour où l'entreprise vous donne des jetons, vous êtes un super-héros ; le jour où elle les reprend, vous redevenez un inconnu. Les actions peuvent être converties en argent et emportées ; les compétences vous suivent lors d'un changement d'emploi. Les budgets de jetons ne sont rien de plus qu'un cheat code, dont l'interrupteur est contrôlé par l'entreprise.
La Silicon Valley a maintenant un nouveau terme pour décrire cette situation : « la soif de GPU ».
Les meilleurs chercheurs en IA changent d'emploi ; l'écart salarial est désormais en deuxième position, derrière la puissance de calcul. Sans possibilité d'effectuer des expériences ni de déployer des agents, leurs compétences sont limitées par des quotas. « Combien de tokens offrez-vous ? » dépasse parfois la question des actions. Les actions sont des chèques à terme pouvant fortement chuter, tandis que les tokens représentent un budget productif convertible immédiatement.
Ceux qui n'utilisent pas l'IA sont éliminés directement.
Goldman Sachs estime que l'IA pourrait automatiser 25 % des heures de travail aux États-Unis. Une enquête de Mercer indique que 65 % des cadres prévoient que 20 à 30 % des employés seront réaffectés en raison de l'IA. En superposant ces deux chiffres, la conclusion est claire : ceux qui ont des jetons voient leur productivité exploser, tandis que ceux qui n'en ont pas sont éliminés.
La limite est de plus en plus indépendante du quota de jetons et des capacités humaines.
Le débit de jetons est l'évaluation.
La valeur d'une personne est déterminée par le quota de tokens. Et l'entreprise ?
Au début de mars 2026, une entreprise de Shanghai appelée MiniMax a publié son premier rapport annuel depuis son introduction en bourse. Le chiffre d'affaires annuel s'est élevé à 79 millions de dollars américains, avec un déficit net ajusté de 250 millions de dollars. Selon les indicateurs financiers traditionnels, il s'agit d'une petite entreprise qui consomme des fonds, dont les revenus ne représentent qu'une fraction du chiffre d'affaires d'un seul trimestre d'Accenture.
Mais le marché des capitaux ne le voit pas ainsi.
Le PDG de MiniMax, Yan Junjie, a déclaré lors de la conférence téléphonique sur les résultats : « La valeur de l'entreprise est déterminée par la densité intelligente multipliée par le débit de tokens. »
Débit de jetons, pas la croissance des revenus, pas le nombre d'utilisateurs, pas la marge brute.
Les données soutenant cette affirmation sont solides. En février 2026, la consommation quotidienne de tokens du modèle M2 de MiniMax a augmenté de six fois par rapport à décembre, deux mois plus tôt. La consommation de tokens dans les scénarios de programmation a augmenté de dix fois. Sur la plateforme d'agrégation de modèles d'IA OpenRouter, le modèle M2.5 de MiniMax a consommé 4,55 billions de tokens en deux semaines, dépassant tous les modèles américains et faisant de cette entreprise de Shanghai la première à occuper la première place du classement mondial de la consommation de tokens.
Le South China Morning Post a utilisé une expression pour rapporter cet événement : les modèles open source chinois ont mis fin à la domination des développeurs américains sur le marché pendant un an. Qu'est-ce qui a mis fin à cette domination ? La consommation de jetons. Celui dont les jetons ont été les plus brûlés est le gagnant.
Ce raisonnement s'applique également à OpenAI. La plateforme API d'OpenAI traite 6 milliards de tokens par minute, soit une augmentation de 20 fois en deux ans. Le nombre de clients entreprises consommant plus de 100 000 dollars par an a presque été multiplié par 7. Après avoir analysé les données, l'analyste de Barclays Ross Sandler a conclu que la consommation de tokens par les utilisateurs d'OpenAI est plus de deux fois supérieure à celle de Google Gemini.
La consommation de jetons est devenue la monnaie d'échange pour classer les entreprises d'IA.
Ce qui est encore plus intéressant, c’est à quoi ressemble cette situation à l’intérieur de l’entreprise. Le New York Times a récemment rapporté un phénomène appelé « tokenmaxxing » : les ingénieurs de Meta et d’OpenAI se disputent sur les classements internes pour déterminer qui consomme le plus de tokens.
Les budgets tokens deviennent un avantage standard, comme les déjeuners gratuits et l'assurance dentaire il y a dix ans. Un ingénieur travaillant au bureau d'Ericsson à Stockholm a déclaré au New York Times qu'il dépensait peut-être plus sur Claude que son salaire, mais que l'entreprise prenait en charge les frais.
Un article de TechCrunch la semaine dernière a fait le calcul : un ingénieur qui écrit un article l'après-midi peut consommer 10 000 tokens, mais un ingénieur qui exécute un cluster d'agents peut brûler des millions de tokens en arrière-plan sans taper un seul mot.
Il y a deux ans, le prix par million de tokens était de 33 dollars. Maintenant, 9 cents. Une baisse de 99,7 %. Plus le prix est bas, plus la brûlure est intense. Plus la brûlure est intense, plus on ne peut s'en passer.
Yan Junjie a prédit lors de la conférence téléphonique que la demande future pour les tokens pourrait augmenter d'un à deux ordres de grandeur.
C’est la nouvelle façon d’évaluer une entreprise en 2026. On ne regarde plus combien d’argent elle gagne, mais combien de ses jetons ont été brûlés. MiniMax perd 250 millions, mais la courbe de croissance du débit de ses jetons est effrayante, et les marchés financiers sont prêts à parier dessus. Vous pouvez le comparer à YouTube en 2006, qui ne génère aucun revenu, mais dont la consommation de bande passante augmente de façon exponentielle, ce qui a poussé Google à la racheter pour 1,65 milliard de dollars.
À l'époque, YouTube consommait de la bande passante. Aujourd'hui, MiniMax consomme des tokens. L'unité de mesure a changé, mais la logique reste la même.
La capacité peut attendre, la dette ne peut pas attendre
La même semaine, GTC a également connu un autre événement.
Le 18 mars, Stripe a lancé le Machine Payments Protocol. En clair : les agents IA peuvent désormais dépenser de l'argent eux-mêmes.
Un agent a besoin d’un ensemble de données qu’il télécharge à ses propres frais. Il doit acheter de la puissance de calcul pour exécuter des inférences, payée à la seconde. Il doit appeler l’API d’un autre agent et régler lui-même la facture. Tout ce processus ne nécessite aucune confirmation humaine. Visa a adapté les paiements par carte de crédit à ce protocole, Coinbase a créé un portefeuille dédié aux agents, et Mastercard développe Agent Pay.

La consommation de jetons a désormais une nouvelle source. Auparavant, le seul scénario était « l’humain qui programme un agent ». Désormais, les agents consomment eux-mêmes des jetons et utilisent les revenus générés par les jetons pour en acheter davantage. John Collison, cofondateur de Stripe, a utilisé un mot : « raz-de-marée ».
Huang Renxun a fourni les chiffres correspondants sur scène : NVIDIA compte augmenter le taux de génération de tokens de 22 millions à 700 millions, soit 350 fois.
C'est en train de construire un réseau routier entier, en pariant sur une croissance exponentielle du trafic automobile.
Un pari de 600 milliards de dollars sur les infrastructures nécessite une condition préalable : la consommation mondiale de tokens doit être suffisamment importante pour justifier le retour sur investissement. Cette condition n'est pour l'instant qu'une hypothèse, et une hypothèse très coûteuse.
Au dernier trimestre de 2025, les entreprises technologiques ont émis un record de 108,7 milliards de dollars d'obligations. Au début de 2026, les premières semaines ont ajouté encore 100 milliards. Morgan Stanley et JPMorgan estiment que la dette totale accumulée par les entreprises liées à l'IA au cours des prochaines années pourrait atteindre 1 500 milliards de dollars. Selon Goldman Sachs, les dépenses en capital liées à l'IA représentent déjà environ 3 % du PIB américain.
Les premières personnes à avoir senti le risque à Wall Street ont commencé à souscrire une assurance. Le volume des credit default swaps augmente. En payant quelques dizaines de points de base de prime, on parie sur la possibilité que ces entreprises ne puissent pas rembourser leurs dettes. Daniel Sorid, responsable des stratégies de crédit chez Citi, a déclaré lors d'une réunion avec les investisseurs : « En tant qu'investisseur en crédit, faire face à une telle transformation à cette échelle, avec un tel besoin en capital, suscite une inquiétude instinctive. »
Le fondateur de Google, Larry Page, a dit une phrase plus extrême au sein de l'entreprise : Page a répété à plusieurs reprises aux employés de Google : « Je préfère faire faillite que perdre cette compétition. »
Il décrit précisément un dilemme du prisonnier : chaque géant parie que l'autre continuera à investir, donc il ne peut pas s'arrêter. Celui qui s'arrête est éliminé immédiatement.
Le côté optimiste repose sur des données concrètes. Le taux de génération de tokens a augmenté de 350 fois. Stripe vient de permettre aux agents de dépenser leur propre argent. McKinsey est passé de quelques milliers d'agents à 25 000 en deux ans. Si l'économie des agents prend pleinement son essor, la courbe de consommation de tokens pourrait effectivement devenir exponentielle.
Mais il y a une date qui fait perdre le sommeil à beaucoup de monde : le second semestre de 2026, le précipice de renouvellement.
De 2024 à 2025, les entreprises dépensent un « budget innovation ». Le PDG doit dire lors de la conférence financière : « Nous adoptons l'IA », avec une sensibilité au prix faible, des attentes en termes de résultats modérées, en dépensant de l'argent pour montrer une posture. À la fin de l'année 2026, les premiers projets pilotes arrivent à leur échéance de renouvellement. Le budget innovation est épuisé, le CTO a cédé sa place de l'autre côté de la table, et le CFO s'est assis. Le CFO ne reconnaît qu'un seul chiffre : le ROI.
Si un grand nombre de projets pilotes sont abandonnés, il y aura soudainement un déficit dans la consommation finale du token. La capacité produite à hauteur de 600 milliards en amont, avec les centres de données construits, l'électricité raccordée et les puces installées, deviendra une capacité inutilisée.
Cela s'est déjà produit dans l'histoire.
En 2000, les entreprises de télécommunications ont dépensé des milliers de milliards de dollars pour poser des câbles sous-marins. À l'éclatement de la bulle, 90 % des câbles à travers le monde sont restés inutilisés au fond de l'océan pendant près de dix ans. Ce n'est qu'avec le début du streaming de Netflix et l'explosion d'Internet mobile grâce à l'iPhone que les câbles ont été progressivement mis en service. Les câbles n'ont pas été posés en vain. Lucent, Nortel et WorldCom, les entreprises qui les ont installés, ont fait faillite. L'infrastructure est toujours là, mais les constructeurs ne le sont plus.
En 2012, l'énergie solaire en Chine. Wuxi Suntech et Jiangxi Saavi ont fait chuter les prix des modules en dessous du coût mondial. Surcapacité massive, secteur éliminé pendant trois ans. La demande est finalement arrivée : aujourd'hui, l'énergie solaire est la source d'énergie à la croissance la plus rapide sur Terre. Suntech a fait faillite. Saavi a fait faillite. Les pionniers sont tombés dans les dernières ténèbres avant l'aube.
Après que Bell ait inventé le téléphone, Western Union a refusé d'acheter le brevet pour 100 000 dollars. Dix ans plus tard, Western Union était prêt à en offrir 25 millions de dollars, mais Bell a refusé de vendre. Trente ans plus tard, le réseau téléphonique couvrait tout les États-Unis. Mais la plupart des petites entreprises qui avaient construit le réseau n'ont pas survécu jusqu'à la généralisation du téléphone. Le gagnant a été AT&T, qui a ensuite acquis et monopolisé l'ensemble du secteur.
L'histoire de l'infrastructure est toujours celle-ci. La direction est presque toujours correcte, mais les décalages temporels peuvent être mortels.
Revenons aux jetons. La structure mentionnée précédemment, où le jeton devient main-d’œuvre et l’humain devient une interface, repose sur la définition totale par les quotas de jetons ; son fondement est la consommation continue, massive et accélérée des jetons. La productivité dix fois supérieure des ingénieurs est soutenue par la fourniture de jetons ; supprimez-la et elle tombe à zéro. L’évaluation de 840 milliards de dollars d’OpenAI repose sur des engagements en matière de puissance de calcul ; arrêtez le protocole et sa valeur s’effondre. Les 600 milliards de dollars d’infrastructure sont soutenus par la croissance de la consommation finale ; dès que la croissance ralentit, tout tourne à vide.
Chaque couche dépend de la couche suivante. La vitesse de consommation est plus lente de deux à trois ans que la vitesse de construction, ce qui entraînera une réévaluation des prix pour tous les participants sur la chaîne.
Sur quelle ligne ferroviaire te trouves-tu ?
En 2023, avoir une carte, c'est être le père. En 2026, avoir un Token, c'est être le père.
Cela ressemble à un simple changement de mot, mais les modifications sous-jacentes sont plus profondes que ce que la plupart des gens réalisent.
GPU est un actif ; une fois acheté, il vous appartient, verrouillé dans le centre de données, personne ne peut le prendre.
Le token est du trafic. Votre rendement dix fois supérieur, votre valorisation élevée, vos atouts à la table des négociations — tout repose sur une offre continue qui ne vous appartient pas. Dès que l'on ferme le robinet, tout retombe à zéro.
Lorsque les jetons deviennent de véritables forces de travail, les humains deviennent des interfaces connectées aux jetons. De bonnes interfaces permettent aux jetons de dégager une plus grande valeur : le jugement, le sens esthétique, l'expérience, tout cela reste présent. Mais la quantité de travail qu'une interface peut accomplir dépend avant tout du nombre de jetons auxquels elle est connectée.
Les agriculteurs américains des années 1870 ont découvert qu'il ne suffisait pas de cultiver du bon blé ; il fallait être à côté de la voie ferrée. Les artisans des années 1950 ont découvert que, quelle que soit la qualité de leur métier, ils ne pouvaient pas rivaliser avec les ouvriers des chaînes de production. Les ingénieurs de 2026 sont en train de découvrir que, aussi beau soit le code, sans budget Token, tout reste inactif.
Lorsque le token devient un véritable travail, l'humain devient une interface. La qualité de l'interface elle-même est importante, mais sa valeur dépend avant tout de qui la fait fonctionner.
Cliquez pour en savoir plus sur les postes ouverts chez BlockBeats
Rejoignez la communauté officielle de律动 BlockBeats :
Groupe Telegram abonné : https://t.me/theblockbeats
Groupe Telegram : https://t.me/BlockBeats_App
Compte officiel Twitter : https://twitter.com/BlockBeatsAsia
