Les jetons AI explosent : 500 M, 1,3 M et 18 K en une seule nuit

500 millions de dollars de factures brûlés en un mois !

Récemment, un énorme malentendu a été révélé dans le monde de la technologie. Selon Axios, une entreprise a dépensé 500 millions de dollars en un seul mois sur Claude !

La raison est à la fois absurde et regrettable : l’équipe de direction a oublié de définir une limite de consommation lors de l’activation des comptes Claude pour les employés.

GitHub

En réalité, ce n'est pas la seule entreprise à avoir fait faillite en raison de factures liées à l'IA.

En avril de cette année, un utilisateur de Google Cloud a reçu une facture de 18 000 dollars en une nuit, car une clé API laissée accessible publiquement a été utilisée à mauvais escient, alors que son budget initial n'était que de 7 dollars.

GitHub

Cet utilisateur malchanceux s’appelle Jesse Davies, conseiller en IA australien et fondateur d’Agentic Labs. Il a mis en place deux mesures de protection sur son compte Google Cloud : une alerte de budget à 10 AUD (environ 7 USD) et une limite de dépense stricte à 1 400 USD.

Selon Tom's Hardware, l'attaquant a découvert un service Cloud Run qu'il avait publié il y a plusieurs mois, a envoyé plus de 60 000 requêtes, et les deux mécanismes de sécurité n'ont pas pu l'arrêter : il y avait un retard dans le calcul de la facturation, et lorsque le système a réagi, le montant avait déjà atteint 18 000 dollars.

Mi-mai, Peter Steinberger, fondateur du projet open source OpenClaw, a publié une capture d'écran sur X : facture OpenAI API de 1,3 million de dollars sur 30 jours.

GitHub

Son équipe ne compte que trois personnes, mais elles gèrent 100 agents Codex fonctionnant en parallèle : 60,3 milliards de tokens brûlés en 30 jours, 7,6 millions de requêtes effectuées. Heureusement, ces 1,3 million de dollars ne proviennent pas de sa poche.

Steinberger a rejoint OpenAI en février de cette année, et ces 1,3 million de dollars ont été utilisés comme une expérience interne :

Testez sans tenir compte du coût des tokens : jusqu’où l’IA peut-elle aller en programmation ? Il a ajouté que ce résultat provient du mode « Fast Mode » de Codex ; une fois désactivé, cela coûte environ 300 000 dollars.

Plus tôt, Praveen Neppalli Naga, CTO d'Uber, avait également reconnu auprès de The Information que l'entreprise avait épuisé son budget annuel pour Claude Code en avril, et son COO avait publiquement déclaré que les coûts liés à l'IA devenaient de plus en plus « difficiles à justifier ».

500 millions, 1,3 million, 18 000 : bien que les montants diffèrent de plusieurs ordres de grandeur, ils pointent vers le même fait :

À l'ère des agents intelligents, une clé hors de contrôle, une armée d'agents fonctionnant jour et nuit, un compte sans limite fixée : l'un d'entre eux suffit à faire exploser votre facture de tokens en une nuit.

Pourquoi les factures AI ont-elles fait l'objet d'un liquidation ?

La réponse réside principalement dans les changements du mode de facturation.

À partir d'avril de cette année, le modèle d'abonnement mensuel d'OpenAI a commencé à passer à une facturation en fonction de la consommation de tokens.

Le 2 avril, la facturation de Codex est passée d'une estimation par message à une alignement sur l'utilisation des tokens : les tokens d'entrée, de cache d'entrée et de sortie sont calculés séparément. Le 23 avril, ce système a été étendu à tous les forfaits Enterprise, Edu, Health et Gov : la remise invisible incluse dans le forfait mensuel a été supprimée.

GitHub suit la tendance et vient d'annoncer : à compter du 1er juin 2026, tous les forfaits Copilot passeront à un modèle de facturation à l'utilisation. L'ancienne logique de requêtes premium est supprimée et remplacée par des crédits IA, facturés en fonction de la consommation réelle de tokens d'entrée, de tokens de sortie et de tokens mis en cache, selon les tarifs API de chaque modèle.

GitHub

GitHub a expliqué les raisons de cette action :

Un utilisateur dépense autant d’argent pour une rapide question de discussion qu’pour une tâche d’écriture autonome qui dure plusieurs heures. GitHub a toujours payé pour les utilisateurs qui exécutent des tâches intensives, mais ce modèle n’est plus durable.

Avant l'essor des agents IA, les coûts de discussion et de complétion étaient similaires, et l'abonnement mensuel couvrait les frais.

Après l'émergence des agents, une tâche peut s'exécuter pendant plusieurs heures consécutives et modifier toute la base de code ; la différence de coût entre les utilisateurs intensifs et les utilisateurs occasionnels peut atteindre plusieurs ordres de grandeur. Le modèle d'abonnement mensuel s'effondre face à cette disparité.

La nouvelle a provoqué une tempête sur Reddit et X.

Un développeur ayant l'ID JBusu a partagé une capture d'écran de sa facture, déclarant que la nouvelle tarification « est une blague ». Passant de 28,12 $/mois à 746,01 $ selon le nouveau tarif, il a décidé d'annuler son abonnement : « À ce prix, il est encore moins cher de louer un serveur cloud moi-même. »

GitHub

Un autre utilisateur a partagé une capture d'écran encore plus extrême, montrant des frais passant de 50 $ à 3 000 $ ; il a déclaré qu'il n'aurait jamais imaginé que le prix serait aussi exagéré : « Quelqu'un continue-t-il à s'abonner ? »

GitHub

Cependant, certains anciens utilisateurs de Copilot ont réagi en contredisant : ces factures extrêmes proviennent probablement de vibe-coders qui ne prennent pas au sérieux la consommation de tokens, et ne reflètent pas nécessairement un usage normal.

Un ancien utilisateur a laissé un commentaire : « Je l’utilise toute la journée, et je ne dépasse presque jamais mon budget à la fin du mois ; il est difficile de croire que cela soit dû à une différence de complexité du travail. » Un autre est plus direct : « Certains veulent simplement un mode YOLO entièrement automatisé, laissant l’IA courir au hasard. Éliminer ce gaspillage profite en réalité aux autres. »

Il faut bien comprendre : GitHub n'a pas supprimé le forfait mensuel, le prix de base de l'abonnement n'a pas changé. Ce qui a réellement changé, c'est le dépassement des quotas, les tâches d'agent et les appels de modèles plus coûteux : désormais, le tarification est basée sur la consommation.

Les utilisateurs intensifs d'agents qui comptent sur Copilot pour exécuter des tâches de chaîne longue ont été les plus touchés.

Classement ruiné par les siens

Le forfait mensuel a été dépassé : d’un côté, la plateforme a modifié ses règles de facturation, de l’autre, les utilisateurs d’IA s’efforcent eux aussi de dépenser massivement.

En mai, Business Insider a rapporté qu'Amazon avait retiré un classement interne d'utilisation d'IA appelé KiroRank.

Ce rapport cite des personnes informées affirmant que ce classement a secrètement encouragé une manière étrange de travailler : certains employés, afin de grimper plus haut dans le classement, consomment des tokens sans résoudre de problèmes réels, uniquement pour améliorer leur position.

GitHub

Après l'annonce de l'affaire, Dave Treadwell, vice-président senior d'Amazon, a directement adressé un message à l'ensemble de l'entreprise : « N'utilisez pas l'IA pour simplement l'utiliser. Utilisez-la pour résoudre les problèmes des clients, résoudre les problèmes commerciaux, innover. »

C'est absurde, mais pas surprenant : lorsque « brûler des tokens » permet d'entrer dans le classement, les employés n'auront qu'une envie : brûler des tokens.

La Silicon Valley a donné un nom spécifique à ce phénomène : Tokenmaxxing (brûler des tokens à l'extrême), en considérant la consommation comme une productivité.

Axios mentionne également qu’un CTO a découvert que des employés utilisaient des modèles d’IA pour vérifier la météo ou rédiger des courriels quotidiens — des tâches simples qui, en utilisant les modèles les plus coûteux et les plus avancés, faisaient grimper discrètement les factures.

KiroRank n'est pas un système d'évaluation officiel d'Amazon, mais un outil informel créé spontanément par les employés. Il révèle clairement une loi classique de la gestion : lorsque les KPI sont mal définis, les gens trouvent la manière la plus intelligente de les contourner.

Équivaloir « combien on a utilisé » à « combien on a bien fait » — c’est précisément la racine institutionnelle du gaspillage actuel d’IA.

Les personnes qui comptent les tokens gagnent déjà de l'argent.

L'autre côté de l'anxiété liée aux factures de jetons : certains l'ont discrètement transformé en affaire.

Premier chemin : nourrir l'IA avec le contexte.

Glean est l'entreprise d'Arvind. Elle développe un assistant AI pour les entreprises : elle unifie les connaissances dispersées au sein de l'entreprise, permettant aux assistants AI des employés d'accéder directement au contexte, sans avoir à chercher à travers diverses sources. Moins de détours pour l'IA, moins de tokens consommés.

Ce mécanisme a permis à Glean de tripler son chiffre d'affaires annuel en 15 mois, dépassant 300 millions de dollars, avec des clients tels que Databricks, Reddit et Samsung.

Deuxième option : répartir la charge sur les bons modèles.

La startup de routage de modèles Factory AI fait exactement cela : attribuer automatiquement chaque tâche au modèle le plus adapté, les tâches simples passant par les options économiques et les tâches complexes par les options haut de gamme. Arvind a également mentionné : « Bien faire le routage peut permettre d’économiser jusqu’à 10 fois. »

Ces deux chemins mènent au même résultat : faites travailler l’IA, mais ne laissez pas elle gaspiller.

La recherche dans le milieu académique pose également les fondations de ce virage.

GitHub

https://arxiv.org/pdf/2604.22750

Un article arXiv d'avril 2026 a pour la première fois décomposé systématiquement comment les tâches d'encodage d'agents consomment de l'argent.

Conclusion 1 : La consommation de tokens pour les tâches d'agent peut atteindre plusieurs milliers de fois celle de l'inférence et de la conversation de code ; le principal facteur d'augmentation des coûts est le nombre de tokens d'entrée.

Conclusion 2 : Lorsqu'on exécute la même tâche plusieurs fois, la consommation de jetons peut varier jusqu'à 30 fois.

Conclusion 3 : Une consommation plus élevée de jetons n'entraîne pas nécessairement une précision supérieure. La précision atteint souvent un plateau à un coût modéré — au-delà, dépenser davantage ne procure plus de gains significatifs.

L'étude a également révélé que les modèles de pointe ne sont même pas capables de prédire combien de tokens ils vont consommer, et sous-estiment généralement le coût réel.

Vous pensez que dépenser plus d'argent permet d'accomplir plus de choses. En réalité, l'argent est dépensé, mais le travail n'est pas nécessairement meilleur, et le budget reste difficile à estimer.

Lorsque les factures IA commencent à dépasser les coûts humains

C'est la première fois, selon mon souvenir, que les coûts techniques commencent à égaler les coûts humains.

Le 29 mai, Arvind Jain, PDG de Glean, a déclaré lors d'une interview avec la journaliste de CNBC Deirdre Bosa.

GitHub

L'observation de Bryan Catanzaro, vice-président de l'application de l'apprentissage profond chez NVIDIA, confirme cela.

Il a mentionné dans l'interview d'Axios : pour son équipe, le coût de la puissance de calcul dépasse largement les salaires des employés.

Un phénomène similaire se manifeste chez plusieurs entreprises : de Glean, spécialisée dans l’IA pour les entreprises, à NVIDIA, qui vend de la puissance de calcul pour l’IA, en passant par Uber, qui utilise l’IA, toutes réévaluent ce compte.

Selon Arvind, historiquement, la technologie n'était qu'une petite partie du coût global des entreprises, mais aujourd'hui, les coûts liés à l'IA atteignent le montant des salaires, et le budget annuel d'IA de nombreuses entreprises est souvent épuisé en un à deux mois.

GitHub

Au cours de la dernière année, l'utilisation de l'IA était un indicateur vénéré : plus on en utilisait, plus on était avancé ; brûler des tokens signifiait embrasser l'avenir. Aujourd'hui, de nombreuses entreprises commencent à se demander cette phrase simple : qu'est-ce que ces tokens brûlés ont réellement apporté ?

La période d'essai gratuit et illimitée vient précisément de se fermer.

Ensuite, la question qui se pose à tous les développeurs est la suivante : comment optimiser chaque token pour en tirer la plus grande valeur possible.

Le véritable gagnant du futur sera sans aucun doute celui qui apprendra en premier à compter les tokens.

Références :

https://x.com/dee_bosa/status/2060791500049613306%20

https://www.cnbc.com/2026/05/29/-tokens-or-humans-the-new-corporate-trade-off.html%20

https://www.axios.com/2026/05/28/ai-spending-roi-enterprise-costs%20

https://www.businessinsider.com/amazon-ai-leaderboard-tokenmaxxing-2026-5

Cet article provient du compte WeChat « Nouvelle Intelligence », auteur : Apocalypses de l'ASI