Après l'adoption à grande échelle d'outils d'IA par les entreprises, de nouveaux problèmes commencent à se manifester : ce n'est pas la puissance des modèles qui manque, mais la facture qui augmente trop vite. Plusieurs entreprises technologiques et internet ont constaté que, malgré la baisse du prix unitaire des tokens, la consommation totale continue d'augmenter rapidement en raison de la popularité croissante des outils d'IA pour la programmation, les assistants automatisés et les agents.
Plusieurs entreprises ont épuisé leur budget à l'avance
TechCrunch rapporte que certaines entreprises ont épuisé leur budget IA pour 2026 bien avant la fin de l'année fiscale. Uber a consommé l'intégralité de son budget annuel pour le codage IA d'ici avril ; Microsoft a révoqué l'accès à Claude Code pour certains développeurs après plusieurs mois d'ouverture ; un employé de Priceline a déclaré que les offres de renouvellement régulières pour Cursor avaient augmenté de 4 à 5 fois par rapport aux prix précédents.
Ce changement est lié à la sortie de modèles plus puissants au cours des derniers mois. Anthropic, OpenAI et Google ont progressivement lancé de nouveaux modèles mieux adaptés aux scénarios d'agents depuis novembre dernier, ce qui a continué d'augmenter le volume d'appels. Une entreprise a même reçu une facture de Claude atteignant 500 millions de dollars en raison de l'absence de limite d'utilisation pour ses employés.
L'augmentation de la productivité ne couvre pas nécessairement les coûts.
Alexander Embr, responsable des activités entreprises chez OpenAI, a déclaré que, il y a six mois, les clients se préoccupaient principalement de la capacité suffisante des modèles ; aujourd'hui, les discussions se concentrent sur la visibilité des dépenses, les capacités d'audit, le contrôle des tokens et l'efficacité des modèles. La question de l'achat d'IA par les entreprises passe de « que peut-il faire ? » à « combien cela coûte-t-il et en vaut-il la peine ? »
L'industrie commence également à réévaluer le retour sur investissement des outils d'IA pour le codage. Une enquête menée en mars par Faros AI auprès de 20 000 développeurs révèle une augmentation de la productivité, mais aussi une hausse des bogues et du travail de révision. Une étude de la plateforme de gestion d'ingénierie Jellyfish montre que les ingénieurs utilisant intensivement l'IA sont environ deux fois plus productifs que les utilisateurs peu intensifs, mais consomment dix fois plus de tokens.
- Les utilisateurs intensifs d'IA ont une productivité environ deux fois supérieure à celle des faibles utilisateurs.
- La consommation de jeton correspondante est environ 10 fois plus élevée
- La consommation d'un seul développeur a augmenté d'environ 18,6 fois en 9 mois.
L'outil de gestion des coûts prend rapidement forme
Alors que les problèmes de facturation s'aggravent, le marché des outils de gestion des coûts liés à l'IA commence également à s'intensifier. La Linux Foundation a annoncé cette semaine la création de la Tokenomics Foundation, dans le but d'établir un langage et des normes de gestion unifiés pour les dépenses en tokens AI, à l'instar de FinOps dans le domaine de la gestion des coûts cloud.
L'organisation prévoit de développer des normes ouvertes pour l'utilisation et la facturation des jetons, des indicateurs unifiés, ainsi que de nouvelles mesures liées à l'efficacité des coûts, telles que « le coût intelligent par unité » ou « le nombre de jetons par watt ». Le lancement officiel est prévu en juillet, et davantage de membres seront annoncés lors de la conférence FinOps X la semaine prochaine.
Dans le même temps, les startups et les fabricants établis accélèrent leur déploiement. Des entreprises comme Pay-i et Paid se concentrent sur le suivi, la mesure et l'optimisation des coûts liés à l'IA ; Jellyfish, Waydev et Faros AI proposent des services de surveillance par agents IA ; Ramp, Datadog et New Relic ajoutent également des fonctionnalités de gestion des dépenses IA, d'observabilité au niveau des tokens et de surveillance des GPU.
Le routage des modèles devient une piste de réduction des coûts
Certains investisseurs et cadres d'entreprises estiment que ce type de capacité apparaîtra de plus en plus au niveau de l'application ou de la couche de routage des modèles. Par exemple, l'entreprise startup Factory a lancé cette semaine un routeur de modèles qui sélectionne automatiquement le modèle le plus adapté en fonction de la tâche, afin de réduire les coûts d'appel. Certaines entreprises appliquent déjà des pratiques similaires dans leurs factures : même lorsqu'un modèle haut de gamme est appelé, le système attribue certaines requêtes à des modèles moins coûteux.
Informations complémentaires : Goldman Sachs prévoit que l'utilisation mondiale des jetons augmentera de 24 fois d'ici 2030. Pour les entreprises déjà entrées dans la phase à haut investissement, comment contrôler les coûts tout en élargissant l'utilisation de l'IA devient un problème concret pour le prochain stade de déploiement.
