Les utilisateurs de l'API Google Gemini signalent des bugs de facturation exorbitants

Selon les rapports de Beating, récemment, le forum des développeurs Google AI a été le théâtre de plusieurs appels à l'aide urgents concernant un système de facturation Gemini hors de contrôle. De nombreux développeurs, lors d'une utilisation normale, ont été confrontés à des prélèvements anormaux massifs en raison de vulnérabilités au niveau du système sous-jacent ; par exemple, certains ont vu près de 27 000 yuans retenus en seulement 12 heures. À ce jour, les équipes facturation et technique de Google continuent de se rejeter la responsabilité et n'ont publié aucune déclaration officielle de correction ni aucun canal de remboursement rapide. L'enquête a révélé que deux bogues principaux sont à l'origine des factures exorbitantes : d'abord, une vulnérabilité appelée « cache fantôme » — après l'expiration ou la suppression du cache de contexte créé via l'API, la liste de gestion frontale est vidée, mais le système de facturation arrière-plan continue de prélever des frais à un rythme de plusieurs milliers de yuans par heure, sans aucune activité réelle ; ensuite, un piège appelé « boucle de pensée infinie » — lors de l'activation d'outils comme la recherche en ligne, la limite budgétaire de « pensée » du modèle devient inefficace, entraînant une infinie chaîne d'inférence même pour des tâches simples ; après avoir consommé jusqu'à 64 000 jetons, le modèle explose par dépassement de délai, et même en cas de « sortie nulle » (aucune réponse utile retournée), Google facture intégralement des frais de pensée augmentés de 1500 %. En raison d'un retard grave de 32 à 72 heures dans le système de facturation Google Cloud, ainsi que l'absence de mécanisme automatique de coupure de limite, les développeurs se sont déjà vu prélever des sommes colossales avant même de recevoir une alerte. Face au refus de réponse des services clients officiels et à l'absence de réactions sur le forum, certains développeurs victimes ont annoncé qu'ils abandonnaient définitivement le cache de contexte et le modèle d'inférence Gemini dans leurs environnements de production afin d'éviter tout risque financier.