Tokens de IA explodem: 500M, 1,3M e 18K em uma única noite

Faturamento de 500 milhões de dólares em um mês!

Recentemente, o mundo da tecnologia foi surpreendido por um grande erro. Segundo o Axios, uma empresa gastou US$ 500 milhões em Claude em apenas um mês!

A razão é ridícula: a gestão esqueceu de definir um limite de uso ao conceder permissões de conta Claude aos funcionários.

GitHub

Na verdade, não é apenas esta empresa que sofreu liquidação por conta de IA.

Em abril deste ano, um usuário do Google Cloud recebeu uma fatura de US$ 18.000 em uma noite devido ao uso indevido de uma API key deixada exposta em um serviço público, quando seu orçamento original era de apenas US$ 7.

GitHub

Esse infeliz nome de usuário, Jesse Davies, é um consultor de IA australiano e fundador da Agentic Labs. Ele configurou duas camadas de proteção para sua conta do Google Cloud: um alerta de orçamento de 10 dólares australianos (cerca de 7 dólares) e um limite de gasto rígido de 1.400 dólares.

Segundo o Tom's Hardware, o atacante descobriu um serviço Cloud Run publicado por ele meses atrás e enviou mais de 60 mil requisições; ambos os níveis de proteção falharam: houve atraso no cálculo da fatura, e quando o sistema reagiu, o valor já havia subido para US$ 18 mil.

Em meados de maio, Peter Steinberger, fundador do projeto de código aberto OpenClaw, publicou uma captura de tela no X: conta da API da OpenAI de US$ 1,3 milhão em 30 dias.

GitHub

Sua equipe tem apenas três pessoas, mas os 100 agentes Codex que eles gerenciam operam em paralelo: consumiram 60,3 bilhões de tokens em 30 dias e realizaram 7,6 milhões de requisições. Felizmente, esses US$ 1,3 milhão não saíram do bolso dele.

Steinberger se juntou à OpenAI em fevereiro deste ano, e os US$ 1,3 milhão foram usados como um experimento interno:

Testar sem considerar o custo do token, até onde a programação de IA pode chegar. Ele acrescentou que este é o resultado do modo "Fast Mode" do Codex; desligando-o, seria cerca de US$ 300.000.

Anteriormente, o CTO da Uber, Praveen Neppalli Naga, também admitiu ao The Information que a empresa esgotou o orçamento anual do Claude Code em abril, e seu COO também declarou publicamente que os custos de IA estão se tornando cada vez mais "difíceis de justificar".

500 milhões, 1,3 milhão, 18 mil; embora os valores diferem por várias ordens de grandeza, apontam para o mesmo fato:

Na era dos agentes, uma chave descontrolada, um exército de agentes operando 24/7, uma conta sem limite definido: qualquer um desses pode fazer sua fatura de tokens explodir em uma noite.

Por que a fatura de IA entrou em liquidação?

A resposta está principalmente escondida na mudança na forma de cobrança.

A partir de abril deste ano, o modelo de assinatura mensal da OpenAI passou a ser baseado no uso de tokens.

Em 2 de abril, a cobrança do Codex foi alterada de estimativa por mensagem para alinhamento com o uso de tokens: tokens de entrada, entrada em cache e saída são calculados separadamente. Em 23 de abril, esse sistema foi expandido para todos os planos Enterprise, Edu, Health e Gov: o desconto invisível na assinatura mensal foi removido.

O GitHub também seguiu o exemplo, anunciando recentemente: todos os planos do Copilot passarão para um modelo de cobrança por uso a partir de 1º de junho de 2026. A antiga lógica de solicitações premium será descartada e substituída por créditos de IA, com cobrança com base no consumo real de tokens de entrada, tokens de saída e tokens em cache, conforme as taxas da API de cada modelo.

GitHub

O GitHub explicou oficialmente o motivo por trás dessa ação:

Hoje, um usuário gasta a mesma quantia por uma rápida pergunta de bate-papo e por uma tarefa de codificação autônoma que roda por várias horas. O GitHub tem estado pagando pelos usuários que executam tarefas intensivas, mas esse modelo não é mais sustentável.

Antes do surgimento dos agentes de IA, os custos de chat e preenchimento eram semelhantes, e a assinatura mensal cobria.

Após o surgimento dos agentes inteligentes, uma tarefa pode ser executada continuamente por várias horas, alterando todo o código-fonte, e a diferença de custo entre usuários intensivos e leves pode chegar a várias ordens de grandeza. O modelo de assinatura mensal desmorona diante dessa disparidade.

Logo após o anúncio, houve grande reação no Reddit e no X.

Um desenvolvedor com ID JBusu divulgou um print da fatura, declarando diretamente que o novo preço "é uma piada". Com o antigo plano, sua despesa era de US$ 28,12 por mês; com o novo, passaria a ser de US$ 746,01. Ele já decidiu cancelar a assinatura: "A esse preço, ainda é mais barato alugar um servidor na nuvem por conta própria".

GitHub

Outro usuário postou um print ainda mais extremo, mostrando a taxa subindo de 50 dólares para 3.000 dólares; ele disse que não esperava um preço tão absurdo: “Alguém ainda está assinando?”

GitHub

No entanto, alguns usuários antigos do Copilot vieram refutar: essas contas extremas provavelmente foram geradas por vibe-coders que não se importam em gastar Tokens e não representam o uso normal.

Um usuário antigo comentou: “Uso o dia todo, e no final do mês quase nunca excedo o limite, é difícil acreditar que seja diferença na complexidade do trabalho.” Outro foi mais direto: “É só que alguém quer desenvolver um modo YOLO totalmente automático, deixando a IA rodar livremente. Eliminar esse desperdício é bom para os demais.”

É importante esclarecer: o GitHub não eliminou a taxa mensal, e o preço da assinatura básica permanece inalterado. O que realmente mudou são os usos adicionais, tarefas de agentes e chamadas de modelos mais caras, passando agora para um modelo de cobrança por uso.

Os usuários intensivos de agentes que dependiam do Copilot para tarefas de cadeia longa foram os mais afetados.

Ranking estragado por pessoas da própria equipe

A assinatura mensal foi perdida, por um lado, a plataforma alterou as regras de cobrança, e por outro, os usuários de IA também estão gastando intensamente.

Em maio, o Business Insider relatou que a Amazon desativou uma classificação interna de uso de IA chamada KiroRank.

A report citou fontes informadas dizendo que essa lista gerou silenciosamente uma forma estranha de trabalho: alguns funcionários, para subir na lista, consomem tokens que não resolvem problemas reais, apenas para melhorar sua classificação.

GitHub

Após o escândalo ser revelado, o vice-presidente sênior da Amazon, Dave Treadwell, falou diretamente a todos: “Não use IA apenas para usar IA. Use-a para resolver problemas dos clientes, resolver problemas de negócios e inovar.”

Embora isso seja um pouco absurdo, não é surpreendente. Quando "queimar tokens" pode levar ao ranking, os funcionários naturalmente irão queimar tokens.

A Silicon Valley deu um nome específico a esse fenômeno: Tokenmaxxing (queimar Token ao máximo), tratando o consumo como produtividade.

A report da Axios também mencionou que um CTO descobriu que funcionários estavam usando modelos de IA para verificar o clima e escrever e-mails cotidianos — tarefas simples demais — e, ao aplicar os modelos mais caros e avançados, as faturas podiam aumentar silenciosamente.

KiroRank não é um sistema oficial da Amazon, mas sim uma ferramenta informal criada pelos próprios funcionários. No entanto, ela expõe claramente uma lei clássica da administração: quando os KPIs estão mal definidos, as pessoas encontram a maneira mais inteligente de explorar brechas.

Equacionar “quanto foi usado” com “quão bem foi feito” — essa é exatamente a raiz institucional do desperdício atual de IA.

As pessoas que calculam os tokens já estão lucrando

Do outro lado da ansiedade da fatura de tokens, alguém transformou isso secretamente em um negócio.

Primeiro caminho: alimente o AI com contexto.

Glean é exatamente a empresa de Arvind. Ela desenvolve assistentes de IA corporativos: unifica o conhecimento espalhado por toda a empresa, permitindo que a IA dos funcionários acesse diretamente o contexto, sem precisar procurar em diversos lugares. A IA percorre menos caminhos e, consequentemente, consome menos tokens.

Esse mecanismo permitiu que a receita anual da Glean triplicasse em 15 meses, ultrapassando 300 milhões de dólares, com clientes como Databricks, Reddit e Samsung.

Segundo caminho: distribuir o trabalho para os modelos certos.

A startup de roteamento de modelos, Factory AI, faz exatamente isso: atribui automaticamente cada tarefa ao modelo mais adequado — tarefas simples vão para a opção mais barata, tarefas complexas vão para a versão premium. Arvind também mencionou: fazer o roteamento corretamente pode economizar até 10 vezes.

Ambos os caminhos levam ao mesmo destino: faça o AI trabalhar, mas não o deixe gastar desnecessariamente.

Pesquisas acadêmicas também estão estabelecendo as bases para essa mudança.

GitHub

https://arxiv.org/pdf/2604.22750

Um artigo da arXiv de abril de 2026, pela primeira vez, desmontou sistematicamente como as tarefas de codificação de agentes consomem dinheiro.

Conclusão 1: O consumo de tokens das tarefas de agentes pode chegar a milhares de vezes o consumo de raciocínio e diálogo de código comuns, sendo o principal fator de aumento de custo os tokens de entrada.

Conclusão dois: Executar a mesma tarefa várias vezes pode resultar em um consumo de tokens que varia em até 30 vezes.

Conclusão três: Um maior consumo de tokens não necessariamente leva a uma maior precisão. A precisão geralmente atinge seu pico em custos médios — gastar mais não traz mais benefícios, apenas saturação.

O artigo também descobriu que os modelos de ponta não conseguem nem prever quantos tokens irão consumir, subestimando geralmente o custo real.

Você acha que gastar mais dinheiro significa fazer mais coisas. Na realidade, o dinheiro é gasto, mas o trabalho não necessariamente melhora, e o orçamento ainda assim não é bem estimado.

Quando as faturas de IA começam a ultrapassar os custos com mão de obra

Esta é a primeira vez, na minha memória, em que os custos técnicos começam a igualar os custos de mão de obra.

Em 29 de maio, Arvind Jain, CEO da Glean, disse isso em entrevista à jornalista da CNBC Deirdre Bosa.

GitHub

A observação de Bryan Catanzaro, vice-presidente de aprendizado profundo da NVIDIA, também confirma isso.

Ele mencionou na entrevista da Axios: para a sua equipe, o custo de poder de mineração já ultrapassou drasticamente os salários dos funcionários.

Um fenômeno semelhante está surgindo em várias empresas: desde a Glean, que desenvolve IA empresarial, até a NVIDIA, que vende poder de computação para IA, e até a Uber, que utiliza IA, todas estão reavaliando essa conta.

Na visão de Arvind, historicamente, a tecnologia representava apenas uma pequena parte do custo total das empresas, mas agora os custos com IA já conseguiram igualar a folha de pagamento, e muitos orçamentos anuais de IA das empresas são esgotados em um a dois meses.

GitHub

No último ano, a taxa de uso de IA era um indicador venerado: quanto mais usada, mais avançada; queimar tokens era abraçar o futuro. Agora, muitas empresas estão refletindo sobre essa frase simples: o que, afinal, esses tokens queimados trouxeram em troca?

O período de acesso gratuito e ilimitado por mês está se encerrando justamente agora.

A seguir, todos os desenvolvedores enfrentam esta questão: como gastar com sabedoria para maximizar o valor de cada token.

O verdadeiro vencedor do futuro, sem dúvida, será aquele que aprender primeiro a calcular os tokens.

Referências:

https://x.com/dee_bosa/status/2060791500049613306%20

https://www.cnbc.com/2026/05/29/-tokens-or-humans-the-new-corporate-trade-off.html%20

https://www.axios.com/2026/05/28/ai-spending-roi-enterprise-costs%20

https://www.businessinsider.com/amazon-ai-leaderboard-tokenmaxxing-2026-5

Este artigo é do canal oficial do WeChat "Nova Inteligência", autor: Apocalipse da ASI