Após a adoção em larga escala de ferramentas de IA pelas empresas, novos problemas começaram a se concentrar: não é se os modelos são suficientemente poderosos, mas sim se as faturas estão aumentando muito rápido. Várias empresas de tecnologia e internet descobriram que, embora o preço por Token tenha caído, o consumo total continua a aumentar rapidamente devido à popularização de IA para codificação, assistentes automatizados e ferramentas de agentes.
Várias empresas esgotaram seus orçamentos antecipadamente
A TechCrunch relatou que algumas empresas esgotaram seus orçamentos de IA já no início do ano fiscal de 2026. A Uber já utilizou todo o seu orçamento anual de codificação de IA até abril; a Microsoft revogou a permissão de uso do Claude Code para alguns desenvolvedores após meses de acesso aberto; um funcionário da Priceline afirmou que a proposta regular de renovação do Cursor aumentou de 4 a 5 vezes em relação ao valor anterior.
Essa mudança está relacionada aos modelos mais potentes lançados nos últimos meses. A Anthropic, a OpenAI e o Google lançaram, após novembro do ano passado, novos modelos mais adequados para cenários de agentes, impulsionando o aumento contínuo no volume de chamadas. Uma empresa chegou a enfrentar uma fatura de até 500 milhões de dólares em uso do Claude por não ter definido um limite de uso pelos funcionários.
Aumentos na produtividade nem sempre cobrem os custos
Alexander Embr, responsável pelos negócios corporativos da OpenAI, afirmou que, há seis meses, os clientes se preocupavam principalmente se as capacidades dos modelos eram suficientes; agora, o foco das discussões mudou para visibilidade de despesas, capacidade de auditoria, controle de tokens e eficiência do modelo. A questão da aquisição corporativa de IA está passando de “o que pode fazer” para “quanto foi gasto e se valeu a pena”.
Em torno do retorno sobre as ferramentas de codificação baseadas em IA, a indústria também começou a reavaliar. Uma pesquisa da Faros AI em março, realizada com 20 mil desenvolvedores, revelou que a produtividade está aumentando, mas também há um aumento em bugs e retrabalho. Um estudo da plataforma de gerenciamento de engenharia Jellyfish mostrou que engenheiros que utilizam intensivamente IA têm produtividade cerca de duas vezes maior do que os usuários pouco intensivos, mas consomem 10 vezes mais tokens.
- Usuários intensivos de IA têm produtividade aproximadamente duas vezes maior do que usuários pouco intensivos.
- O consumo de token correspondente é aproximadamente 10 vezes maior
- O consumo por um único desenvolvedor aumentou cerca de 18,6 vezes em 9 meses
Ferramenta de gestão de custos está se acelerando
À medida que os problemas de faturamento se expandem, o mercado de ferramentas para gestão de custos de IA também está aquecendo. A Linux Foundation anunciou esta semana a criação da Tokenomics Foundation, com o objetivo de estabelecer uma linguagem e padrões de gestão unificados para gastos em tokens de IA, assim como o FinOps fez no campo da gestão de custos em nuvem.
A organização planeja desenvolver padrões abertos para o uso e cobrança de tokens, métricas unificadas e novas medidas de eficiência de custo, como “custo inteligente por unidade” ou “número de tokens por watt”. O lançamento oficial está previsto para julho, com mais membros sendo anunciados na conferência FinOps X na próxima semana.
Ao mesmo tempo, startups e fabricantes estabelecidos estão acelerando sua expansão. Empresas como Pay-i e Paid focam em rastreamento, medição e otimização de custos de IA; Jellyfish, Waydev e Faros AI oferecem serviços de monitoramento por agentes de IA; Ramp, Datadog e New Relic também estão adicionando funcionalidades de gerenciamento de gastos com IA, observabilidade em nível de Token e monitoramento de GPU.
O roteamento de modelos torna-se uma direção para redução de custos
Alguns investidores e executivos corporativos acreditam que esse tipo de capacidade estará mais presente no futuro na camada de aplicação ou na camada de roteamento de modelos. Por exemplo, a startup de IA corporativa Factory lançou esta semana um roteador de modelos que seleciona automaticamente o modelo mais adequado conforme a tarefa, reduzindo os custos de chamada. Algumas faturas corporativas já adotam práticas semelhantes: mesmo ao chamar modelos de alto desempenho, o sistema atribui parte das requisições a modelos mais baratos.
Informação adicional: O Goldman Sachs prevê que o uso global de tokens aumentará 24 vezes até 2030. Para empresas que já entraram na fase de alto investimento, como controlar os custos enquanto expandem o uso de IA está se tornando um desafio prático para a próxima fase de implementação.
