Los tokens de IA explotan: 500M, 1,3M y 18K en una sola noche

¡500 millones de dólares en facturas quemadas en un mes!

Recientemente, el mundo tecnológico se sorprendió con un error monumental. Según Axios, una empresa gastó 500 millones de dólares en Claude en solo un mes.

La razón es ridícula: el equipo de gestión olvidó establecer un límite de uso al otorgar permisos de cuenta a los empleados para Claude.

GitHub

De hecho, no es solo esta empresa la que ha sufrido un colapso por facturas de IA.

En abril de este año, un usuario de Google Cloud recibió una factura de 18.000 dólares en una sola noche debido al uso indebido de una clave API dejada expuesta en un servicio público, cuando su presupuesto original era de solo 7 dólares.

GitHub

Este desafortunado usuario se llama Jesse Davies, un consultor de IA australiano y fundador de Agentic Labs. Configuró dos medidas de protección para su cuenta de Google Cloud: una alerta de presupuesto de 10 dólares australianos (aproximadamente 7 dólares) y un límite de gasto fijo de 1400 dólares.

Según Tom's Hardware, el atacante descubrió un servicio de Cloud Run que él publicó hace varios meses y envió más de 60.000 solicitudes; ambos niveles de protección fallaron: el cálculo de la factura tenía retraso, y cuando el sistema reaccionó, el monto ya había aumentado a 18.000 dólares.

A mediados de mayo, Peter Steinberger, fundador del proyecto de código abierto OpenClaw, publicó en X una captura de pantalla: 30 días, factura de la API de OpenAI de 1,3 millones de dólares.

GitHub

Su equipo tiene solo tres personas, pero gestionan 100 agentes Codex ejecutándose en paralelo: en 30 días quemaron 60.300 millones de tokens y realizaron 7.6 millones de solicitudes. Afortunadamente, estos 1.3 millones de dólares no salieron de su bolsillo.

Steinberger se unió a OpenAI en febrero de este año, y estos 1,3 millones de dólares se consideraron un experimento interno:

Prueba qué tan lejos puede llegar la programación de IA si no se considera el costo del token. Añadió que este es el resultado del modo «Fast Mode» de Codex; al desactivarlo, el costo es de aproximadamente 300,000 dólares.

Anteriormente, el CTO de Uber, Praveen Neppalli Naga, también admitió ante The Information que la empresa agotó su presupuesto anual para Claude Code en abril, y su COO también declaró públicamente que los costos de IA se vuelven cada vez más «difíciles de justificar».

500 millones, 1.3 millones, 18 mil; aunque las cantidades difieren en varios órdenes de magnitud, apuntan al mismo hecho:

En la era de los agentes inteligentes, una clave descontrolada, un ejército de agentes que operan sin descanso día y noche, o una cuenta sin límite establecido: cualquiera de ellos puede hacer que tu factura de tokens se dispare en una sola noche.

¿Por qué se liquida la factura de IA?

La respuesta está principalmente oculta en los cambios en el método de facturación.

Desde abril de este año, el modelo de facturación por suscripción mensual de OpenAI comenzó a basarse en el uso de tokens.

El 2 de abril, la facturación de Codex cambió de basarse en estimaciones por mensaje a alinearse con el uso de tokens: los tokens de entrada, entrada en caché y salida se calculan por separado. El 23 de abril, este sistema se extendió a todos los planes Enterprise, Edu, Health y Gov: se eliminó el descuento invisible incluido en la tarifa mensual.

GitHub también ha seguido el ejemplo y acaba de anunciar: todos los planes de Copilot pasarán a un modelo de facturación por uso a partir del 1 de junio de 2026. Se eliminará la antigua lógica de solicitudes premium y se reemplazará por cuotas de IA, con facturación según el consumo real de tokens de entrada, tokens de salida y tokens en caché, según las tarifas de API de cada modelo.

GitHub

GitHub explicó oficialmente la razón de hacerlo:

Ahora, un usuario gasta la misma cantidad de dinero en una rápida pregunta de chat que en una tarea de codificación autónoma que dura varias horas. GitHub ha estado pagando por los usuarios que ejecutan tareas intensivas, pero este modelo ya no es sostenible.

Antes del auge de los agentes de IA, el costo de chat y completado era similar, y el cargo mensual era cubierto.

Después del auge de los agentes inteligentes, una tarea puede ejecutarse durante varias horas seguidas y modificar toda la base de código; la diferencia de costo entre usuarios intensivos y ligeros puede alcanzar varios órdenes de magnitud. El modelo de suscripción mensual colapsa ante esta diferencia.

Al anunciarse el mensaje, hubo una gran reacción en Reddit y X.

Un desarrollador con ID JBusu publicó una captura de factura y afirmó que la nueva tarifa «es una broma». Anteriormente gastaba 28.12 dólares al mes, pero según la nueva tarifa tendría que pagar 746.01 dólares; ya decidió cancelar su suscripción: «A este precio, aún me sale más barato alquilar un servidor en la nube yo mismo».

GitHub

Otro usuario compartió una captura de pantalla aún más extrema, donde la tarifa subió de 50 dólares a 3000 dólares; dijo que no esperaba que el precio fuera tan absurdo: «¿Alguien sigue suscribiéndose?»

GitHub

Sin embargo, algunos usuarios antiguos de Copilot salieron a refutar: estas facturas extremas probablemente se generaron por vibe-coders que no le dan importancia al gasto de Tokens, y no necesariamente representan el uso normal.

Un usuario antiguo comentó: «Lo uso todo el día, y al final del mes casi nunca supero el límite, es difícil creer que esto se deba a diferencias en la complejidad del trabajo». Otro fue más directo: «Simplemente hay quienes quieren un modo YOLO completamente automatizado, dejando que la IA corra libremente. Eliminar este desperdicio es una ventaja para los demás».

Hay que aclarar algo: GitHub no ha eliminado la tarifa mensual, y el precio de la suscripción básica no ha cambiado. Lo que realmente ha cambiado son los usos adicionales, las tareas de agentes y las llamadas a modelos más costosos; a partir de ahora, se facturarán por uso.

Los usuarios intensivos de agentes que dependían de Copilot para tareas de cadenas largas fueron los más afectados.

La lista clasificada arruinada por los propios

Se perdió la suscripción mensual: por un lado, la plataforma cambió las reglas de facturación, y por otro, quienes usan IA también están gastando intensamente.

En mayo, Business Insider informó que Amazon retiró un ranking interno de uso de IA llamado KiroRank.

La publicación citó a fuentes informadas que indicaron que esta lista ha generado silenciosamente una forma extraña de trabajar: algunos empleados consumen tokens que no resuelven problemas reales, solo para mejorar su posición en la lista.

GitHub

Después de que se revelara el asunto, el vicepresidente senior de Amazon, Dave Treadwell, se dirigió directamente a todo el personal: «No usen IA solo por usarla. Úsenla para resolver problemas de los clientes, resolver problemas empresariales e innovar».

Aunque esto es un poco absurdo, no es nada sorprendente. Cuando "quemar tokens" puede llevar a estar en la lista, los empleados naturalmente se dedicarán a quemar tokens.

Silicon Valley le puso un nombre específico a este fenómeno: Tokenmaxxing (quemar Token al límite), tratando el consumo como productividad.

El informe de Axios también menciona que un CTO descubrió que los empleados usaban modelos de IA para consultar el clima y escribir correos electrónicos cotidianos, tareas sencillas que, al aplicarles los modelos más caros y avanzados, hacían que las facturas aumentaran silenciosamente.

KiroRank no es un sistema de evaluación oficial de Amazon, sino una herramienta informal creada por los empleados. Sin embargo, revela claramente una ley clásica de la gestión: cuando se establecen mal los KPI, las personas encuentran la forma más inteligente de aprovecharse del sistema.

Equivaler el «cuánto se usó» con el «qué tan bien se hizo»: esta es precisamente la raíz institucional del despilfarro de IA en esta ronda.

La gente que lleva la cuenta de los tokens ya está ganando dinero.

El otro lado de la ansiedad por las facturas de tokens es que alguien lo ha convertido en un negocio.

First path: Feed the AI with context.

Glean es precisamente la empresa propia de Arvind. Su función es ser un asistente de IA empresarial: unificar y conectar el conocimiento disperso en toda la empresa, permitiendo que la IA de los empleados acceda directamente al contexto sin necesidad de buscar en distintos lugares. La IA recorre menos caminos y, por lo tanto, consume menos tokens.

Este mecanismo permitió que los ingresos anuales de Glean se triplicaran en 15 meses, superando los 300 millones de dólares, con clientes como Databricks, Reddit y Samsung.

Segundo camino: asignar el trabajo al modelo adecuado.

La startup de enrutamiento de modelos Factory AI hace exactamente eso: asigna automáticamente cada tarea al modelo más adecuado, las tareas sencillas a opciones económicas y las complejas a las de gama alta. Arvind también mencionó: si se hace bien el enrutamiento, se puede ahorrar hasta 10 veces.

Ambos caminos llevan al mismo destino: haz que la IA trabaje, pero no la dejes gastar recursos innecesariamente.

La investigación en el mundo académico también está sentando las bases para este giro.

GitHub

https://arxiv.org/pdf/2604.22750

Un artículo de arXiv de abril de 2026 desglosó por primera vez sistemáticamente cómo se gasta dinero en las tareas de codificación de agentes.

Conclusión uno: El consumo de tokens en tareas de agentes puede alcanzar miles de veces el de la inferencia y el diálogo de código, siendo el principal factor que aumenta los costos los tokens de entrada.

Conclusión dos: Ejecutar la misma tarea varias veces puede generar una diferencia de hasta 30 veces en el consumo de tokens.

Conclusión tres: Un mayor consumo de tokens no implica necesariamente una mayor precisión. La precisión suele alcanzar su punto máximo a un costo moderado; gastar más allá de ese punto no mejora el rendimiento y produce saturación.

El estudio también encontró que los modelos de vanguardia no pueden ni siquiera predecir cuántos tokens consumirán, subestimando comúnmente el costo real.

Pensar que gastar más dinero significa hacer más cosas. En realidad, el dinero se gasta, pero el trabajo no necesariamente mejora, y el presupuesto aún así no se calcula correctamente.

Cuando las facturas de IA comienzan a superar los costos de mano de obra

Esta es la primera vez, según mi memoria, en que los costos técnicos comienzan a igualar a los costos de mano de obra.

El 29 de mayo, Arvind Jain, CEO de Glean, dijo esto durante una entrevista con la periodista de CNBC Deirdre Bosa.

GitHub

La observación de Bryan Catanzaro, vicepresidente de aprendizaje profundo en NVIDIA, también confirma esto.

En la entrevista con Axios, mencionó que para su equipo, el costo de la potencia de cálculo ya supera con creces los salarios de los empleados.

Un fenómeno similar está surgiendo en varias empresas: desde Glean, que se dedica a la IA empresarial, hasta NVIDIA, que vende capacidad de cómputo para IA, y hasta Uber, que utiliza IA, todas están reevaluando esta cuenta.

Para Arvind, históricamente, la tecnología solo representaba una pequeña parte del costo total de una empresa, pero ahora el costo de la IA ha alcanzado el nivel de la nómina salarial, y muchos presupuestos anuales de IA de las empresas se agotan en uno o dos meses.

GitHub

En el último año, el uso de IA fue un indicador venerado: más uso significaba ser avanzado, quemar tokens significaba abrazar el futuro. Ahora, muchas empresas comienzan a reflexionar sobre esa sencilla pregunta: ¿qué lograron realmente con esos tokens quemados?

El período de prueba gratuito y ilimitado acaba de cerrarse.

A continuación, todos los desarrolladores se enfrentan a esta pregunta: ¿cómo gestionar cuidadosamente para que cada Token alcance su máximo valor?

El verdadero ganador del futuro, sin duda, será el primero en aprender a calcular las cuentas de los tokens.

Referencias:

https://x.com/dee_bosa/status/2060791500049613306%20

https://www.cnbc.com/2026/05/29/-tokens-or-humans-the-new-corporate-trade-off.html%20

https://www.axios.com/2026/05/28/ai-spending-roi-enterprise-costs%20

https://www.businessinsider.com/amazon-ai-leaderboard-tokenmaxxing-2026-5

Este artículo proviene del canal de WeChat "Nuevas Inteligencias", autor: Apocalipsis de la ASI