Después de que las empresas incorporaran masivamente herramientas de IA, nuevos problemas comenzaron a manifestarse claramente: no se trata de si los modelos son lo suficientemente potentes, sino de que las facturas aumentan demasiado rápido. Varias empresas de tecnología e internet han descubierto que, aunque el precio por token ha disminuido, el consumo total sigue aumentando rápidamente debido a la adopción generalizada de herramientas de codificación de IA, asistentes automatizados y agentes inteligentes.
Varias empresas han agotado sus presupuestos con anticipación
TechCrunch informa que algunas empresas agotaron sus presupuestos de IA para 2026 con mucha antelación. Uber agotó su presupuesto anual de codificación de IA para abril; Microsoft revocó el acceso a Claude Code para algunos desarrolladores tras varios meses de apertura; un empleado de Priceline afirmó que la oferta de renovación habitual de Cursor era de 4 a 5 veces mayor que antes.
Este cambio está relacionado con el lanzamiento de modelos más potentes en los últimos meses. Anthropic, OpenAI y Google han lanzado sucesivamente nuevos modelos más adecuados para escenarios de agentes desde noviembre del año pasado, lo que ha impulsado un aumento continuo en la cantidad de solicitudes. Una empresa incluso generó una factura de hasta 500 millones de dólares por Claude debido a la falta de un límite en el uso por parte de sus empleados.
The increase in productivity does not necessarily cover costs.
Alexander Embr, responsable de negocios empresariales de OpenAI, indicó que hace seis meses los clientes se preocupaban más por si las capacidades del modelo eran suficientes; ahora, el enfoque ha pasado a la visibilidad de gastos, capacidad de auditoría, control de tokens y eficiencia del modelo. La pregunta en la adquisición empresarial de IA está pasando de “¿qué puede hacer?” a “¿cuánto se gastó y vale la pena?”.
La industria también está recalculando el retorno de inversión de las herramientas de codificación basadas en IA. Una encuesta de Faros AI realizada en marzo a 20 000 desarrolladores reveló que la productividad del desarrollo está aumentando, pero también lo hacen los errores y el trabajo repetitivo. Un estudio de la plataforma de gestión de ingeniería Jellyfish muestra que los ingenieros que utilizan intensivamente la IA tienen una productividad aproximadamente el doble de la de los usuarios poco frecuentes, pero consumen 10 veces más tokens.
- Los usuarios intensivos de IA tienen una productividad aproximadamente el doble que los usuarios poco frecuentes.
- El consumo de token es aproximadamente 10 veces mayor
- El consumo de un solo desarrollador aumentó aproximadamente 18.6 veces en 9 meses.
La herramienta de gestión de costes se está acelerando
A medida que los problemas de facturación se amplían, el mercado de herramientas para la gestión de costos de IA también se está calentando. Esta semana, la Linux Foundation anunció la creación de Tokenomics Foundation, con el objetivo de establecer un lenguaje y estándares de gestión unificados para los gastos en tokens de IA, similar a FinOps en el ámbito de la gestión de costos en la nube.
La organización planea establecer estándares abiertos para el uso y la facturación de tokens, métricas unificadas y nuevas medidas de eficiencia de costos, como "costo inteligente por unidad" o "tokens por vatio". El lanzamiento oficial está previsto para julio, y se anunciarán más miembros en la conferencia FinOps X de la próxima semana.
Al mismo tiempo, las startups y fabricantes establecidos están acelerando su implementación. Empresas como Pay-i y Paid se enfocan en el seguimiento, medición y optimización de costos de IA; Jellyfish, Waydev y Faros AI ofrecen servicios de monitoreo con agentes de IA; Ramp, Datadog y New Relic también están ampliando funciones de gestión de gastos de IA, observabilidad a nivel de Token y monitoreo de GPU.
La enrutación de modelos se convierte en una dirección para reducir costos
Algunos inversores y ejecutivos empresariales estiman que esta capacidad aparecerá con mayor frecuencia en el futuro en la capa de aplicación o la capa de enrutamiento de modelos. Por ejemplo, la startup de IA empresarial Factory lanzó esta semana un enrutador de modelos que selecciona automáticamente el modelo más adecuado según la tarea, con el fin de reducir los costos de llamada. Algunas empresas ya han implementado prácticas similares en sus facturas: incluso al llamar a modelos de gama alta, el sistema asigna parte de las solicitudes a modelos más económicos para su procesamiento.
Información adicional: Goldman Sachs estima que el uso global de tokens aumentará 24 veces para 2030. Para las empresas que ya han entrado en la fase de alta inversión, cómo controlar los costos mientras se amplía el uso de la IA se ha convertido en un problema práctico para la próxima fase de implementación.
