Google lanza una nueva estrategia de precios para la API Gemini con opciones de servicio por niveles

Google recientemente actualizó la estructura de facturación de la API Gemini, lanzando cinco niveles de servicio: estándar, elástico, prioritario, por lotes y en caché. Los niveles elástico y por lotes ofrecen un descuento del 50% sobre la tarifa estándar, aplicables respectivamente a escenarios con baja sensibilidad a la latencia (1–15 minutos) y procesamiento de datos a gran escala (latencia máxima de 24 horas); el nivel en caché se factura según la cantidad de tokens y la duración del almacenamiento, ideal para llamadas frecuentes e instrucciones complejas; el nivel prioritario tiene un recargo del 75% al 100%, garantizando respuestas en milisegundos a segundos, diseñado para aplicaciones críticas como chatbots de atención al cliente y detección en tiempo real de fraude. Este ajuste refuerza la capacidad de programación jerárquica de recursos para servicios de inferencia de IA, ofreciendo un modelo de precios de computación más refinado para aplicaciones de IA con distintos niveles de sensibilidad a la latencia y restricciones de costo.

Autor del artículo, fuente: AIBase

Google recientemente actualizó la estructura de facturación de su API Gemini para satisfacer mejor las necesidades de inferencia de los usuarios. Esta actualización introdujo varios nuevos niveles de servicio: estándar, elástico, prioritario, por lotes y con caché. Los usuarios pueden seleccionar el nivel más adecuado según sus necesidades reales.

En primer lugar, el nivel estándar ofrece servicios de inferencia básicos, y los usuarios pueden elegir según sus necesidades de uso. El nivel flexible es una opción innovadora que aprovecha los recursos de capacidad ociosos fuera de horas pico, ofreciendo a los usuarios un descuento del 50% sobre el precio estándar. La latencia objetivo para este nivel se encuentra entre 1 y 15 minutos, pero no se garantiza un tiempo de latencia fijo, lo que lo hace adecuado para escenarios donde los requisitos de tiempo no son estrictos.

Además, el nivel por lotes ofrece a los usuarios un descuento del 50% sobre la tarifa estándar, ideal para usuarios que necesitan procesar grandes volúmenes de datos, con tiempos de latencia de hasta 24 horas. Este nivel es especialmente adecuado para escenarios de procesamiento masivo de datos, permitiendo a los usuarios reducir significativamente sus costos al realizar consultas de gran cantidad de información.

En cuanto al nivel de caché, la facturación se basará en la cantidad de tokens almacenados y la duración del almacenamiento, ideal para robots de conversación que requieren llamar frecuentemente instrucciones complejas, análisis de videos largos o consultas a grandes conjuntos de documentos. Este nivel permite a los usuarios gestionar eficazmente los recursos de almacenamiento y cálculo, mejorando la eficiencia del sistema.

Los precios de la categoría prioritaria son un 75% a 100% más altos que los precios estándar, pero permiten controlar la latencia en milisegundos a segundos. Esta categoría es ideal para aplicaciones que requieren respuesta en tiempo real, como chatbots de servicio al cliente, detección en tiempo real de fraude y asistentes inteligentes críticos para negocios. Google recomienda a los usuarios con dichas necesidades seleccionar la categoría prioritaria para garantizar el mejor rendimiento en velocidad y eficiencia de sus aplicaciones.

Destacar:

🌟 Se han añadido varios niveles de servicio de la API de Gemini para satisfacer las necesidades de diferentes usuarios.

⏳ Los niveles flexibles y por lotes ofrecen un 50 % de descuento, ideales para procesamiento de grandes volúmenes de datos.

⚡ El nivel prioritario garantiza una respuesta en milisegundos, ideal para aplicaciones en tiempo real.