Google a récemment mis à jour la structure de tarification de l'API Gemini, introduisant cinq niveaux de service : standard, élastique, prioritaire, par lots et en cache. Les niveaux élastique et par lots offrent une réduction de 50 % par rapport au tarif standard, respectivement adaptés aux scénarios sensibles à la latence (1–15 minutes) et au traitement de données à très grande échelle (jusqu'à 24 heures de latence) ; le niveau en cache est facturé en fonction du nombre de jetons et de la durée de stockage, idéal pour les appels fréquents et complexes ; le niveau prioritaire bénéficie d'une surcharge de 75 % à 100 %, garantissant des temps de réponse en millisecondes à secondes, destiné à des applications critiques telles que les chatbots client et la détection en temps réel de fraude. Ce changement renforce la capacité de planification des ressources pour les services d'inférence IA, offrant un modèle de tarification plus fin pour les applications IA selon leur sensibilité à la latence et leurs contraintes de coût.
Auteur et source de l'article : AIBase
Google a récemment mis à jour la structure de tarification de son API Gemini afin de mieux répondre aux besoins en traitement des utilisateurs. Cette mise à jour introduit plusieurs nouveaux niveaux de service : standard, élastique, prioritaire, par lots et avec mise en cache. Les utilisateurs peuvent choisir le niveau le plus adapté à leurs besoins réels.
Tout d'abord, le niveau standard offre des services d'inférence de base, que les utilisateurs peuvent choisir en fonction de leurs besoins. Le niveau élastique est une option innovante qui exploite les ressources de calcul inutilisées pendant les heures creuses, offrant aux utilisateurs une réduction de 50 % par rapport au prix standard. La latence cible pour ce niveau se situe entre 1 et 15 minutes, mais ne garantit pas une latence fixe, ce qui le rend adapté aux scénarios où les exigences temporelles ne sont pas strictes.
En outre, le niveau de lot offre également une réduction de 50 % sur les tarifs standards, idéal pour les utilisateurs ayant besoin de traiter de grandes quantités de données, avec un délai pouvant atteindre 24 heures. Ce niveau est particulièrement adapté aux scénarios de traitement massif de données, permettant aux utilisateurs de réaliser d'importantes économies lors de requêtes volumineuses.
En ce qui concerne le niveau de cache, la facturation est basée sur le nombre de jetons mis en cache et la durée de stockage, idéale pour les chatbots nécessitant des appels fréquents de commandes complexes, l'analyse de longues vidéos ou les requêtes sur de grands ensembles de documents. Ce niveau permet aux utilisateurs de gérer efficacement les ressources de stockage et de calcul, tout en améliorant l'efficacité du système.
Les tarifs du niveau prioritaire sont supérieurs de 75 % à 100 % par rapport au prix standard, mais permettent de contrôler la latence à l'échelle de la milliseconde à la seconde. Ce niveau est idéal pour les applications nécessitant une réponse en temps réel, telles que les chatbots de service client, la détection en temps réel de fraude et les assistants intelligents critiques pour les activités commerciales. Google recommande aux utilisateurs ayant ce besoin de choisir le niveau prioritaire pour garantir les meilleures performances en termes de vitesse et d'efficacité de leurs applications.
Points clés :
🌟 Ajout de plusieurs niveaux de service API Gemini pour répondre aux besoins variés des utilisateurs.
⏳ Les niveaux flexibles et par lots offrent une réduction de 50 %, idéaux pour le traitement de grandes quantités de données.
⚡ Le niveau prioritaire garantit une réponse en millisecondes, idéal pour les applications en temps réel.
