O Google lança nova estratégia de precificação da API Gemini com opções de serviços em níveis

O Google recentemente atualizou a estrutura de cobrança da API Gemini, introduzindo cinco níveis de serviço: padrão, elástico, prioritário, em lote e em cache. Os níveis elástico e em lote oferecem desconto de 50% sobre a tarifa padrão, aplicáveis respectivamente a cenários com baixa sensibilidade à latência (1–15 minutos) e processamento de dados em escala extremamente grande (até 24 horas de latência); o nível em cache é cobrado com base no número de tokens e na duração do armazenamento, sendo ideal para chamadas frequentes e complexas; o nível prioritário apresenta um acréscimo de 75%–100%, garantindo respostas em milissegundos a segundos, voltado para aplicações críticas como chatbots de atendimento ao cliente e detecção em tempo real de fraudes. Esta alteração reforça a capacidade de escalonamento de recursos para serviços de inferência de IA, oferecendo um modelo de precificação mais refinado para aplicações de IA com diferentes níveis de sensibilidade à latência e restrições de custo.

Autor e fonte do artigo: AIBase

O Google recentemente atualizou a estrutura de cobrança de sua API Gemini, visando atender melhor às necessidades de inferência dos usuários. Esta atualização introduziu várias novas camadas de serviço, incluindo padrão, elástica, priorizada, em lote e com cache. Os usuários podem escolher a camada mais adequada conforme suas necessidades reais.

Primeiro, o nível padrão oferece serviços de inferência básicos, permitindo que os usuários escolham conforme suas necessidades de uso. O nível elástico é uma opção inovadora que utiliza recursos de capacidade ociosos fora dos horários de pico, oferecendo aos usuários um desconto de 50% sobre o preço padrão. A latência alvo para este nível está entre 1 e 15 minutos, mas não garante um tempo de latência fixo, sendo ideal para cenários onde os requisitos de tempo não são estritos.

Além disso, o nível de lote também oferece aos usuários um desconto de 50% sobre a taxa padrão, ideal para usuários que precisam processar grandes volumes de dados, com tempo de latência de até 24 horas. Este nível é especialmente adequado para cenários de processamento em larga escala, permitindo que os usuários reduzam significativamente os custos ao realizar consultas em grande quantidade de informações.

Em termos de armazenamento em cache, a cobrança será baseada na quantidade de tokens armazenados e na duração do armazenamento, sendo ideal para chatbots que exigem chamadas frequentes de comandos complexos, análise de vídeos longos ou consultas em grandes conjuntos de documentos. Este nível permite aos usuários gerenciar eficientemente os recursos de armazenamento e computação, aumentando a eficiência do sistema.

Os preços da faixa prioritária são 75% a 100% mais altos que os preços padrão, mas permitem controlar a latência em milissegundos a segundos. Essa faixa é ideal para aplicações que exigem resposta em tempo real, como chatbots de atendimento ao cliente, detecção de fraude em tempo real e assistentes inteligentes críticos para negócios. O Google recomenda que usuários com essa necessidade escolham a faixa prioritária para garantir o melhor desempenho em velocidade e eficiência de suas aplicações.

Destaque:

🌟 Adicionados vários níveis de serviço da API Gemini para atender às necessidades de diferentes usuários.

⏳ Os níveis flexíveis e em lote oferecem 50% de desconto, ideais para processamento em grande escala de dados.

⚡ A prioridade do nível garante resposta em milissegundos, ideal para aplicações em tempo real.