Google недавно обновила структуру ценообразования Gemini API, представив пять уровней сервиса: стандартный, гибкий, приоритетный, пакетный и кэширующий. Уровни гибкий и пакетный предлагают скидку 50% от стандартной ставки и предназначены соответственно для сценариев, нечувствительных к задержкам (1–15 минут), и для обработки сверхбольших объемов данных (задержка до 24 часов); уровень кэширования оплачивается по количеству токенов и времени хранения, что идеально подходит для частых вызовов сложных команд; приоритетный уровень имеет надбавку 75–100%, обеспечивая ответы в миллисекундах или секундах для критически важных приложений, таких как чат-боты для поддержки клиентов и обнаружение мошенничества в реальном времени. Это изменение усиливает способность к ресурсному распределению для сервисов AI-выводов, предоставляя более точную модель ценообразования вычислительных мощностей для приложений AI с различной чувствительностью к задержкам и ограничениями по стоимости.
Автор статьи, источник: AIBase
Google недавно обновила структуру ценообразования для своего API Gemini, чтобы лучше удовлетворить потребности пользователей в инференсе. Это обновление ввело несколько новых уровней сервиса: стандартный, гибкий, приоритетный, пакетный и кэшированный. Пользователи могут выбрать наиболее подходящий уровень в соответствии со своими реальными потребностями.
Сначала базовый уровень предоставляет базовые услуги вывода, и пользователи могут выбрать подходящий вариант в зависимости от своих потребностей. Гибкий уровень — это инновационный вариант, который использует простои вычислительных ресурсов в непиковые часы и предлагает скидку 50% на стандартную цену. Целевая задержка для этого уровня составляет от 1 до 15 минут, однако фиксированная задержка не гарантируется, что делает его подходящим для сценариев, где требования к времени не слишком строги.
Кроме того, пакетный уровень также предоставляет пользователям скидку 50% на стандартную тарифную ставку, что идеально подходит для пользователей, которым необходимо обрабатывать большие объемы данных, с максимальным временем задержки до 24 часов. Этот уровень особенно подходит для сценариев обработки больших объемов данных, позволяя пользователям значительно снизить затраты при выполнении большого количества запросов.
В отношении кэширования тарификация осуществляется на основе количества закэшированных токенов и продолжительности хранения, что особенно подходит для чат-ботов, требующих частого вызова сложных команд, анализа длинных видео или запросов к большим наборам документов. Этот уровень позволяет пользователям эффективно управлять ресурсами хранения и вычислений, повышая эффективность работы системы.
Цены на приоритетный уровень на 75–100% выше стандартных, но обеспечивают задержку в миллисекундах до секунд. Этот уровень идеально подходит для приложений, требующих мгновенного отклика, таких как чат-боты для службы поддержки, обнаружение мошенничества в реальном времени и ключевые бизнес-ассистенты. Google рекомендует пользователям, которым это необходимо, выбрать приоритетный уровень для обеспечения наилучшей производительности и скорости отклика своих приложений.
Выделите ключевое:
🌟 Добавлены различные тарифные планы Gemini API для удовлетворения потребностей разных пользователей.
⏳ Гибкие и пакетные уровни предлагают скидку 50%, идеально подходят для обработки больших объемов данных.
⚡ Priority tier ensures millisecond-level response, ideal for real-time applications.
