グーグルは最近、Gemini APIの課金構造を更新し、標準、弾力性、優先、バッチ、キャッシュの5つのサービスレベルを導入しました。弾力性とバッチレベルは、標準料金の50%割引を提供し、それぞれ遅延に敏感でない(1~15分)および超大規模データ処理(最大24時間の遅延)のシナリオに適しています。キャッシュレベルは、トークン数と保存期間に基づいて課金され、高頻度で複雑なコマンド呼び出しに適しています。優先レベルは75%~100%のプレミアム料金が適用され、ミリ秒から秒単位の応答を保証し、カスタマーサポートボットやリアルタイム不正検出などの重要なアプリケーションに利用されます。今回の調整により、AI推論サービスのリソース階層的スケジューリング機能が強化され、異なる遅延感度とコスト制約を持つAIアプリケーション向けに、より精緻な計算資源の価格モデルが提供されました。
文章作者、出典:AIBase
Googleは最近、Gemini APIの課金構造を更新し、ユーザーの推論使用要件により適切に対応できるようにしました。今回の更新により、標準、弾力性、優先、バッチ、キャッシュ版の複数のサービスレベルが追加されました。ユーザーは自身の実際のニーズに応じて最適なレベルを選択できます。
まず、スタンダードプランは基本的な推論サービスを提供し、ユーザーは自身の使用状況に応じて選択できます。エラスティックプランは革新的なオプションで、非ピーク時間の空きリソースを活用し、スタンダード料金の50%割引を提供します。このプランの目標レイテンシは1〜15分ですが、固定されたレイテンシーを保証するものではなく、時間的要件が緩いアプリケーションに適しています。
また、バッチグレードでは標準料金の50%割引を提供しており、大量のデータを処理するユーザーに適しています。遅延時間は最大24時間です。このグレードは大規模なデータ処理シナリオに特に適しており、大量の情報照会を行う際にコストを大幅に削減できます。
キャッシュステージでは、キャッシュされたトークン数と保存期間に基づいて課金されます。これは、複雑なコマンドを頻繁に呼び出すチャットボット、長尺動画の分析、または大規模なドキュメントセットのクエリに特に適しています。このステージにより、ユーザーはストレージと計算リソースを効果的に管理し、システムの実行効率を向上させることができます。
優先枠の料金は標準料金より75%~100%高くなりますが、遅延をミリ秒から秒単位で制御できます。この枠は、カスタマーサポートチャットボット、リアルタイム不正検出、重要なビジネスアシスタントなどのリアルタイム応答を必要とするアプリケーションに最適です。Googleは、アプリケーションの応答速度と効率を最大限に引き出したいユーザーに対して、優先枠の利用を推奨しています。
重要なポイント:
🌟 ジェミニAPIの複数のサービスプランを追加し、さまざまなユーザーのニーズに対応します。
⏳ フレキシブルおよびバッチレベルのオプションで50%オフをご提供。大規模データ処理に最適です。
⚡ プレミアムランクはミリ秒単位の応答を保証し、リアルタイムアプリケーションに最適です。
