BlockBeatsの情報によると、3月4日、GoogleはGemini 3.1 Flash-Liteのプレビュー版をリリースし、Gemini 3シリーズの中で最速かつ最安価なモデルとして位置づけました。このモデルはGemini 3 Proアーキテクチャを基盤とし、混合エキスパート(MoE)設計を採用して、推論コストを削減するために一部のパラメータのみを活性化します。APIの価格は、入力が$0.25/百万トークン、出力が$1.50/百万トークンで、それぞれGemini 3.1 Pro($2/$18)の約1/8です。
性能面では、Gemini 2.5 Flash と比較して、最初のトークンの遅延が2.5倍短縮され、出力速度が45%向上し、毎秒363トークンを達成しました。最大100万トークンの入力と6.4万トークンの出力をサポートし、テキスト、画像、音声、動画の入力を受け付けます。11の内部ベンチマークテストのうち、Flash-LiteはGPT-5 miniおよびClaude 4.5 Haikuを6つのテストで上回り、GPQA Diamond(博士レベルの科学的質問応答)では86.9%、MMMU-Pro(マルチモーダル推論)では76.8%、LiveCodeBench(コード生成)では72.0%を記録しました。
このモデルには調整可能な「思考レベル」(thinking levels)が内蔵されており、開発者はAI StudioおよびVertex AIでモデルの推論深度を制御し、高頻度シナリオにおいて品質とコストのバランスを取ることができます。現在、Gemini API(Google AI Studio)およびVertex AIを通じてプレビュー版へのアクセスが提供されています。
