BlockBeats na mensahe, Marso 4, ipinakilala ng Google ang Gemini 3.1 Flash-Lite preview, na inilalagay bilang pinakamabilis at pinakamura sa Gemini 3 series. Batay sa Gemini 3 Pro architecture, gumagamit ito ng mixed experts (MoE) design na nag-activate lamang ng ilang parameter upang bawasan ang gastos sa pagpapatakbo. Ang presyo ng API ay $0.25/milyong token para sa input at $1.50/milyong token para sa output, na halos 1/8 ng presyo ng Gemini 3.1 Pro ($2/$18).
Sa aspeto ng performance, ang unang token latency ay nabawasan ng 2.5 beses kumpara sa Gemini 2.5 Flash, at ang output speed ay tumataas ng 45% patungo sa 363 token bawat segundo. Suportado ang maximum na 1 milyong token na input at 64,000 token na output, at tatanggapin ang text, imahe, audio, at video bilang input. Sa 11 internal benchmark tests, ang Flash-Lite ay lumampas sa GPT-5 mini at Claude 4.5 Haiku sa 6 dito, na nakakamit ng 86.9% sa GPQA Diamond (doctoral-level scientific Q&A), 76.8% sa MMMU-Pro (multimodal reasoning), at 72.0% sa LiveCodeBench (code generation).
Ang modelo ay may built-in na adjustable na "thinking levels", kung saan ang mga developer ay makakakontrol ng depth ng inference ng model sa AI Studio at Vertex AI upang balansehin ang kalidad at gastos sa mga high-frequency na scenario. Kasalukuyang available ang preview version sa pamamagitan ng Gemini API (Google AI Studio) at Vertex AI.
