Mesej BlockBeats, 4 Mac, Google melancarkan versi pra-pandangan Gemini 3.1 Flash-Lite, yang dikenal pasti sebagai model paling pantas dan paling murah dalam siri Gemini 3. Model ini berdasarkan arsitektur Gemini 3 Pro, menggunakan reka bentuk Mixed Experts (MoE) yang hanya mengaktifkan sebahagian parameter untuk mengurangkan kos inferens. Harga API ialah $0.25/ juta token untuk input dan $1.50/ juta token untuk output, masing-masing sekitar 1/8 daripada Gemini 3.1 Pro ($2/$18).
Dari segi prestasi, dibandingkan dengan Gemini 2.5 Flash, latensi token pertama berkurang 2.5 kali ganda, kelajuan output meningkat 45% hingga mencapai 363 token per saat. Menyokong input sehingga 1 juta token dan output sehingga 64,000 token, menerima input teks, gambar, audio, dan video. Dalam 11 ujian piawai dalaman, Flash-Lite melebihi GPT-5 mini dan Claude 4.5 Haiku dalam 6 ujian, dengan skor 86.9% untuk GPQA Diamond (soal jawab sains peringkat doktor), 76.8% untuk MMMU-Pro (penalaran multimodal), dan 72.0% untuk LiveCodeBench (penghasilan kod).
Model ini dilengkapi dengan "tingkat pemikiran" yang boleh disesuaikan, di mana pembangun boleh mengawal kedalaman inferens model di AI Studio dan Vertex AI untuk menyeimbangkan kualiti dan kos dalam skenario frekuensi tinggi. Versi pra-pandangan kini tersedia melalui Gemini API (Google AI Studio) dan Vertex AI.
