Pesan BlockBeats, 4 Maret, Google meluncurkan versi pratinjau Gemini 3.1 Flash-Lite, yang diposisikan sebagai model tercepat dan termurah dalam seri Gemini 3. Model ini didasarkan pada arsitektur Gemini 3 Pro, menggunakan desain Mixture of Experts (MoE) yang hanya mengaktifkan sebagian parameter untuk mengurangi biaya inferensi. Harga API adalah $0,25 per juta token input dan $1,50 per juta token output, masing-masing sekitar 1/8 dari harga Gemini 3.1 Pro ($2/$18).
Dibandingkan dengan Gemini 2.5 Flash, latensi token pertama berkurang 2,5 kali, kecepatan output meningkat 45%, mencapai 363 token per detik. Mendukung input hingga 1 juta token dan output hingga 64.000 token, menerima input teks, gambar, audio, dan video. Dalam 11 uji coba internal, Flash-Lite unggul atas GPT-5 mini dan Claude 4.5 Haiku pada 6 di antaranya, dengan skor GPQA Diamond (pertanyaan ilmiah tingkat doktor) sebesar 86,9%, MMMU-Pro (penalaran multimodal) 76,8%, dan LiveCodeBench (generasi kode) 72,0%.
Model ini dilengkapi dengan tingkat pemikiran yang dapat disesuaikan (thinking levels), memungkinkan pengembang mengontrol kedalaman inferensi model di AI Studio dan Vertex AI untuk menyeimbangkan kualitas dan biaya dalam skenario frekuensi tinggi. Versi pratinjau kini tersedia melalui Gemini API (Google AI Studio) dan Vertex AI.
