BlockBeats haberi, 4 Mart'ta Google, Gemini 3.1 Flash-Lite önizleme sürümünü yayınladı ve bu modeli Gemini 3 serisinin en hızlı ve en düşük maliyetli modeli olarak tanıttı. Model, Gemini 3 Pro mimarisine dayanıyor ve çıkarım maliyetini düşürmek için karışık uzman (MoE) tasarımı kullanıyor. API fiyatı, girdi için $0,25/milyon token, çıktı için $1,50/milyon token olup, bu fiyatlar Gemini 3.1 Pro'nun ($2/$18) yaklaşık sekizde biridir.
Gemini 2.5 Flash'e kıyasla ilk token gecikmesi 2,5 kat kısalırken, çıktı hızı %45 artarak saniyede 363 token seviyesine ulaşıyor. Maksimum 1 milyon token girdi ve 64 bin token çıktı desteği sunuyor; metin, resim, ses ve video girdilerini kabul ediyor. 11 adet dahili performans testinde, Flash-Lite, GPT-5 mini ve Claude 4.5 Haiku'yu 6 testte aştı; GPQA Diamond (doktora düzeyi bilimsel soru-cevap) %86,9, MMMU-Pro (çoklu modlu çıkarım) %76,8, LiveCodeBench (kod üretimi) %72,0 başarı oranı elde etti.
Bu model, geliştiricilerin AI Studio ve Vertex AI üzerinden model çıkarım derinliğini kontrol edebileceği ayarlanabilir «düşünme seviyeleri» (thinking levels) içerir ve yüksek frekanslı senaryolarda kalite ile maliyet arasında denge kurar. Şu anda Gemini API (Google AI Studio) ve Vertex AI aracılığıyla önizleme erişimi sunulmaktadır.
