BlockBeats: 4 березня Google випустила попередню версію Gemini 3.1 Flash-Lite, яка є найшвидшим і найменш витратним моделем у серії Gemini 3. Модель побудована на архітектурі Gemini 3 Pro з використанням дизайну змішаних експертів (MoE), що активує лише частину параметрів для зниження витрат на виведення. Ціна API: $0,25 за мільйон токенів на вхід і $1,50 за мільйон токенів на вихід — приблизно 1/8 від ціни Gemini 3.1 Pro ($2/$18).
Щодо продуктивності, початкова затримка першого токена скорочена у 2,5 рази порівняно з Gemini 2.5 Flash, швидкість виведення збільшена на 45% і досягає 363 токенів на секунду. Підтримується максимальний вхід до 1 мільйона токенів і вихід до 64 000 токенів, приймаються вхідні дані у форматі тексту, зображень, аудіо та відео. У 11 внутрішніх тестах Flash-Lite перевершив GPT-5 mini та Claude 4.5 Haiku у 6 з них: GPQA Diamond (наукові питання для докторів) — 86,9%, MMMU-Pro (багатомодальне міркування) — 76,8%, LiveCodeBench (генерація коду) — 72,0%.
Ця модель має вбудовану регульовану «рівень міркування» (thinking levels), який розробники можуть керувати в AI Studio та Vertex AI, щоб балансувати якість і витрати у сценаріях з високою частотою. Наразі передперегляд доступний через Gemini API (Google AI Studio) та Vertex AI.
