Сообщение BlockBeats, 4 марта: Google выпустила предварительную версию Gemini 3.1 Flash-Lite, позиционируя её как самую быструю и самую недорогую модель в серии Gemini 3. Модель основана на архитектуре Gemini 3 Pro и использует дизайн смешанных экспертов (MoE), активируя только часть параметров для снижения стоимости вывода. Цена API: ввод — $0,25 за миллион токенов, вывод — $1,50 за миллион токенов, что составляет примерно 1/8 от цены Gemini 3.1 Pro ($2/$18).
В плане производительности по сравнению с Gemini 2.5 Flash время задержки первого токена сокращено в 2,5 раза, скорость вывода увеличена на 45% и достигла 363 токенов в секунду. Поддерживается максимальный ввод до 1 миллиона токенов и вывод до 64 000 токенов. Принимаются входные данные в формате текста, изображений, аудио и видео. В 11 внутренних тестах Flash-Lite превзошел GPT-5 mini и Claude 4.5 Haiku в 6 тестах: GPQA Diamond (научные вопросы уровня доктора) — 86,9%, MMMU-Pro (мультимодальное рассуждение) — 76,8%, LiveCodeBench (генерация кода) — 72,0%.
Эта модель включает настраиваемый «уровень мышления» (thinking levels), позволяющий разработчикам управлять глубиной вывода модели в AI Studio и Vertex AI, обеспечивая баланс между качеством и стоимостью в сценариях с высокой частотой использования. В настоящее время предварительная версия доступна через Gemini API (Google AI Studio) и Vertex AI.
