Message de BlockBeats, le 4 mars, Google a lancé la version préliminaire de Gemini 3.1 Flash-Lite, positionné comme le modèle le plus rapide et le moins coûteux de la série Gemini 3. Ce modèle repose sur l'architecture de Gemini 3 Pro, utilise une conception de experts mixtes (MoE) et n'active que部分 des paramètres pour réduire le coût d'inférence. Le prix de l'API est de 0,25 $ par million de tokens en entrée et de 1,50 $ par million de tokens en sortie, soit environ 1/8 du prix de Gemini 3.1 Pro (2 $ / 18 $).
En termes de performance, par rapport à Gemini 2.5 Flash, la latence du premier token est réduite de 2,5 fois, la vitesse de sortie est améliorée de 45 %, atteignant 363 tokens par seconde. Il prend en charge une entrée maximale de 1 million de tokens et une sortie maximale de 64 000 tokens, acceptant les entrées textuelles, d’images, d’audio et de vidéo. Sur 11 tests internes, Flash-Lite surpasse GPT-5 mini et Claude 4.5 Haiku dans 6 d’entre eux, avec un score de 86,9 % à GPQA Diamond (questions scientifiques de niveau doctorat), 76,8 % à MMMU-Pro (raisonnement multimodal) et 72,0 % à LiveCodeBench (génération de code).
Le modèle intègre un « niveau de réflexion » réglable ; les développeurs peuvent contrôler la profondeur d'inférence du modèle dans AI Studio et Vertex AI, équilibrant qualité et coût dans les scénarios à haute fréquence. Une version préliminaire est actuellement disponible via Gemini API (Google AI Studio) et Vertex AI.
