Mensaje de BlockBeats, 4 de marzo: Google lanzó la versión preliminar de Gemini 3.1 Flash-Lite, posicionado como el modelo más rápido y de menor costo de la serie Gemini 3. Este modelo se basa en la arquitectura de Gemini 3 Pro y utiliza un diseño de expertos mixtos (MoE) que activa solo una parte de los parámetros para reducir el costo de inferencia. El precio de la API es de $0.25 por millón de tokens de entrada y $1.50 por millón de tokens de salida, aproximadamente 1/8 del precio de Gemini 3.1 Pro ($2/$18).
En términos de rendimiento, en comparación con Gemini 2.5 Flash, la latencia del primer token se reduce 2.5 veces, la velocidad de salida aumenta un 45 %, alcanzando 363 tokens por segundo. Admite entradas de hasta 1 millón de tokens y salidas de hasta 64 000 tokens, aceptando entradas de texto, imágenes, audio y video. En 11 pruebas internas, Flash-Lite superó a GPT-5 mini y Claude 4.5 Haiku en 6 de ellas, logrando un 86.9 % en GPQA Diamond (preguntas y respuestas científicas de nivel doctorado), 76.8 % en MMMU-Pro (razonamiento multimodal) y 72.0 % en LiveCodeBench (generación de código).
El modelo incluye un «nivel de pensamiento» ajustable, que permite a los desarrolladores controlar la profundidad de la inferencia del modelo en AI Studio y Vertex AI, equilibrando calidad y costo en escenarios de alta frecuencia. Actualmente se ofrece acceso en versión preliminar a través de Gemini API (Google AI Studio) y Vertex AI.
