BlockBeats noticia que, em 4 de março, o Google lançou a versão de pré-visualização do Gemini 3.1 Flash-Lite, posicionado como o modelo mais rápido e de menor custo da série Gemini 3. O modelo é baseado na arquitetura do Gemini 3 Pro e utiliza um design de especialistas mistos (MoE), ativando apenas partes dos parâmetros para reduzir o custo de inferência. O preço da API é de $0,25 por milhão de tokens de entrada e $1,50 por milhão de tokens de saída, aproximadamente 1/8 do preço do Gemini 3.1 Pro ($2/$18).
Em termos de desempenho, em comparação com o Gemini 2.5 Flash, a latência do primeiro token foi reduzida em 2,5 vezes, a velocidade de saída aumentou 45%, atingindo 363 tokens por segundo. Suporta entradas de até 1 milhão de tokens e saídas de até 64 mil tokens, aceitando entradas de texto, imagens, áudio e vídeo. Em 11 testes internos, o Flash-Lite superou o GPT-5 mini e o Claude 4.5 Haiku em 6 deles, alcançando 86,9% no GPQA Diamond (questões científicas de nível doutoral), 76,8% no MMMU-Pro (raciocínio multimodal) e 72,0% no LiveCodeBench (geração de código).
O modelo possui um "nível de pensamento" ajustável integrado, permitindo que desenvolvedores controlem a profundidade da inferência do modelo no AI Studio e no Vertex AI, equilibrando qualidade e custo em cenários de alta frequência. A versão de pré-visualização está atualmente disponível por meio da Gemini API (Google AI Studio) e Vertex AI.
