BlockBeats tin tức, ngày 4 tháng 3, Google ra mắt bản xem trước Gemini 3.1 Flash-Lite, được định vị là mô hình nhanh nhất và chi phí thấp nhất trong dòng Gemini 3. Mô hình này dựa trên kiến trúc Gemini 3 Pro, sử dụng thiết kế chuyên gia hỗn hợp (MoE), chỉ kích hoạt một phần tham số để giảm chi phí suy luận. Giá API là $0,25/1 triệu token đầu vào và $1,50/1 triệu token đầu ra, tương đương khoảng 1/8 so với Gemini 3.1 Pro ($2/$18).
Về hiệu năng, so với Gemini 2.5 Flash, độ trễ token đầu tiên được rút ngắn 2,5 lần, tốc độ đầu ra tăng 45%, đạt 363 token mỗi giây. Hỗ trợ đầu vào tối đa 1 triệu token và đầu ra tối đa 64.000 token, chấp nhận đầu vào dạng văn bản, hình ảnh, âm thanh và video. Trong 11 bài kiểm tra nội bộ, Flash-Lite vượt trội hơn GPT-5 mini và Claude 4.5 Haiku ở 6 bài, đạt 86,9% trên GPQA Diamond (câu hỏi khoa học cấp tiến sĩ), 76,8% trên MMMU-Pro (suy luận đa phương tiện) và 72,0% trên LiveCodeBench (tạo mã).
Mô hình tích hợp mức độ suy nghĩ (thinking levels) có thể điều chỉnh, cho phép nhà phát triển kiểm soát độ sâu suy luận của mô hình trong AI Studio và Vertex AI để cân bằng giữa chất lượng và chi phí trong các kịch bản tần suất cao. Hiện tại, phiên bản dùng thử được cung cấp thông qua Gemini API (Google AI Studio) và Vertex AI.
