BlockBeats รายงานว่า เมื่อวันที่ 4 มีนาคม โกลเกิลเปิดตัวรุ่นตัวอย่าง Gemini 3.1 Flash-Lite ซึ่งถูกกำหนดให้เป็นโมเดลที่เร็วที่สุดและมีต้นทุนต่ำที่สุดในซีรีส์ Gemini 3 โมเดลนี้อิงจากสถาปัตยกรรม Gemini 3 Pro ใช้การออกแบบแบบผสมผสานผู้เชี่ยวชาญ (MoE) โดยเปิดใช้งานพารามิเตอร์เพียงบางส่วนเพื่อลดต้นทุนการให้บริการ ราคา API อยู่ที่ $0.25 ต่อหนึ่งล้านโทเค็นสำหรับข้อมูลนำเข้า และ $1.50 ต่อหนึ่งล้านโทเค็นสำหรับข้อมูลส่งออก ซึ่งคิดเป็นประมาณ 1/8 ของราคา Gemini 3.1 Pro ($2/$18)
ในด้านประสิทธิภาพ เมื่อเปรียบเทียบกับ Gemini 2.5 Flash ความล่าช้าของโทเค็นแรกลดลง 2.5 เท่า ความเร็วในการสร้างเอาต์พุตเพิ่มขึ้น 45% ถึง 363 โทเค็นต่อวินาที รองรับอินพุตสูงสุด 1 ล้านโทเค็นและเอาต์พุตสูงสุด 64,000 โทเค็น รับอินพุตในรูปแบบข้อความ รูปภาพ เสียง และวิดีโอ ในการทดสอบมาตรฐานภายใน 11 รายการ Flash-Lite ทำได้ดีกว่า GPT-5 mini และ Claude 4.5 Haiku ใน 6 รายการ โดยมีคะแนน GPQA Diamond (คำถามวิทยาศาสตร์ระดับปริญญาเอก) ที่ 86.9% MMMU-Pro (การให้เหตุผลแบบหลายโมดัล) 76.8% และ LiveCodeBench (การสร้างโค้ด) 72.0%
โมเดลนี้มีระดับการคิด (thinking levels) ที่สามารถปรับได้ภายในตัว นักพัฒนาสามารถควบคุมระดับการประมวลผลของโมเดลผ่าน AI Studio และ Vertex AI เพื่อสมดุลระหว่างคุณภาพและต้นทุนในสถานการณ์ที่ต้องการความถี่สูง ขณะนี้สามารถเข้าถึงเวอร์ชันพรีวิวผ่าน Gemini API (Google AI Studio) และ Vertex AI
