BlockBeats کی خبر، 4 مارچ، گوگل نے Gemini 3.1 Flash-Lite کا پریویو جاری کیا، جو Gemini 3 سیریز کا سب سے تیز اور سب سے کم لاگت والے ماڈل کے طور پر ڈیزائن کیا گیا ہے۔ یہ ماڈل Gemini 3 Pro آرکیٹیکچر پر مبنی ہے اور مکسڈ اسپیئر (MoE) ڈیزائن استعمال کرتا ہے، جس میں انفرینس لاگت کم کرنے کے لیے صرف کچھ پیرامیٹرز فعال ہوتے ہیں۔ API کی قیمت داخلی $0.25/میلین ٹوکن اور آؤٹ پٹ $1.50/میلین ٹوکن ہے، جو Gemini 3.1 Pro ($2/$18) کے تقریباً 1/8 ہے۔
پرفارمنس کے لحاظ سے، Gemini 2.5 Flash کے مقابلے میں پہلا ٹوکن لیٹنس 2.5 گنا کم ہو گیا ہے، آؤٹ پٹ سپیڈ 45 فیصد بڑھ کر 363 ٹوکن فی سیکنڈ ہو گئی ہے۔ اس کی حمایت 10 لاکھ ٹوکن تک ان پٹ اور 64,000 ٹوکن تک آؤٹ پٹ کے لیے ہے، جس میں متن، تصاویر، آڈیو اور ویڈیو ان پٹ قابل قبول ہیں۔ 11 داخلی بینچ مارکس میں سے، Flash-Lite نے GPT-5 mini اور Claude 4.5 Haiku کو 6 میں سے 6 پر پار کر دیا، جس میں GPQA Diamond (ڈاکٹری سائنس سوالات) میں 86.9%، MMMU-Pro (ملاوٹی مڈ ریزننگ) میں 76.8%، اور LiveCodeBench (کوڈ جنریشن) میں 72.0% کا اسکور حاصل کیا۔
اس ماڈل میں قابل تنظیم "سوچ کے درجات" (thinking levels) شامل ہیں، جنہیں ڈویلپرز AI Studio اور Vertex AI میں ماڈل کی استدلال کی گہرائی کو کنٹرول کرکے اعلیٰ فریکوئنسی والے سیناریوز میں معیار اور لاگت کے درمیان توازن قائم کر سکتے ہیں۔ ابھی تک، Gemini API (Google AI Studio) اور Vertex AI کے ذریعے پریویو ورژن کی دستیابی فراہم کی جا رہی ہے۔
