BlockBeats की समाचार, 4 मार्च को, गूगल ने Gemini 3.1 Flash-Lite प्रीव्यू जारी किया, जिसे Gemini 3 श्रृंखला का सबसे तेज़ और सबसे कम लागत वाला मॉडल बताया गया है। यह मॉडल Gemini 3 Pro आर्किटेक्चर पर आधारित है और मिक्स्ड एक्सपर्ट (MoE) डिज़ाइन का उपयोग करता है, जिससे निष्कर्षण लागत कम करने के लिए केवल कुछ पैरामीटर सक्रिय होते हैं। API मूल्यांकन $0.25/मिलियन टोकन प्रवेश और $1.50/मिलियन टोकन आउटपुट है, जो Gemini 3.1 Pro ($2/$18) के लगभग 1/8 है।
प्रदर्शन के मामले में, Gemini 2.5 Flash की तुलना में पहले token की लेटेंसी 2.5 गुना कम हो गई है, आउटपुट स्पीड 45% बढ़कर 363 token प्रति सेकंड हो गई है। यह 10 लाख token तक के इनपुट और 64,000 token तक के आउटपुट का समर्थन करता है, और टेक्स्ट, इमेज, ऑडियो और वीडियो इनपुट को स्वीकार करता है। 11 आंतरिक बेंचमार्क में से, Flash-Lite 6 में GPT-5 mini और Claude 4.5 Haiku से आगे है, GPQA Diamond (डॉक्टरेट स्तर के विज्ञान प्रश्नोत्तर) में 86.9%, MMMU-Pro (मल्टीमॉडल रीजनिंग) में 76.8%, और LiveCodeBench (कोड जनरेशन) में 72.0%।
इस मॉडल में एक एडजस्टेबल "थिंकिंग लेवल" एम्बेडेड है, जिससे डेवलपर्स AI Studio और Vertex AI में मॉडल की इन्फरेंस गहराई को नियंत्रित कर सकते हैं और उच्च आवृत्ति के स्थितियों में गुणवत्ता और लागत के बीच संतुलन बना सकते हैं। वर्तमान में Gemini API (Google AI Studio) और Vertex AI के माध्यम से प्रीव्यू संस्करण का एक्सेस उपलब्ध है।
