माइक्रोसॉफ्ट ने 3.8B टेक्स्ट-टू-इमेज मॉडल Lens को ओपन सोर्स किया है, जिसका निष्पादन 0.84 सेकंड में होता है

ME न्यूज के अनुसार, 25 मई (UTC+8) को, Beating द्वारा निगरानी के अनुसार, माइक्रोसॉफ्ट ने 3.8B पैरामीटर टेक्स्ट-टू-इमेज बेस मॉडल सीरीज Lens को ओपन सोर्स किया है। मुख्य 6B स्तर के मॉडलों के प्रदर्शन को बनाए रखते हुए और उससे आगे बढ़ते हुए, Lens ने अत्यधिक ट्रेनिंग दक्षता प्राप्त की है। शीर्ष BF16 TFLOPS क्षमता के सामान्यीकृत परीक्षण में (कैप्शन पुनःउत्पादन लागत को बाहर रखते हुए), ट्रेनिंग केवल अलीबाबा टोंगयी प्रयोगशाला Z-Image की लगभग 19.3% क्षमता का उपयोग करती है। ट्रेनिंग लागत में कमी का मुख्य कारण डेटा और आर्किटेक्चर में दोहरी अनुकूलन है। ट्रेनिंग डेटासेट Lens-800M में 800 मिलियन इमेज-टेक्स्ट जोड़े शामिल हैं। पारंपरिक छोटे टेक्स्ट लेबलिंग से अलग, सभी सैंपल GPT-4.1 द्वारा उत्पन्न किए गए हैं, जिनकी प्रॉम्प्ट औसतन 109 शब्दों की हैं, जिससे अत्यधिक सेमेंटिक जानकारी घनत्व प्राप्त होता है। मॉडल आर्किटेक्चर में 48 MMDiT ब्लॉक्स और FLUX.2 सेमेंटिक VAE का उपयोग किया गया है। टेक्स्ट फीचर GPT-OSS से प्राप्त होते हैं, जिन्हें 4वीं, 12वीं, 18वीं, 24वीं परतों के फीचर प्रतिनिधित्व को जोड़कर सुदृढ़ किया गया है, जिससे प्रॉम्प्ट अनुसरण और बहुभाषी सामान्यीकरण प्रदर्शन में सुधार हुआ है। विभिन्न रनिंग परिवेशों के लिए, माइक्रोसॉफ्ट ने तीन वजन संस्करण प्रकाशित किए हैं। प्राथमिक Lens संस्करण RL-ट्यून किए गए प्रवर्धित सीखने के साथ है, जो NVIDIA H100 GPU पर 20 स्टेप में 1024x1024 इमेज जनरेट करने में 3.15 सेकंड का समय लेता है। डिस्टिलेशन-आधारित हाई-स्पीड संस्करण Lens-Turbo 4 स्टेप में निष्पादन पूरा कर सकता है, और समान रिज़ॉल्यूशन की इमेज केवल 0.84 सेकंड में जनरेट करता है। बेस संस्करण Lens-Base RL-मुक्त, डिस्टिलेशन-मुक्त प्राथमिक मॉडल है, जो 50 स्टेप के साथ प्रारंभिक पीढ़ियों के लिए प्राथमिकता प्रदान करता है। सीरीज़ मॉडल मूल रूप से 1:2 से 2:1 के कोई भी अनुपात और 1440x1440 तक के मिश्रित रिज़ॉल्यूशन के साथ समर्थन प्रदान करते हैं। संबंधित मॉडल वजन Hugging Face पर Uplifted हैं, Safetensors और Diffusers प्रारूप के माध्यम से पहुँच प्रदान करते हुए, MIT लाइसेंस प्रोटोकॉल के साथ। निष्पादन कोड GitHub पर समानांतर रूप से होस्ट किया गया है। उच्च-घनत्ववाले डेटा और हाई-स्पीड निष्पादन का संयोजन, प्रति-विकासकों और शैक्षणिक समुदायों के लिए, प्रबल प्रसार Transformer (Diffusion Transformer) मॉडलों के स्थापना, पुनःउत्पादन की सीमा को कम करता है। (स्रोत: BlockBeats)