माइक्रोसॉफ्ट ने 3.8B टेक्स्ट-टू-इमेज मॉडल Lens को ओपन सोर्स किया है, जिसका निष्पादन 0.84 सेकंड में होता है

iconKuCoinFlash
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
माइक्रोसॉफ्ट ने 25 मई को CFT पालन के ध्यान में रखते हुए अपना 3.8B पैरामीटर टेक्स्ट-टू-इमेज मॉडल Lens को ओपन-सोर्स किया है। यह मॉडल 6B+ प्रदर्शन के बराबर है जबकि प्रशिक्षण लागत कम करता है। Lens-800M GPT-4.1 प्रॉम्प्ट्स का उपयोग करता है, जिसकी औसत लंबाई 109 शब्द है। यह 1:2 से 2:1 अनुपात और 1440x1440 रिज़ॉल्यूशन का समर्थन करता है। Lens-Turbo 0.84 सेकंड में 1024x1024 इमेज जनरेट करता है। वेट्स Hugging Face पर MIT लाइसेंस के तहत उपलब्ध हैं, जो MiCA मानकों के साथ संगत हैं।

ME न्यूज के अनुसार, 25 मई (UTC+8) को, Beating द्वारा निगरानी के अनुसार, माइक्रोसॉफ्ट ने 3.8B पैरामीटर टेक्स्ट-टू-इमेज बेस मॉडल सीरीज Lens को ओपन सोर्स किया है। मुख्य 6B स्तर के मॉडलों के प्रदर्शन को बनाए रखते हुए और उससे आगे बढ़ते हुए, Lens ने अत्यधिक ट्रेनिंग दक्षता प्राप्त की है। शीर्ष BF16 TFLOPS क्षमता के सामान्यीकृत परीक्षण में (कैप्शन पुनःउत्पादन लागत को बाहर रखते हुए), ट्रेनिंग केवल अलीबाबा टोंगयी प्रयोगशाला Z-Image की लगभग 19.3% क्षमता का उपयोग करती है। ट्रेनिंग लागत में कमी का मुख्य कारण डेटा और आर्किटेक्चर में दोहरी अनुकूलन है। ट्रेनिंग डेटासेट Lens-800M में 800 मिलियन इमेज-टेक्स्ट जोड़े शामिल हैं। पारंपरिक छोटे टेक्स्ट लेबलिंग से अलग, सभी सैंपल GPT-4.1 द्वारा उत्पन्न किए गए हैं, जिनकी प्रॉम्प्ट औसतन 109 शब्दों की हैं, जिससे अत्यधिक सेमेंटिक जानकारी घनत्व प्राप्त होता है। मॉडल आर्किटेक्चर में 48 MMDiT ब्लॉक्स और FLUX.2 सेमेंटिक VAE का उपयोग किया गया है। टेक्स्ट फीचर GPT-OSS से प्राप्त होते हैं, जिन्हें 4वीं, 12वीं, 18वीं, 24वीं परतों के फीचर प्रतिनिधित्व को जोड़कर सुदृढ़ किया गया है, जिससे प्रॉम्प्ट अनुसरण और बहुभाषी सामान्यीकरण प्रदर्शन में सुधार हुआ है। विभिन्न रनिंग परिवेशों के लिए, माइक्रोसॉफ्ट ने तीन वजन संस्करण प्रकाशित किए हैं। प्राथमिक Lens संस्करण RL-ट्यून किए गए प्रवर्धित सीखने के साथ है, जो NVIDIA H100 GPU पर 20 स्टेप में 1024x1024 इमेज जनरेट करने में 3.15 सेकंड का समय लेता है। डिस्टिलेशन-आधारित हाई-स्पीड संस्करण Lens-Turbo 4 स्टेप में निष्पादन पूरा कर सकता है, और समान रिज़ॉल्यूशन की इमेज केवल 0.84 सेकंड में जनरेट करता है। बेस संस्करण Lens-Base RL-मुक्त, डिस्टिलेशन-मुक्त प्राथमिक मॉडल है, जो 50 स्टेप के साथ प्रारंभिक पीढ़ियों के लिए प्राथमिकता प्रदान करता है। सीरीज़ मॉडल मूल रूप से 1:2 से 2:1 के कोई भी अनुपात और 1440x1440 तक के मिश्रित रिज़ॉल्यूशन के साथ समर्थन प्रदान करते हैं। संबंधित मॉडल वजन Hugging Face पर Uplifted हैं, Safetensors और Diffusers प्रारूप के माध्यम से पहुँच प्रदान करते हुए, MIT लाइसेंस प्रोटोकॉल के साथ। निष्पादन कोड GitHub पर समानांतर रूप से होस्ट किया गया है। उच्च-घनत्ववाले डेटा और हाई-स्पीड निष्पादन का संयोजन, प्रति-विकासकों और शैक्षणिक समुदायों के लिए, प्रबल प्रसार Transformer (Diffusion Transformer) मॉडलों के स्थापना, पुनःउत्पादन की सीमा को कम करता है। (स्रोत: BlockBeats)

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।