مايكروسوفت تُطلق مفتوحة المصدر نموذج Lens لتحويل النص إلى صورة بحجم 3.8 مليار مع استنتاج بزمن 0.84 ثانية

أخبار ME، في 25 مايو (UTC+8)، وفقًا لمراقبة Beating، أطلقت مايكروسوفت سلسلة نموذج أساسي للنص إلى صورة مفتوح المصدر بـ 3.8 مليار معلمة تُسمى Lens. وبالحفاظ على الأداء وتجاوزه لنماذج الرائدة من فئة 6 مليار، حقق Lens كفاءة تدريب قصوى. في اختبارات التقييم المعيارية لقوة الحوسبة BF16 TFLOPS القصوى (باستبعاد تكلفة إعادة توليد الوصف النصي)، استهلك التدريب فقط حوالي 19.3% من قوة الحوسبة الخاصة بـ Z-Image من مختبرات تونغيي التابعة لعلي بابا. يُعد التحسين المزدوج للبيانات والهندسة جوهر خفض تكلفة التدريب. يحتوي مجموعة بيانات التدريب Lens-800M على 800 مليون زوج من الصور والنصوص. على عكس التسميات النصية القصيرة التقليدية، تم توليد جميع العينات بواسطة GPT-4.1، بمتوسط طول تعليمات التحفيز يصل إلى 109 كلمات، مما يوفر كثافة معلومات دلالية عالية جدًا. تعتمد هندسة النموذج على 48 كتلة MMDiT وVAE دلالات FLUX.2. تأتي ميزات النص من GPT-OSS، حيث تم تعزيز اتباع التعليمات والتعميم متعدد اللغات من خلال دمج ميزات الطبقات الرابعة والثانية عشر والثامنة عشر والرابعة والعشرين. أطلقت مايكروسوفت ثلاثة إصدارات من الأوزان لتناسب بيئات التشغيل المختلفة. الإصدار الافتراضي Lens يستخدم تحسينًا بالتعلم المعزز RL، ويستغرق 3.15 ثانية لتوليد صورة بدقة 1024x1024 في 20 خطوة على وحدة NVIDIA H100 واحدة. يمكن للإصدار المُسرّع المُستخلص Lens-Turbo إكمال الاستنتاج في 4 خطوات فقط، وتوليد صورة بنفس الدقة في 0.84 ثانية. أما الإصدار الأساسي Lens-Base فهو نموذج أساسي خالٍ من RL أو التخليص، ويعمل افتراضيًا بـ 50 خطوة للتوليد. تدعم السلسلة بشكل أصلي نسب عرض إلى ارتفاع عشوائية تتراوح بين 1:2 و2:1، مع إمكانية توليد دقة مختلطة تصل إلى 1440x1440. تم رفع أوزان النماذج ذات الصلة على Hugging Face، مع توفير نقاط دخول بتنسيقات Safetensors وDiffusers، بموجب ترخيص MIT. كما تم استضافة كود الاستنتاج بالتزامن على GitHub. إن الجمع بين كثافة البيانات العالية والاستنتاج السريع يخفض الحواجز أمام المطورين الأفراد والأوساط الأكاديمية لتنفيذ وإعادة إنتاج نماذج Transformer التفاضلية الكبيرة. (المصدر: BlockBeats)