أخبار ME، في 25 مايو (UTC+8)، وفقًا لمراقبة Beating، أطلقت مايكروسوفت سلسلة نموذج أساسي للنص إلى صورة مفتوح المصدر بـ 3.8 مليار معلمة تُسمى Lens. وبالحفاظ على الأداء وتجاوزه لنماذج الرائدة من فئة 6 مليار، حقق Lens كفاءة تدريب قصوى. في اختبارات التقييم المعيارية لقوة الحوسبة BF16 TFLOPS القصوى (باستبعاد تكلفة إعادة توليد الوصف النصي)، استهلك التدريب فقط حوالي 19.3% من قوة الحوسبة الخاصة بـ Z-Image من مختبرات تونغيي التابعة لعلي بابا. يُعد التحسين المزدوج للبيانات والهندسة جوهر خفض تكلفة التدريب. يحتوي مجموعة بيانات التدريب Lens-800M على 800 مليون زوج من الصور والنصوص. على عكس التسميات النصية القصيرة التقليدية، تم توليد جميع العينات بواسطة GPT-4.1، بمتوسط طول تعليمات التحفيز يصل إلى 109 كلمات، مما يوفر كثافة معلومات دلالية عالية جدًا. تعتمد هندسة النموذج على 48 كتلة MMDiT وVAE دلالات FLUX.2. تأتي ميزات النص من GPT-OSS، حيث تم تعزيز اتباع التعليمات والتعميم متعدد اللغات من خلال دمج ميزات الطبقات الرابعة والثانية عشر والثامنة عشر والرابعة والعشرين. أطلقت مايكروسوفت ثلاثة إصدارات من الأوزان لتناسب بيئات التشغيل المختلفة. الإصدار الافتراضي Lens يستخدم تحسينًا بالتعلم المعزز RL، ويستغرق 3.15 ثانية لتوليد صورة بدقة 1024x1024 في 20 خطوة على وحدة NVIDIA H100 واحدة. يمكن للإصدار المُسرّع المُستخلص Lens-Turbo إكمال الاستنتاج في 4 خطوات فقط، وتوليد صورة بنفس الدقة في 0.84 ثانية. أما الإصدار الأساسي Lens-Base فهو نموذج أساسي خالٍ من RL أو التخليص، ويعمل افتراضيًا بـ 50 خطوة للتوليد. تدعم السلسلة بشكل أصلي نسب عرض إلى ارتفاع عشوائية تتراوح بين 1:2 و2:1، مع إمكانية توليد دقة مختلطة تصل إلى 1440x1440. تم رفع أوزان النماذج ذات الصلة على Hugging Face، مع توفير نقاط دخول بتنسيقات Safetensors وDiffusers، بموجب ترخيص MIT. كما تم استضافة كود الاستنتاج بالتزامن على GitHub. إن الجمع بين كثافة البيانات العالية والاستنتاج السريع يخفض الحواجز أمام المطورين الأفراد والأوساط الأكاديمية لتنفيذ وإعادة إنتاج نماذج Transformer التفاضلية الكبيرة. (المصدر: BlockBeats)
مايكروسوفت تُطلق مفتوحة المصدر نموذج Lens لتحويل النص إلى صورة بحجم 3.8 مليار مع استنتاج بزمن 0.84 ثانية
KuCoinFlashمشاركة






أصدرت مايكروسوفت نموذجها المفتوح المصدر Lens ذو 3.8 مليار معلمة للتحويل من نص إلى صورة في 25 مايو، مع مراعاة الامتثال لـ CFT. يحقق النموذج أداءً يعادل النماذج التي تتجاوز 6 مليارات معلمة مع خفض تكاليف التدريب. يستخدم Lens-800M مُحفزات GPT-4.1 بمتوسط 109 كلمة. يدعم نسبًا من 1:2 إلى 2:1 ودقة 1440x1440. ويُنتج Lens-Turbo صورًا بدقة 1024x1024 في 0.84 ثانية. متاح الوزن على Hugging Face بموجب ترخيص MIT، ويتلاءم مع معايير MiCA.
المصدر:عرض النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات.
يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.