ME نیوز کے مطابق، 25 مئی (UTC+8) کو، Beating کی نگرانی کے مطابق، مائیکروسافٹ نے 3.8B پیرامیٹر والے متن سے تصویر بنانے والے اوپن سورس مڈل سیریز Lens جاری کیا ہے۔ مین لائن 6B لیول کے ماڈلز کی کارکردگی کو برقرار رکھتے ہوئے اور اس سے بھی آگے بڑھتے ہوئے، Lens نے انتہائی تربیتی کارکردگی حاصل کی ہے۔ پیک BF16 TFLOPS کی کمپوٹنگ پاور کے نرمالائزڈ ٹیسٹ میں (کیپشن دوبارہ جنریٹ کرنے کے اخراجات کو نظرانداز کرتے ہوئے)، تربیت صرف阿里巴巴通義 لیب Z-Image کی تقریباً 19.3% کمپوٹنگ پاور استعمال کرتی ہے۔ تربیت کے اخراجات میں کمی کا مرکزی تقاضا ڈیٹا اور آرکٹیکچر دونوں میں بہتری ہے۔ تربیت ڈیٹا سیٹ Lens-800M میں 8 ارب تصویر-متن جوڑے شامل ہیں۔ روایتی مختصر متن اینوٹیشنز کے برعکس، تمام نمونے GPT-4.1 سے جنریٹ کئے گئے ہیں، جن کے پرومپٹس کی اوسط لمبائی 109 الفاظ تک پہنچتی ہے، جس سے معنائی معلومات کا تناسب بہت زیادہ ہوتا ہے۔ ماڈل آرکٹیکچر میں 48 MMDiT بلاکس اور FLUX.2 سینٹینٹ VAE شامل ہیں۔ متن فیچرز GPT-OSS سے حاصل کئے جاتے ہیں، جنہیں 4، 12، 18، اور 24 ویں لیرز کے فیچرز کو جوڑ کر تقویت دی گئی ہے، جس سے پرومپٹ فوللوانس اور متعدد زبانوں میں جامع صلاحیت بہتر ہوتی ہے۔ مختلف رن ٹائم ماحول کے لئے، مائیکروسافٹ نے تین وزن ورژن جاری کئے ہیں۔ ڈیفالٹ ورژن Lens RL-tuned رینفورسمنٹ لرننگ فائن ٹننگ استعمال کرتا ہے، اور ایک NVIDIA H100 GPU پر 1024x1024 تصویر بنانے کے لئے صرف 20 اسٹپس اور 3.15 سیکنڈ لگتے ہیں۔ اسٹلڈ ورژن Lens-Turbo صرف 4 اسٹپس میں انفرنس کر سکتا ہے، اور اسی رزلوشن کی تصویر صرف 0.84 سیکنڈ میں جنریٹ کرتا ہے۔ بیس ورژن Lens-Base RL اور اسٹلڈ دونوں کے بغیر صرف بنیادی ماڈل ہے، جو ڈیفالٹ طور پر جنریشن کے لئے 50 اسٹپس استعمال کرتا ہے۔ سیریز ماڈلز اصل میں 1:2 سے 2:1 تک کسی بھی وائڈتھ-ہائٹ رشو اور تکرار تک 1440x1440 مکس رزلوشن جنریشن کو سپورٹ کرتے ہیں۔ متعلقہ ماڈل وزن Hugging Face پر دستیاب ہیں، جہاں Safetensors اور Diffusers فارمیٹس کا استعمال کیا جا سکتا ہے، اور MIT لائسنس پروٹوکول پر آزادانہ استعمال کے لئے دستیاب ہیں۔ انفرنس کوڈ GitHub پر بھی موجود ہے۔ اعلٰى ڈیٹا ڈینسٹی اور تھوڑھے وقت میں انفرنس کا مجموعہ، انفرادی ڈوولپرز اور اکادمک برادری کے لئے بڑھتے ہوئے Diffusion Transformer ماڈلز کو لاگو کرنے اور دوبارہ بنانے کا راستہ آسان بناتا ہے۔ (ذرائع: BlockBeats)
مایکروسافٹ نے 3.8B ٹیکسٹ تو ایجیم ماڈل لینس کو اوپن سورس کر دیا ہے جس کا انفرنس 0.84 سیکنڈ ہے
KuCoinFlashبانٹیں






مایکروسافٹ نے 25 مئی کو اپنا 3.8 ارب پیرامیٹر ٹیکسٹ-ٹو-ایمیج مدل Lens کو CFT کے مطابق اوپن سورس کر دیا۔ یہ مدل 6 ارب سے زیادہ کی کارکردگی کے ساتھ ٹریننگ لاگت کو کم کرتا ہے۔ Lens-800M GPT-4.1 پرامپٹس استعمال کرتا ہے، جو اوسطاً 109 الفاظ پر مشتمل ہوتے ہیں۔ یہ 1:2 سے 2:1 تک کے تناسب اور 1440x1440 ریزولوشن کو سپورٹ کرتا ہے۔ Lens-Turbo 0.84 سیکنڈ میں 1024x1024 تصاویر جنریٹ کرتا ہے۔ وزن Hugging Face پر MIT لائسنس کے تحت دستیاب ہیں، جو MiCA معیارات کے مطابق ہیں۔
ذریعہ:اصل دکھائیں۔
اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔
ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔