نیوکلیس-ایمیج کو 17 ارب پیرامیٹرز کے ساتھ اوپن سورس کر دیا گیا، ہر انفرینس کے لیے 2 ارب فعال

ME نیوز کے مطابق، 16 اپریل (UTC+8) کو، Beating کی نگرانی کے مطابق، Nucleus AI ٹیم نے Nucleus-Image نامی متن سے تصویر بنانے والا ماڈل جاری کیا ہے، جس کے وزن، تربیت کا کوڈ اور تربیتی ڈیٹا سیٹ سبھی Apache 2.0 لائسنس کے تحت مفت اور کھلے ہیں، جس کا تجارتی استعمال ممکن ہے۔ یہ ماڈل ایک اسپارس مکسچر آف ایکسپرٹس (MoE) ڈیفیوژن ٹرانسفارمر آرکیٹیکچر پر مبنی ہے، جس کے کل پیرامیٹرز 17B ہیں جو ہر لیئر میں 64 راؤٹنگ ایکسپرٹس پر تقسیم ہیں، جبکہ ہر انفرینس کے دوران صرف تقریباً 2B پیرامیٹرز فعال ہوتے ہیں، جس سے اس کا انفرینس لاگت اسی سائز کے ڈینس ماڈلز کے مقابلے میں کافی کم ہے۔ تین معیاری بینچ مارکس پر، Nucleus-Image بند ماڈلز کے سرفہرست ماڈلز کے برابر یا ان سے آگے نکل گیا: GenEval سکور 0.87، جو Qwen تصویر ماڈل کے برابر ہے، اور فضائی پوزیشن سب-سکور (0.85) تمام مقابلہ کرنے والے ماڈلز میں سب سے زیادہ ہے؛ DPG-Bench سکور 88.79، جو کل مجموعی طور پر پہلے نمبر پر ہے؛ OneIG-Bench سکور 0.522، جو گوگل Imagen4 (0.515) اور Recraft V3 (0.502) کو پار کرتا ہے۔ ان تمام کامیابیوں کو صرف پری-ٹریننگ سے حاصل کیا گیا ہے، بغیر DPO، رینفورسمنٹ لرننگ یا انسانی ترجیحات کے فائن ٹننگ کے۔ Nucleus AI نے اسے "اس معیار پر پہلا مکمل کھلا MoE ڈیفیوژن ماڈل" قرار دیا ہے۔ تربیت کا ڈیٹا ویب سے بڑے پیمانے پر حاصل کیا گیا، جس میں متعدد مرحلوں میں فلٹرنگ، ڈپلیکیٹ حذف اور خوبصورتی اسکورنگ کے بعد 700 ملین تصاویر برقرار رکھی گئیں، جن سے 1.5 بلین متن-تصویر جوڑے تخلیق کئے گئے؛ تربیت تین مراحل میں 256 سے 1024 رزلوشن تک آہستہ آہستہ آگے بڑھائی گئی، جس میں کل 1.7 ملین اسٹپس لگے۔ متن اینکوڈر Qwen3-VL-8B-Instruct استعمال کیا گیا، جسے diffusers لائبریری کے ذریعہ بلایا گیا اور اندر کروس-ڈینوائزنگ اسٹپس پر متن KV کینش بھی شامل کیا گیا، جس سے انفرینس لاگت مزید کم ہوئی۔ مقامی طور پر تصویر تخلیق کرنے والے ڈولپرز کے لئے، صرف 2B پیرامیٹرز فعال کرنے والے 17B پیرامیٹرز والے ڈि�زائن کا مطلب ہے کہ کنسومر لول GPU بھی اسے رن کرنے کا موقع رکھتی ہے۔ مکمل طور پر کھلا نظام (وزن + تربیت کا کوڈ + ڈیٹا سیٹ) نایاب ہے — زیادہ تر کھلے تصویر ماڈل صرف وزن شائع کرتے ہیں، جبکہ ڈیٹا سیٹ اور تربیت کا تفصیل بند رہتے ہیں، جو ون-ٹو-ایمج ماڈلنگ شعبے میں دوبارہ قابلِ تکرار تحقیق کا اہم رکاوٹ بن رہا ہے۔ (ذرائع: BlockBeats)