اورورا آپٹیمائزر نے میون میں مردہ نیورونز کو 25 فیصد کم کر دیا، ٹریننگ کی کارکردگی 100 گنا بڑھائی

icon MarsBit
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
اورورا، جو Tilde Research کا ایک نیا آپٹیمائزر ہے، Muon نامی ایک ٹول میں مرنے والے نیورونز کو 25 فیصد تک کم کر دیتا ہے، جس کا استعمال DeepSeek V4 اور Kimi K2.5 جیسے بہترین ماڈلز کرتے ہیں۔ اوپن سورس اورورا آپٹیمائزر تربیت کی کارکردگی کو 100 گنا بڑھاتا ہے۔ 1.1B ماڈل جسے 100B ٹوکنز پر اورورا کے ساتھ تربیت دی گئی، وہ Qwen3-1.7B ماڈل کے برابر ہے جسے 36T ٹوکنز پر تربیت دی گئی۔ یہ آن-چین خبر ماڈل آپٹیمائزیشن میں ایک بڑا قدم ہے۔ اورورا اپڈیٹ یونیفارمٹی اور آرٿوگونلٹی کو متوازن کرتا ہے اور صرف 6 فیصد اوورہیڈ شامل کرتا ہے۔ یہ پہلے ہی مودڈ-نانوGPT آپٹیمائزیشن میں ایک نیا بینچ مارک قائم کر چکا ہے اور 2025 کے لیے ایک بڑی آلٹ کوائن خبر ہے۔

Beating مانیٹرنگ کے مطابق، Tilde Research نے پایا کہ DeepSeek V4، Kimi K2.5، GLM-5 جیسے ٹاپ ماڈلز کے ذریعہ استعمال کیا جانے والا آپٹیمائزر Muon میں ایک پوشیدہ خامی ہے: یہ تربیت کے ابتدائی مراحل میں MLP لیئرز کے چھوٹے سے زیادہ نیورونز کو مستقل طور پر مار دیتا ہے۔ ٹیم نے اس کے مطابق ایک متبادل آپٹیمائزر Aurora ڈیزائن کیا اور اسے اوپن سورس کر دیا۔ ایک 1.1B ماڈل صرف تقریباً 100B ٹوکنز کے ساتھ، HellaSwag، Winogrande جیسے زبانی سمجھ کے معیارات پر 36T ٹوکنز سے تربیت یافتہ Qwen3-1.7B کے برابر پرفارم کر گیا۔ مسئلہ Muon کے MLP وزن میٹرکس کو سنبھالنے کے دوران ایک ریاضیاتی خصوصیت میں ہے۔ تربیت کے شروع میں، کچھ نیورونز صدف طور پر کمزور گریڈینٹ سگنلز حاصل کرتے ہیں۔ AdamW جیسے روایتی آپٹیمائزرز ہر پیرامیٹر کو الگ الگ نارملائز کرتے ہیں، جس سے یہ فرق خود بخود مساوی ہو جاتا ہے؛ لیکن Muon کا آرٹھوگونلائزیشن مرحلہ کمزور سگنلز کو بنا بدلے بھیج دیتا ہے۔ کمزور نیورونز لگاتار کمزور اپڈیٹس حاصل کرتے رہتے ہیں، جس سے وہ زیادہ خاموش ہوتے جاتے ہیں اور "طاقتورز طاقتور رہتے ہیں" کا ایک موت کا حلقوں بن جاتا ہے۔ تربیت کے 500ویں مرحلے تک، چھوٹے سے زیادہ نیورونز عملی طور پر مر چکے ہوتے ہیں، جس سے پیرامیٹر کا روزگار ضائع ہو جاتا ہے۔ پہلے کے بہتر شدہ ورژن NorMuon نے ہر لائن کے اپڈیٹ سائز کو مساوی بنانے سے مسئلہ حل کرنے کی کوشش کی، لیکن اس کا اثر یہ تھا کہ اپڈیٹ میٹرکس کی آرٹھوگونلٹی (جو Muon کا مرکزی فائدہ ہے، کیونکہ ہر اپڈیٹ کو زیادہ سے زیادہ موثر بناتی ہے) خراب ہو جاتی ہے، جس سے آپٹمائزنگ درستگی ختم ہو جاتی ہے۔ Aurora نے "اپڈیٹس مساوٹ" اور "آرٹھوگونلٹی" دونوں کو مشترکہ پابندیاں قرار دیا اور متناوب تکرار کے ذریعہ دونوں شرائط کو ادھورا پورا کرتا ہے: اس طرح ہر نیورون کو منصفانہ تعلیم کا موقع دینا ممکن ہوتا ہے، جبکہ اپڈیٹ درستگی محفوظ رہتی ہے۔ بغیر تھرملنگ والے Aurora کا حساباتی بوجھ صرف Muon سے 6% زائد ہے، اور اسے براہ راست استعمال کیا جا سکتا ہے۔ modded-nanoGPT آپٹمائزنگ اسکورنگ میں، Aurora نے 3175 اسٹپس پر موجودہ بہترین رکارڈ توڑ دیا۔ Aurora کا فائدہ MLP وسعت بڑھنے کے ساتھ بڑھتا جاتا ہے، جتنا زائد اسکالنگ فैکٹر ہوگا، اتنا زائد بہترین نتائج ملینگے۔ کوڈ اور 1.1B پر-ٹرینڈ ماڈل دونوں اوپن سورس ہو چکے ہیں۔

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔