اورورا آپٹیمائزر نے میون میں مردہ نیورونز کو 25 فیصد کم کر دیا، ٹریننگ کی کارکردگی 100 گنا بڑھائی

Beating مانیٹرنگ کے مطابق، Tilde Research نے پایا کہ DeepSeek V4، Kimi K2.5، GLM-5 جیسے ٹاپ ماڈلز کے ذریعہ استعمال کیا جانے والا آپٹیمائزر Muon میں ایک پوشیدہ خامی ہے: یہ تربیت کے ابتدائی مراحل میں MLP لیئرز کے چھوٹے سے زیادہ نیورونز کو مستقل طور پر مار دیتا ہے۔ ٹیم نے اس کے مطابق ایک متبادل آپٹیمائزر Aurora ڈیزائن کیا اور اسے اوپن سورس کر دیا۔ ایک 1.1B ماڈل صرف تقریباً 100B ٹوکنز کے ساتھ، HellaSwag، Winogrande جیسے زبانی سمجھ کے معیارات پر 36T ٹوکنز سے تربیت یافتہ Qwen3-1.7B کے برابر پرفارم کر گیا۔ مسئلہ Muon کے MLP وزن میٹرکس کو سنبھالنے کے دوران ایک ریاضیاتی خصوصیت میں ہے۔ تربیت کے شروع میں، کچھ نیورونز صدف طور پر کمزور گریڈینٹ سگنلز حاصل کرتے ہیں۔ AdamW جیسے روایتی آپٹیمائزرز ہر پیرامیٹر کو الگ الگ نارملائز کرتے ہیں، جس سے یہ فرق خود بخود مساوی ہو جاتا ہے؛ لیکن Muon کا آرٹھوگونلائزیشن مرحلہ کمزور سگنلز کو بنا بدلے بھیج دیتا ہے۔ کمزور نیورونز لگاتار کمزور اپڈیٹس حاصل کرتے رہتے ہیں، جس سے وہ زیادہ خاموش ہوتے جاتے ہیں اور "طاقتورز طاقتور رہتے ہیں" کا ایک موت کا حلقوں بن جاتا ہے۔ تربیت کے 500ویں مرحلے تک، چھوٹے سے زیادہ نیورونز عملی طور پر مر چکے ہوتے ہیں، جس سے پیرامیٹر کا روزگار ضائع ہو جاتا ہے۔ پہلے کے بہتر شدہ ورژن NorMuon نے ہر لائن کے اپڈیٹ سائز کو مساوی بنانے سے مسئلہ حل کرنے کی کوشش کی، لیکن اس کا اثر یہ تھا کہ اپڈیٹ میٹرکس کی آرٹھوگونلٹی (جو Muon کا مرکزی فائدہ ہے، کیونکہ ہر اپڈیٹ کو زیادہ سے زیادہ موثر بناتی ہے) خراب ہو جاتی ہے، جس سے آپٹمائزنگ درستگی ختم ہو جاتی ہے۔ Aurora نے "اپڈیٹس مساوٹ" اور "آرٹھوگونلٹی" دونوں کو مشترکہ پابندیاں قرار دیا اور متناوب تکرار کے ذریعہ دونوں شرائط کو ادھورا پورا کرتا ہے: اس طرح ہر نیورون کو منصفانہ تعلیم کا موقع دینا ممکن ہوتا ہے، جبکہ اپڈیٹ درستگی محفوظ رہتی ہے۔ بغیر تھرملنگ والے Aurora کا حساباتی بوجھ صرف Muon سے 6% زائد ہے، اور اسے براہ راست استعمال کیا جا سکتا ہے۔ modded-nanoGPT آپٹمائزنگ اسکورنگ میں، Aurora نے 3175 اسٹپس پر موجودہ بہترین رکارڈ توڑ دیا۔ Aurora کا فائدہ MLP وسعت بڑھنے کے ساتھ بڑھتا جاتا ہے، جتنا زائد اسکالنگ فैکٹر ہوگا، اتنا زائد بہترین نتائج ملینگے۔ کوڈ اور 1.1B پر-ٹرینڈ ماڈل دونوں اوپن سورس ہو چکے ہیں۔