يقلل مُحسّن Aurora من الخلايا العصبية الميتة بنسبة 25% في Muon، ويعزز كفاءة التدريب 100 مرة

وفقًا لمراقبة Beating، اكتشفت Tilde Research أن مُحسِّن Muon، الذي تستخدمه نماذج رائدة مثل DeepSeek V4 وKimi K2.5 وGLM-5، يحتوي على عيب خفي: فهو يتسبب في موت دائم لأكثر من ربع النيورونات في طبقات MLP في مراحل التدريب المبكرة. وبناءً على هذا الاكتشاف، طوّر الفريق مُحسِّنًا بديلاً يُسمى Aurora ونشره كمصدر مفتوح. حيث حقق نموذج بحجم 1.1B باستخدام حوالي 100B رمز فقط، أداءً مماثلًا لنموذج Qwen3-1.7B المدرب على 36T رمز، في معايير فهم اللغة مثل HellaSwag وWinogrande. المشكلة تكمن في خاصية رياضية معينة في معالجة Muon لمصفوفات أوزان MLP. في مراحل التدريب المبكرة، تتلقى بعض النيورونات إشارات تدرج ضعيفة بالصدفة. تعمل المُحسِّنات التقليدية مثل AdamW على تطبيع كل معلمة على حدة، مما يُساوي تلقائيًا هذه الاختلافات؛ لكن خطوة التقويم العمودي في Muon تنقل إشارات الضعف دون تغيير. وتستمر النيورونات الضعيفة في تلقي تحديثات ضعيفة، وتُصبح أكثر صمتًا، مما يخلق دورة مغلقة "الأقوى يصبح أقوى". بحلول الخطوة 500 من التدريب، يكون أكثر من ربع النيورونات قد ماتت فعليًا، مما يؤدي إلى هدر طاقات المعلمات. النسخة المحسنة السابقة NorMuon حاولت تخفيف هذه المشكلة من خلال فرض توحيد سعة التحديث لكل صف، لكنها دمرت خاصية التقويم العمودي لمصفوفة التحديث (والتي تجعل كل خطوة تحديث فعالة قدر الإمكان، وهي الميزة الأساسية لـ Muon)، مما أدى إلى فقدان دقة التحسين. أما Aurora فتضع "التحديث المتساوي" و"التوافق العمودي" كقيود مشتركة، وتستخدم التكرار البديل لتحقيق كليهما معًا: فهي تضمن فرصًا عادلة للتعلم لكل نيورون دون التضحية بدقة التحديث. Aurora غير المُضبط، لا يزيد تكلفته الحسابية عن 6% فقط مقارنة بـ Muon، ويمكن استبداله مباشرة. وفي اختبارات تحسين modded-nanoGPT، حطمت Aurora السجل الحالي بأقل من 3175 خطوة. كما أن مزايا Aurora تزداد مع زيادة عرض MLP، وكلما ارتفع معامل التوسع، زادت فعالية التحسن. تم نشر الكود ونموذج التدريب المسبق بحجم 1.1B كمصادر مفتوحة.