وفقًا لمراقبة Beating، اكتشفت Tilde Research أن مُحسِّن Muon، الذي تستخدمه نماذج رائدة مثل DeepSeek V4 وKimi K2.5 وGLM-5، يحتوي على عيب خفي: فهو يتسبب في موت دائم لأكثر من ربع النيورونات في طبقات MLP في مراحل التدريب المبكرة. وبناءً على هذا الاكتشاف، طوّر الفريق مُحسِّنًا بديلاً يُسمى Aurora ونشره كمصدر مفتوح. حيث حقق نموذج بحجم 1.1B باستخدام حوالي 100B رمز فقط، أداءً مماثلًا لنموذج Qwen3-1.7B المدرب على 36T رمز، في معايير فهم اللغة مثل HellaSwag وWinogrande. المشكلة تكمن في خاصية رياضية معينة في معالجة Muon لمصفوفات أوزان MLP. في مراحل التدريب المبكرة، تتلقى بعض النيورونات إشارات تدرج ضعيفة بالصدفة. تعمل المُحسِّنات التقليدية مثل AdamW على تطبيع كل معلمة على حدة، مما يُساوي تلقائيًا هذه الاختلافات؛ لكن خطوة التقويم العمودي في Muon تنقل إشارات الضعف دون تغيير. وتستمر النيورونات الضعيفة في تلقي تحديثات ضعيفة، وتُصبح أكثر صمتًا، مما يخلق دورة مغلقة "الأقوى يصبح أقوى". بحلول الخطوة 500 من التدريب، يكون أكثر من ربع النيورونات قد ماتت فعليًا، مما يؤدي إلى هدر طاقات المعلمات. النسخة المحسنة السابقة NorMuon حاولت تخفيف هذه المشكلة من خلال فرض توحيد سعة التحديث لكل صف، لكنها دمرت خاصية التقويم العمودي لمصفوفة التحديث (والتي تجعل كل خطوة تحديث فعالة قدر الإمكان، وهي الميزة الأساسية لـ Muon)، مما أدى إلى فقدان دقة التحسين. أما Aurora فتضع "التحديث المتساوي" و"التوافق العمودي" كقيود مشتركة، وتستخدم التكرار البديل لتحقيق كليهما معًا: فهي تضمن فرصًا عادلة للتعلم لكل نيورون دون التضحية بدقة التحديث. Aurora غير المُضبط، لا يزيد تكلفته الحسابية عن 6% فقط مقارنة بـ Muon، ويمكن استبداله مباشرة. وفي اختبارات تحسين modded-nanoGPT، حطمت Aurora السجل الحالي بأقل من 3175 خطوة. كما أن مزايا Aurora تزداد مع زيادة عرض MLP، وكلما ارتفع معامل التوسع، زادت فعالية التحسن. تم نشر الكود ونموذج التدريب المسبق بحجم 1.1B كمصادر مفتوحة.
يقلل مُحسّن Aurora من الخلايا العصبية الميتة بنسبة 25% في Muon، ويعزز كفاءة التدريب 100 مرة
MarsBitمشاركة






أورورا، مُحسّن جديد من Tilde Research، يقلل الخلايا العصبية الميتة بنسبة 25% في Muon، أداة تُستخدم من قبل نماذج رائدة مثل DeepSeek V4 وKimi K2.5. يُحسّن المُحسّن المفتوح المصدر أورورا كفاءة التدريب بمقدار 100 مرة. نموذج بحجم 1.1 مليار مُدرّب على 100 مليار رمز باستخدام أورورا يُحقق أداءً مماثلًا لنموذج Qwen3-1.7B المُدرّب على 36 تريليون رمز. هذه الأخبار على السلسلة تمثل خطوة كبيرة إلى الأمام في تحسين النماذج. توازن أورورا بين توحيد التحديثات والتعامد، مع إضافة عبء إضافي يبلغ 6% فقط. وقد حطّمت بالفعل معيارًا جديدًا في تحسين modded-nanoGPT، وهي واحدة من أهم قصص العملات البديلة لعام 2025.
المصدر:عرض النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات.
يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.