অরোরা অপ্টিমাইজার Muon-এ 25% মৃত নিউরন কাটছে এবং ট্রেনিং দক্ষতা 100x বাড়াচ্ছে

Beating মনিটরিং-এর তথ্য অনুযায়ী, Tilde Research আবিষ্কার করেছে যে DeepSeek V4, Kimi K2.5, GLM-5 এর মতো শীর্ষস্থানীয় মডেলগুলি যে Muon অপ্টিমাইজার ব্যবহার করে, তাতে একটি গোপন ত্রুটি রয়েছে: এটি প্রশিক্ষণের প্রাথমিক পর্যায়ে MLP স্তরের চারটির একটিরও বেশি নিউরনকে চিরতরে মৃত করে দেয়। এই সমস্যার সমাধানে টিমটি Aurora নামক একটি বিকল্প অপ্টিমাইজার ডিজাইন করেছে এবং এটি ওপেন-সোর্স করেছে। 1.1B মডেলটি মাত্র 100B token-এর সাহায্যে HellaSwag, Winogrande ইত্যাদি ভাষা বুঝতে সক্ষমতা পরীক্ষায় 36T token-এ প্রশিক্ষিত Qwen3-1.7B-এর সমান পারফরম্যান্স দেখিয়েছে। সমস্যাটি Muon-এর MLPওয়েট ম্যাট্রিক্স প্রক্রিয়াকরণের একটি গাণিতিক বৈশিষ্ট্যের সঙ্গে সম্পর্কিত। প্রশিক্ষণের শুরুতে, কিছু নিউরন অপেক্ষাকৃত দুর্বল গ্রেডিয়েন্ট সংকেত পায়। AdamW-এর মতো ঐতিহ্যবাহী অপ্টিমাইজারগুলি প্রতিটি প্যারামিটারকে নরমালাইজ করে, এই পার্থক্যগুলি স্বয়ংক্রিয়ভাবে সমতলীকরণ করে; কিন্তু Muon-এর অরথোগোনালাইজেশন ধাপটি দুর্বল সংকেতগুলিকে অপরিবর্তিতভাবেই প্রবাহিত করে। দুর্বল নিউরনগুলির আপডেটগুলি ধীরেধীরেও দুর্বলই থেকেইয়া, তারা আরওবেশি 'নিঃশব্দ' (silent)হয়েপড়ে, 'শক্তিশালীদেরইআরওশক্তিশালী'হওয়া'একটি'অনন্ত'চক্র'গড়েউঠে। 500তমপদকে,চারটিরএকটিরওবেশি'নিউরন'বাস্তবিকভাবে'মৃত'হয়েগিয়েছে,যা'প্যারামিটার'ক্ষমতা'বৃথা'যাচ্ছে। আগের 'উন্নত'সংস্করণ NorMuon-এ,প্রতিটি'পঙক্তি'আপডেট'পরিমাণ'সমতল'করা'হয়েছিল,কিন্তু'এটি'আপডেট'ম্যাট্রিক্স'এর'অরথোগোনালিটি'ভঙ্গ'করেছিল—যা Muon-এর 'মূলসুবিধা',যা 'প্রতিটি'আপডেটকে'সবচেয়ে'দক্ষভাবে'পথচলা'সহজ'করত—এবং 'অপটিমাইজেশন'সঠিকতা'হারিয়েছিল। Aurora-এ, "আপডেট'সমতল"এবং"অরথোগোনালিটি"দুটিকেই"যৌথভাবে"সীমা"হিসাবে"নির্ধারণ"করা"হয়েছে,এবং"বাৎসরিক"পদক্ষেপ"দ্বারা"উভয়টি"একসঙ্গে"পূরণ"করা"হয়:উভয়"দিকই"সমতল"হওয়া"সহজ"হয়—প্রতিটি"নিউরন"সমান"শিক্ষণ"সুযোগ"পায়,"এবং"আপডেট"সঠিকতা"হারায়"না। অ-টিউনড Aurora-এ Muon-এর 6%মাত্রঅতিরিক্তগণনা"খরচ"আছে,এবং"এটি"সহজলভ্যভাবে"প্রতিস্থাপন"করা"যায়।modded-nanoGPTঅপটিমাইজডবেঞ্চমার্ক-এ, Aurora 3175পদক্‍ষেপ-এবর্তমানসবচেয়েভালোফলাফল"দখল"করছে। Aurora-এরসুবিধাMLP-এরপ্রস্থবৃদ্ধিরসঙ্গেসঙ্গেবড়হয়,এবংঅনুপাত(Scaling Factor)যতবড়হবে,উন্নতি(improvement)ওততবড়হবে। কোডএবং1.1Bপ্রি-ট্রইনডমডেলউভয়ইওপেন-সোর্সকরাহয়েছে।