Beating মনিটরিং-এর তথ্য অনুযায়ী, Tilde Research আবিষ্কার করেছে যে DeepSeek V4, Kimi K2.5, GLM-5 এর মতো শীর্ষস্থানীয় মডেলগুলি যে Muon অপ্টিমাইজার ব্যবহার করে, তাতে একটি গোপন ত্রুটি রয়েছে: এটি প্রশিক্ষণের প্রাথমিক পর্যায়ে MLP স্তরের চারটির একটিরও বেশি নিউরনকে চিরতরে মৃত করে দেয়। এই সমস্যার সমাধানে টিমটি Aurora নামক একটি বিকল্প অপ্টিমাইজার ডিজাইন করেছে এবং এটি ওপেন-সোর্স করেছে। 1.1B মডেলটি মাত্র 100B token-এর সাহায্যে HellaSwag, Winogrande ইত্যাদি ভাষা বুঝতে সক্ষমতা পরীক্ষায় 36T token-এ প্রশিক্ষিত Qwen3-1.7B-এর সমান পারফরম্যান্স দেখিয়েছে। সমস্যাটি Muon-এর MLPওয়েট ম্যাট্রিক্স প্রক্রিয়াকরণের একটি গাণিতিক বৈশিষ্ট্যের সঙ্গে সম্পর্কিত। প্রশিক্ষণের শুরুতে, কিছু নিউরন অপেক্ষাকৃত দুর্বল গ্রেডিয়েন্ট সংকেত পায়। AdamW-এর মতো ঐতিহ্যবাহী অপ্টিমাইজারগুলি প্রতিটি প্যারামিটারকে নরমালাইজ করে, এই পার্থক্যগুলি স্বয়ংক্রিয়ভাবে সমতলীকরণ করে; কিন্তু Muon-এর অরথোগোনালাইজেশন ধাপটি দুর্বল সংকেতগুলিকে অপরিবর্তিতভাবেই প্রবাহিত করে। দুর্বল নিউরনগুলির আপডেটগুলি ধীরেধীরেও দুর্বলই থেকেইয়া, তারা আরওবেশি 'নিঃশব্দ' (silent)হয়েপড়ে, 'শক্তিশালীদেরইআরওশক্তিশালী'হওয়া'একটি'অনন্ত'চক্র'গড়েউঠে। 500তমপদকে,চারটিরএকটিরওবেশি'নিউরন'বাস্তবিকভাবে'মৃত'হয়েগিয়েছে,যা'প্যারামিটার'ক্ষমতা'বৃথা'যাচ্ছে। আগের 'উন্নত'সংস্করণ NorMuon-এ,প্রতিটি'পঙক্তি'আপডেট'পরিমাণ'সমতল'করা'হয়েছিল,কিন্তু'এটি'আপডেট'ম্যাট্রিক্স'এর'অরথোগোনালিটি'ভঙ্গ'করেছিল—যা Muon-এর 'মূলসুবিধা',যা 'প্রতিটি'আপডেটকে'সবচেয়ে'দক্ষভাবে'পথচলা'সহজ'করত—এবং 'অপটিমাইজেশন'সঠিকতা'হারিয়েছিল। Aurora-এ, "আপডেট'সমতল"এবং"অরথোগোনালিটি"দুটিকেই"যৌথভাবে"সীমা"হিসাবে"নির্ধারণ"করা"হয়েছে,এবং"বাৎসরিক"পদক্ষেপ"দ্বারা"উভয়টি"একসঙ্গে"পূরণ"করা"হয়:উভয়"দিকই"সমতল"হওয়া"সহজ"হয়—প্রতিটি"নিউরন"সমান"শিক্ষণ"সুযোগ"পায়,"এবং"আপডেট"সঠিকতা"হারায়"না। অ-টিউনড Aurora-এ Muon-এর 6%মাত্রঅতিরিক্তগণনা"খরচ"আছে,এবং"এটি"সহজলভ্যভাবে"প্রতিস্থাপন"করা"যায়।modded-nanoGPTঅপটিমাইজডবেঞ্চমার্ক-এ, Aurora 3175পদক্ষেপ-এবর্তমানসবচেয়েভালোফলাফল"দখল"করছে। Aurora-এরসুবিধাMLP-এরপ্রস্থবৃদ্ধিরসঙ্গেসঙ্গেবড়হয়,এবংঅনুপাত(Scaling Factor)যতবড়হবে,উন্নতি(improvement)ওততবড়হবে। কোডএবং1.1Bপ্রি-ট্রইনডমডেলউভয়ইওপেন-সোর্সকরাহয়েছে।
অরোরা অপ্টিমাইজার Muon-এ 25% মৃত নিউরন কাটছে এবং ট্রেনিং দক্ষতা 100x বাড়াচ্ছে
MarsBitশেয়ার






টিল্ড রিসার্চ থেকে নতুন অপ্টিমাইজার Aurora, DeepSeek V4 এবং Kimi K2.5 এর মতো শীর্ষ মডেলগুলির দ্বারা ব্যবহৃত Muon টুলে 25% ডেড নিউরন কমিয়ে দেয়। ওপেন-সোর্স Aurora অপ্টিমাইজারটি ট্রেনিং দক্ষতা 100x বাড়ায়। 100B টোকেনে Aurora-এর সাহায্যে ট্রেন করা 1.1B মডেলটি 36T টোকেনে ট্রেন করা Qwen3-1.7B-এর সমান পারফরম্যান্স দেয়। এই অন-চেইন খবরটি মডেল অপ্টিমাইজেশনে একটি বড় পদক্ষেপ। Aurora আপডেটের ইউনিফর্মিটি এবং অর্থোগোনালিটির মধ্যে ভারসাম্য বজায় রাখে, যা শুধুমাত্র 6% ওভারহেড যোগ করে। এটি 이미 modded-nanoGPT অপ্টিমাইজেশনে একটি নতুন বেঞ্চমার্ক স্থাপন করেছে এবং 2025-এর জন্য শীর্ষ অল্টকয়েন খবর।
উৎস:আসল দেখান
দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না।
ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।