Aurora OptimizerがMuonで不活性ニューロンを25%削減し、学習効率を100倍向上

動察 Beating の監視によると、Tilde Research は、DeepSeek V4、Kimi K2.5、GLM-5 などの主要モデルで採用されている最適化アルゴリズム Muon に隠された欠陥があることを発見しました。それは、訓練初期に MLP 層の神経元の4分の1以上が永続的に死滅してしまうというものです。この発見を踏まえ、チームは代替最適化アルゴリズム Aurora を設計し、オープンソース化しました。1.1B パラメータのモデルが約100Bトークンだけで、HellaSwag や Winogrande などの言語理解ベンチマークで、36Tトークンで訓練された Qwen3-1.7B と同等の性能を発揮しました。この問題は、Muon が MLP の重み行列を処理する際に生じる数学的特性に起因します。訓練初期に、一部の神経元が偶然弱い勾配信号を受け取ります。AdamW などの従来の最適化アルゴリズムはパラメータごとに正規化を行うため、この差異を自然に平準化しますが、Muon の直交化ステップは弱い信号をそのまま伝達します。弱い神経元は継続的に弱い更新を受け、ますます沈黙し、「強者恒強」の悪循環が形成されます。訓練500ステップ時点で、既に4分の1以上の神経元が実質的に死滅し、パラメータ容量が無駄になります。以前の改良版 NorMuon は、各更新行の大きさを強制的に平準化することでこの問題を緩和しましたが、その代償として更新行列の直交性が損なわれました（直交化は各ステップの更新を可能な限り効率的にするため、Muon の核心的利点です），結果として最適化精度が低下しました。Aurora は「更新の均一性」と「直交性」を共同制約として設定し、交互反復法で両方を同時に満たします。これにより、各神経元に公平な学習機会を提供しつつ、更新精度を犠牲にすることなく実現します。パラメータ調整されていない Aurora は Muon より計算オーバーヘッドがわずか6%増加するだけで、直接置き換え可能です。modded-nanoGPT の最適化ベンチマークでは、Aurora は3175ステップで現在の最良記録を更新しました。Aurora の利点は MLP の幅が広くなるほど顕著になり、拡張係数が高いほど改善効果が明確になります。コードと1.1Bの事前学習モデルはすでにオープンソース化されています。