動察 Beating の監視によると、Tilde Research は、DeepSeek V4、Kimi K2.5、GLM-5 などの主要モデルで採用されている最適化アルゴリズム Muon に隠された欠陥があることを発見しました。それは、訓練初期に MLP 層の神経元の4分の1以上が永続的に死滅してしまうというものです。この発見を踏まえ、チームは代替最適化アルゴリズム Aurora を設計し、オープンソース化しました。1.1B パラメータのモデルが約100Bトークンだけで、HellaSwag や Winogrande などの言語理解ベンチマークで、36Tトークンで訓練された Qwen3-1.7B と同等の性能を発揮しました。 この問題は、Muon が MLP の重み行列を処理する際に生じる数学的特性に起因します。訓練初期に、一部の神経元が偶然弱い勾配信号を受け取ります。AdamW などの従来の最適化アルゴリズムはパラメータごとに正規化を行うため、この差異を自然に平準化しますが、Muon の直交化ステップは弱い信号をそのまま伝達します。弱い神経元は継続的に弱い更新を受け、ますます沈黙し、「強者恒強」の悪循環が形成されます。訓練500ステップ時点で、既に4分の1以上の神経元が実質的に死滅し、パラメータ容量が無駄になります。 以前の改良版 NorMuon は、各更新行の大きさを強制的に平準化することでこの問題を緩和しましたが、その代償として更新行列の直交性が損なわれました(直交化は各ステップの更新を可能な限り効率的にするため、Muon の核心的利点です),結果として最適化精度が低下しました。Aurora は「更新の均一性」と「直交性」を共同制約として設定し、交互反復法で両方を同時に満たします。これにより、各神経元に公平な学習機会を提供しつつ、更新精度を犠牲にすることなく実現します。 パラメータ調整されていない Aurora は Muon より計算オーバーヘッドがわずか6%増加するだけで、直接置き換え可能です。modded-nanoGPT の最適化ベンチマークでは、Aurora は3175ステップで現在の最良記録を更新しました。Aurora の利点は MLP の幅が広くなるほど顕著になり、拡張係数が高いほど改善効果が明確になります。 コードと1.1Bの事前学習モデルはすでにオープンソース化されています。
Aurora OptimizerがMuonで不活性ニューロンを25%削減し、学習効率を100倍向上
MarsBit共有






Tilde Researchが開発した新しいオプティマイザーAuroraは、DeepSeek V4やKimi K2.5などのトップモデルで使用されるツールMuonにおいて、不活性ニューロンを25%削減します。オープンソースのAuroraオプティマイザーは、トレーニング効率を100倍向上させます。100BトークンでAuroraを用いてトレーニングされた1.1Bモデルは、36TトークンでトレーニングされたQwen3-1.7Bと同等の性能を発揮します。このオンチェーンニュースは、モデル最適化における大きな進歩を示しています。Auroraは更新の一貫性と直交性をバランスよく実現し、オーバーヘッドはわずか6%です。すでにmodded-nanoGPTの最適化で新たなベンチマークを樹立しており、2025年の注目アルトコインニュースの一つとなっています。
出典:原文を表示
免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。
デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。