清華大学の卒業生である王観のHRM-Textは、トークンを1/900、計算リソースを1/432でSOTAを達成

従来の大規模モデルの事前学習パラダイムを打破、清華大学の00年代卒業生・王冠チームが新作を発表：

彼らは、標準的なTransformerに代えて階層的循環モデル（HRM）を採用し、スケーリングを超える効率的な事前学習モデルHRM-Textを提案しました。

清华大学

論文リンク：https://arxiv.org/abs/2605.20613

HRM-Textは、標準的なbaselineモデルよりも約100〜900倍少ないトレーニングトークン、96〜432倍少ない推定計算量で、2B〜7Bパラメータのオープンソースモデルと同等のパフォーマンスを実現しています。

また、1Bのパラメータ、40Bの非重複トークンを使用し、約1500ドルのトレーニングコストで、HRM-Textは主要なベンチマークテストで以下の成績を収めました：MMLU 60.7%、ARC-C 81.9%、DROP 82.2%、GSM8K 84.5%、MATH 56.2%。

清华大学

図｜事前学習の効率。

その上で、彼らは明確に述べている：構造的先験とターゲットを絞った学習目標により、事前学習のハードルを大幅に低下させることができる。この学習手法により、ゼロから基礎モデルを学習することが可能になる。

HRM-Textはどのように設計されていますか？

大規模言語モデル（LLM）の事前学習は、十分な計算能力とデータリソースを有する少数の機関にますます依存している。競争力のあるベースモデルを訓練するには、数兆トークン、数千枚のGPU、さらには千万ドル単位の計算リソースが必要である。

しかし、現在のトレーニングモードは効率が低く、大量の計算リソースがプロンプト、フォーマットの埋め込み、ウェブページのノイズなどの無関係なトークンに消費され、多くのトレーニング計算能力が推論に直接貢献していません。

この研究では、チームがアーキテクチャと学習目標を再設計し、HRM-Textの事前学習をより効率的にしました。

アーキテクチャ：二重時間スケールの階層的ループモデルを採用し、計算を遅いHモジュールと速いLモジュールに分割します。標準的なTransformerは各トークンに対して1回のフォワードプロパゲーションのみを行いますが、HRMは同じトークンに対して複数回の再帰的更新を行います。HモジュールとLモジュールはそれぞれ再帰的コアパラメータの半分を占め、全体の計算量は同じパラメータセットに対して約4回の再帰的展開を行うのと同等です。パラメータ数を増やさずに計算の深さを向上させます。

訓練目標：従来の全文自己回帰事前学習を継続せず、指示-回答ペアに対して直接学習し、回答部分のみに損失を計算する。また、PrefixLMマスクを併用して、指示部分は双方向注意、回答部分は因果マスクにより生成させる。

清华大学

図｜HRM-Text アーキテクチャ。

再帰学習の安定性を向上させるため、研究チームはMagicNormとWarmup Deep Credit Assignmentを導入しました。

MagicNormは、截断逆伝播（Truncated BPTT）における前方計算と後方計算の深さの非対称性を活用したハイブリッド正規化戦略であり、モジュール内部ではPreNormを採用し、モジュール出口に追加の正規化を導入することで、深層再帰学習の安定性を向上させます。

Warmup Deep Credit Assignment は、訓練初期に最後の2つの再帰ステップのみに勾配を伝搬し、その後線形に最後の5ステップまで拡張します。この訓練メカニズムにより、モデルは短い信用パス上で安定して収束し、徐々により長い依存関係を導入できます。

効果はいかがですか？

実験結果によると、HRM-Textはアーキテクチャの効率、学習目標、および全体的なパフォーマンスにおいて顕著な優位性を示しています。

固定トレーニング算力下で、ループアーキテクチャはより効果的か

FLOPsを整えた条件下で、HRM 1Bは、Transformer 1B、Transformer 3B、Looped Transformer 1B、およびRINS 1Bよりもほとんどのベンチマークで優れており、TRMとの比較からも、HRMの訓練がより安定していることが示された。

清华大学

図｜Transformerモデルとの性能と安定性の比較。HRMはすべてのスケールで安定したトレーニングダイナミクスを維持したのに対し、Transformerモデルは10億パラメータ規模で深刻な不安定性が発生した。さらに、0.6Bスケールでは、HRMはTransformerモデルの計算量の半分で、ほとんどのベンチマークにおいて競争力のあるパフォーマンスを達成した。

2. タスク達成目標とPrefixLMは役立つか

FLOPsをアラインメントした条件下での消去実験では、1B TransformerのMMLUスコアが、標準的な自己回帰モデルの40.55から、タスク完了目標の導入により47.72へ、PrefixLMの追加により53.15へ、そしてHRMアーキテクチャへの変更により60.73へと段階的に向上しました。

清华大学

図｜異なるモデルアーキテクチャとトレーニング目標間のパフォーマンス比較

3.HRM-Textは、現代のオープンモデルと比較してどの程度効率的ですか？

HRM-Text 1Bは、MMLU、ARC-C、DROP、GSM8K、MATHでそれぞれ60.7、81.9、82.2、84.5、56.2を達成した。より大きなトレーニング予算を要する他のオープンモデルと比較して、このモデルは400億のユニークトークンと1Bのパラメータのみで、2B～7Bのオープンモデルの性能範囲に達した。必要なトークン数は最大で900倍少なく、計算リソースの消費は最大で432倍削減された。

清华大学

図｜HRM-Text 1B と同期の全オープンソースモデルおよびオープンウェイトモデルの評価結果

4. サイクル構造はより大きな有効深度をもたらしたか

結果、標準TransformerとLooped Transformerは浅い層で安定化するのに対し、HRMはより深い層でもブロック間の表現変化が明確に保たれ、コサイン類似度が低く、logit lens KL値が高い。

清华大学

図｜有効深度分析。

清华大学

図｜段階的なLogit Lens KL分析。

不足と今後の方向性

HRM-Textは推論集約型タスクで優れた性能を発揮しましたが、この手法には依然として限界があり、今後の研究方向を示しています。

1. 「知識」と「推論」の分離へ

現在、より広範な事実知識のカバーは、モデルの規模とデータの広さに依然として大きく依存している。HRM-Textは400億のユニークトークンでのみ学習されており、明示的な知識ソースはタスクフォーマットの混合データの一部に過ぎない。今後、研究者はコンパクトな推論コアと外部事実ストレージを分離して設計し、知識の広さを精選されたコーパス、検索強化モジュール、または学習可能なメモリに委ねる必要がある。

2. アダプティブ計算時間

HRM-Textの循環スケジューリングはより大きな有効逐次深度をもたらすが、これはモデルが推論時に固定数の再帰ステップを実行することを意味する。今後の課題として、適応的計算時間メカニズムを導入し、簡単なサンプルは早期に計算を停止させ、複雑なサンプルにのみ循環予算を割り当てるという方向性が值得探索である。

3. 現在の規模化検証範囲は依然として限定的です

現在のスケーリング実験は、3BパラメータのTransformer対照群と1BパラメータのHRM-Textに限定されています。研究チームは、より大規模なモデルにおいても同様の効率性の優位性が維持されるかどうかは、今後の研究でさらに検証される必要があると述べています。

4. PrefixLM と推論フレームワーク

現在、PrefixLMは実際のデプロイにおいて依然としていくつかのエンジニアリング的制約に直面しています。vLLMなどの標準的なテキスト生成推論フレームワーク上で動作することは可能ですが、これはprefill段階でカスタムアテンションマスクをサポートすることを要します。マルチラウンド対話シナリオに拡張する場合、ユーザーのセグメント内では双向性を維持しつつ、アシスタント側の生成プロセスが因果制約を引き続き遵守するように、KVキャッシュメカニズムをさらに設計する必要があります。

より詳細な技術情報については、元の論文をご参照ください。

本文は微信公众号「学術头条」（ID：SciTouTiao）より、著者：夏千斯