清華校友王冠的 HRM-Text 以 1/900 個 token 和 1/432 計算量達成 SOTA

打破傳統大模型預訓練範式，清華 00 後校友王冠團隊再出新作：

他們利用分層循環模型（HRM）取代標準 Transformer，提出了超越 Scaling 的高效預訓練 HRM-Text。

論文連結：https://arxiv.org/abs/2605.20613

HRM-Text 僅使用比標準 baseline 模型少約 100–900 倍的訓練 token、96–432 倍的估計計算量，仍實現了可媲美 2B 至 7B 參數開源模型的性能表現。

同時，使用 1B 參數、40B 非重複 token，並以約 1500 美元的訓練成本，HRM-Text 便在主流基準測試中取得了如下成績：MMLU 60.7%、ARC-C 81.9%、DROP 82.2%、GSM8K 84.5%、MATH 56.2%。

圖｜預訓練效率。

On this basis, they explicitly stated: structural priors and targeted training objectives can significantly lower the barrier to pre-training. This training approach makes it feasible to train foundational models from scratch.

HRM-Text 是如何設計的？

大語言模型（LLM）的預訓練，越來越依賴少數擁有充足算力和數據資源的機構。訓練一個有競爭力的基礎模型，往往需要數萬億 token、數千張 GPU，甚至上千萬美元的算力投入。

然而，當前的訓練模式效率不高，大量計算資源被消耗在提示詞、格式填充和網頁噪聲等無關 token 上，導致大量訓練算力並未直接服務於推理。

在這項工作中，研究團隊重新設計了架構和訓練目標，使 HRM-Text 的預訓練相對更為高效。

架構：採用雙時間尺度的分層循環模型，將計算拆分為慢速的 H 模組和快速的 L 模組。標準 Transformer 對每個 token 僅進行一次前向傳播，而 HRM 則會在同一個 token 上進行多輪遞歸更新。H 和 L 模組各自僅佔遞歸核心參數量的一半，整體計算量大致相當於對同一組參數進行 4 次遞歸展開，在不增加參數量的前提下提升了計算深度。

訓練目標：不再沿用標準的全文自迴歸預訓練，而是直接在指令-回應對上進行訓練，僅對回應部分計算損失，並配合 PrefixLM 掩碼，使指令部分進行雙向注意，回應部分按因果掩碼生成。

圖｜HRM-Text 架構。

為提升遞歸訓練的穩定性，研究團隊引入了 MagicNorm 和 Warmup Deep Credit Assignment。

MagicNorm 是一種混合歸一化策略，利用截斷反向傳播（Truncated BPTT）下前向與反向計算深度的不對稱性，在模組內部採用 PreNorm，並在模組出口額外加入歸一化，從而提升深層遞歸訓練的穩定性。

Warmup Deep Credit Assignment 在訓練初期僅對最後 2 個遞迴步驟回傳梯度，隨後線性擴展至最後 5 步。這種訓練機制，能讓模型在較短的信用路徑上穩定收斂，再逐步引入更長的依賴關係。

效果怎麼樣？

實驗結果表明，HRM-Text 在架構效率、訓練目標和整體性能上都表現出明顯優勢。

1. 在固定訓練算力下，迴圈架構是否更有效

結果顯示，在 FLOPs 對齊條件下，HRM 1B 在大多數基準上優於 Transformer 1B、Transformer 3B、Looped Transformer 1B 和 RINS 1B；與 TRM 的對比也表明，HRM 的訓練更穩定。

圖｜與 Transformer 模型的性能和穩定性比較。HRM 在所有規模下都保持了穩定的訓練動態，而 Transformer 模型在 10 億參數規模下出現了嚴重的不穩定。此外，在 0.6B 規模下，HRM 僅需比 Transformer 模型少 2 倍的計算量，就能在大多數基準上取得具有競爭力的表現。

2. 任務完成目標和 PrefixLM 是否有幫助

消融實驗顯示，在 FLOPs 對齊條件下，1B Transformer 的 MMLU 從標準自回歸的 40.55，依次提升至引入任務完成目標後的 47.72、加入 PrefixLM 後的 53.15，以及換成 HRM 架構後的 60.73。

圖｜不同模型架構與訓練目標之間的性能比較

3. HRM-Text 與當代開放模型相比效率如何

HRM-Text 1B 在 MMLU、ARC-C、DROP、GSM8K 和 MATH 上分別達到 60.7、81.9、82.2、84.5 和 56.2。與訓練預算普遍更大的開放模型相比，它僅使用 400 億唯一 token 和 1B 參數，便進入了 2B 至 7B 開源模型的性能區間；所需訓練 token 最多減少 900 倍，算力開銷最多減少 432 倍。

圖｜HRM-Text 1B 與同期全開源模型及開放權重模型的評測結果

4. 循環結構是否帶來了更大的有效深度

結果顯示，標準 Transformer 和迴圈 Transformer 在較淺層就趨於穩定，HRM 則在更深層仍保持更明顯的塊間表示變化、更低的餘弦相似度和更高的 logit lens KL 值。

圖｜有效深度分析。

圖｜逐層 Logit Lens KL 分析。

不足與未來方向

Although HRM-Text has demonstrated strong performance on inference-intensive tasks, this approach still has limitations and points to future research directions.

1. 走向“知識”與“推理”的解耦

目前，更廣泛的事實知識覆蓋仍更依賴模型規模與數據廣度。HRM-Text 僅在 400 億個唯一 token 上進行訓練，且顯式知識來源僅佔任務格式化混合數據的一部分。未來，研究人員需要將緊湊的推理核心與外部事實存儲分開設計，將知識廣度交由精選語料、檢索增強模塊或可學習記憶處理。

2. 自適應計算時間

HRM-Text 的循環調度帶來了更大的有效串行深度，但這也意味著模型在推理時需要執行固定數量的遞歸步驟。未來，一個值得探索的方向是引入自適應計算時間機制，使簡單樣本能夠更早停止計算，並將完整的循環預算保留給困難樣本，減少推理成本。

3. 現有的規模化驗證範圍仍然有限

目前的 scaling 實驗僅涵蓋了 3B 參數的 Transformer 對照組和 1B 參數的 HRM-Text。研究團隊表示，在更大模型規模下是否仍能保持類似的效率優勢，仍有待後續工作進一步驗證。

4. PrefixLM 與推理框架

目前，PrefixLM 在實際部署中仍面臨一定的工程實現限制。儘管它能夠運行在 vLLM 等標準文本生成推理框架上，但這要求框架在 prefill 階段支援自定義注意力遮罩。如果將其擴展至多輪對話場景，還需進一步設計 KV-cache 機制，既保證使用者片段內部保持雙向可見，也要確保助手端的生成過程繼續遵循因果約束。

更多技術細節，請參閱原論文。

本文來自微信公眾號「學術頭條」（ID：SciTouTiao），作者：夏千斯