打破傳統大模型預訓練範式,清華 00 後校友王冠團隊再出新作:
他們利用分層循環模型(HRM)取代標準 Transformer,提出了超越 Scaling 的高效預訓練 HRM-Text。

論文連結:https://arxiv.org/abs/2605.20613
HRM-Text 僅使用比標準 baseline 模型少約 100–900 倍的訓練 token、96–432 倍的估計計算量,仍實現了可媲美 2B 至 7B 參數開源模型的性能表現。
同時,使用 1B 參數、40B 非重複 token,並以約 1500 美元的訓練成本,HRM-Text 便在主流基準測試中取得了如下成績:MMLU 60.7%、ARC-C 81.9%、DROP 82.2%、GSM8K 84.5%、MATH 56.2%。

圖|預訓練效率。
On this basis, they explicitly stated: structural priors and targeted training objectives can significantly lower the barrier to pre-training. This training approach makes it feasible to train foundational models from scratch.
HRM-Text 是如何設計的?
大語言模型(LLM)的預訓練,越來越依賴少數擁有充足算力和數據資源的機構。訓練一個有競爭力的基礎模型,往往需要數萬億 token、數千張 GPU,甚至上千萬美元的算力投入。
然而,當前的訓練模式效率不高,大量計算資源被消耗在提示詞、格式填充和網頁噪聲等無關 token 上,導致大量訓練算力並未直接服務於推理。
在這項工作中,研究團隊重新設計了架構和訓練目標,使 HRM-Text 的預訓練相對更為高效。
架構:採用雙時間尺度的分層循環模型,將計算拆分為慢速的 H 模組和快速的 L 模組。標準 Transformer 對每個 token 僅進行一次前向傳播,而 HRM 則會在同一個 token 上進行多輪遞歸更新。H 和 L 模組各自僅佔遞歸核心參數量的一半,整體計算量大致相當於對同一組參數進行 4 次遞歸展開,在不增加參數量的前提下提升了計算深度。
訓練目標:不再沿用標準的全文自迴歸預訓練,而是直接在指令-回應對上進行訓練,僅對回應部分計算損失,並配合 PrefixLM 掩碼,使指令部分進行雙向注意,回應部分按因果掩碼生成。

圖|HRM-Text 架構。
為提升遞歸訓練的穩定性,研究團隊引入了 MagicNorm 和 Warmup Deep Credit Assignment。
MagicNorm 是一種混合歸一化策略,利用截斷反向傳播(Truncated BPTT)下前向與反向計算深度的不對稱性,在模組內部採用 PreNorm,並在模組出口額外加入歸一化,從而提升深層遞歸訓練的穩定性。
Warmup Deep Credit Assignment 在訓練初期僅對最後 2 個遞迴步驟回傳梯度,隨後線性擴展至最後 5 步。這種訓練機制,能讓模型在較短的信用路徑上穩定收斂,再逐步引入更長的依賴關係。
效果怎麼樣?
實驗結果表明,HRM-Text 在架構效率、訓練目標和整體性能上都表現出明顯優勢。
1. 在固定訓練算力下,迴圈架構是否更有效
結果顯示,在 FLOPs 對齊條件下,HRM 1B 在大多數基準上優於 Transformer 1B、Transformer 3B、Looped Transformer 1B 和 RINS 1B;與 TRM 的對比也表明,HRM 的訓練更穩定。

圖|與 Transformer 模型的性能和穩定性比較。HRM 在所有規模下都保持了穩定的訓練動態,而 Transformer 模型在 10 億參數規模下出現了嚴重的不穩定。此外,在 0.6B 規模下,HRM 僅需比 Transformer 模型少 2 倍的計算量,就能在大多數基準上取得具有競爭力的表現。
2. 任務完成目標和 PrefixLM 是否有幫助
消融實驗顯示,在 FLOPs 對齊條件下,1B Transformer 的 MMLU 從標準自回歸的 40.55,依次提升至引入任務完成目標後的 47.72、加入 PrefixLM 後的 53.15,以及換成 HRM 架構後的 60.73。

圖|不同模型架構與訓練目標之間的性能比較
3. HRM-Text 與當代開放模型相比效率如何
HRM-Text 1B 在 MMLU、ARC-C、DROP、GSM8K 和 MATH 上分別達到 60.7、81.9、82.2、84.5 和 56.2。與訓練預算普遍更大的開放模型相比,它僅使用 400 億唯一 token 和 1B 參數,便進入了 2B 至 7B 開源模型的性能區間;所需訓練 token 最多減少 900 倍,算力開銷最多減少 432 倍。

圖|HRM-Text 1B 與同期全開源模型及開放權重模型的評測結果
4. 循環結構是否帶來了更大的有效深度
結果顯示,標準 Transformer 和迴圈 Transformer 在較淺層就趨於穩定,HRM 則在更深層仍保持更明顯的塊間表示變化、更低的餘弦相似度和更高的 logit lens KL 值。

圖|有效深度分析。

圖|逐層 Logit Lens KL 分析。
不足與未來方向
Although HRM-Text has demonstrated strong performance on inference-intensive tasks, this approach still has limitations and points to future research directions.
1. 走向“知識”與“推理”的解耦
目前,更廣泛的事實知識覆蓋仍更依賴模型規模與數據廣度。HRM-Text 僅在 400 億個唯一 token 上進行訓練,且顯式知識來源僅佔任務格式化混合數據的一部分。未來,研究人員需要將緊湊的推理核心與外部事實存儲分開設計,將知識廣度交由精選語料、檢索增強模塊或可學習記憶處理。
2. 自適應計算時間
HRM-Text 的循環調度帶來了更大的有效串行深度,但這也意味著模型在推理時需要執行固定數量的遞歸步驟。未來,一個值得探索的方向是引入自適應計算時間機制,使簡單樣本能夠更早停止計算,並將完整的循環預算保留給困難樣本,減少推理成本。
3. 現有的規模化驗證範圍仍然有限
目前的 scaling 實驗僅涵蓋了 3B 參數的 Transformer 對照組和 1B 參數的 HRM-Text。研究團隊表示,在更大模型規模下是否仍能保持類似的效率優勢,仍有待後續工作進一步驗證。
4. PrefixLM 與推理框架
目前,PrefixLM 在實際部署中仍面臨一定的工程實現限制。儘管它能夠運行在 vLLM 等標準文本生成推理框架上,但這要求框架在 prefill 階段支援自定義注意力遮罩。如果將其擴展至多輪對話場景,還需進一步設計 KV-cache 機制,既保證使用者片段內部保持雙向可見,也要確保助手端的生成過程繼續遵循因果約束。
更多技術細節,請參閱原論文。
本文來自微信公眾號「學術頭條」(ID:SciTouTiao),作者:夏千斯
