Sapient 開源 10 億參數 HRM-Text 模型，訓練成本降低 1,300 倍

AIMPACT 消息，5 月 19 日（UTC+8），據動察 Beating 監測，Sapient Intelligence 開源了 10 億參數（1B）的文本生成基礎模型 HRM-Text。這是一款基於層級推理模型（HRM）架構的純預訓練模型。它透過在架構底層引入潛在空間推理，將基礎模型預訓練的算力消耗縮減了 130 至 600 倍。具體而言，HRM-Text 僅使用 400 億（40B）個結構化 Token 便完成了預訓練，資料量約為同級別常規模型的千分之一。官方實測顯示，使用兩台 8 卡 H100 伺服器，耗時約 46 小時即可從零訓完 1B 版本，計算成本約 1472 美元；而 0.6B 版本只需單節點跑 50 小時，硬體成本約 800 美元。包含資料提取、序列打包與 PyTorch 分布式訓練在內的完整工程框架均已同步開源。極限降本的支撐在於獨特的雙時間尺度循環（Dual-timescale recurrent）設計。模型內置了快（底層）與慢（高層）兩套 Transformer 模組。這兩套模組在同一批輸入上交替迭代，並透過狀態相加來交換資訊。這種設計允許模型在物理參數總量固定的前提下，透過增加循環次數來動態拓展計算深度。預訓練門檻的斷崖式下降，讓許多過去因算力昂貴而被擱置的模型理論，重新獲得了低成本驗證的機會。需要特別注意的是，本次釋放的僅為未對齊的純預訓練權重，模型只能執行前綴續寫任務，無法直接作為問答助手使用。（來源：BlockBeats）