AIMPACT 消息,5 月 19 日(UTC+8),據動察 Beating 監測,Sapient Intelligence 開源了 10 億參數(1B)的文本生成基礎模型 HRM-Text。這是一款基於層級推理模型(HRM)架構的純預訓練模型。它透過在架構底層引入潛在空間推理,將基礎模型預訓練的算力消耗縮減了 130 至 600 倍。具體而言,HRM-Text 僅使用 400 億(40B)個結構化 Token 便完成了預訓練,資料量約為同級別常規模型的千分之一。官方實測顯示,使用兩台 8 卡 H100 伺服器,耗時約 46 小時即可從零訓完 1B 版本,計算成本約 1472 美元;而 0.6B 版本只需單節點跑 50 小時,硬體成本約 800 美元。包含資料提取、序列打包與 PyTorch 分布式訓練在內的完整工程框架均已同步開源。極限降本的支撐在於獨特的雙時間尺度循環(Dual-timescale recurrent)設計。模型內置了快(底層)與慢(高層)兩套 Transformer 模組。這兩套模組在同一批輸入上交替迭代,並透過狀態相加來交換資訊。這種設計允許模型在物理參數總量固定的前提下,透過增加循環次數來動態拓展計算深度。預訓練門檻的斷崖式下降,讓許多過去因算力昂貴而被擱置的模型理論,重新獲得了低成本驗證的機會。需要特別注意的是,本次釋放的僅為未對齊的純預訓練權重,模型只能執行前綴續寫任務,無法直接作為問答助手使用。(來源:BlockBeats)
Sapient 開源 10 億參數 HRM-Text 模型,訓練成本降低 1,300 倍
KuCoinFlash分享






Sapient Intelligence 於 5 月 19 日(UTC+8)發布鏈上新聞,開源了 HRM-Text,這是一個擁有 10 億參數、採用層級推理架構的文本模型。該模型透過潛在空間推理,將預訓練成本降低 130 至 600 倍。模型在 400 億個結構化標記上進行訓練,僅為類似模型所用數據的一小部分。10 億參數版本可在兩台 8-GPU H100 伺服器上,以 46 小時、1,472 美元完成訓練;0.6 億參數版本成本為 800 美元。完整的工程框架,包括資料提取與 PyTorch 訓練,亦已開源。通貨膨脹資料與訓練效率是此次發布的重點亮點。
來源:顯示原文
免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。
虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款和風險披露 。