Sapient、トレーニングコストを1,300倍削減した10億パラメーターHRM-Textモデルをオープンソース化

AIMPACT ニュース、5月19日（UTC+8）、Beatingの監視によると、Sapient Intelligenceは10億パラメータ（1B）のテキスト生成基礎モデル「HRM-Text」をオープンソース化しました。これは階層的推論モデル（HRM）アーキテクチャに基づく純粋なプリトレーニングモデルであり、アーキテクチャの下層に潜在空間推論を導入することで、基礎モデルのプリトレーニングに必要な計算リソースを130〜600倍削減しました。具体的には、HRM-Textは400億（40B）個の構造化トークンのみでプリトレーニングを完了し、データ量は同レベルの従来モデルの約千分の一です。公式テストでは、8枚のH100 GPUを搭載したサーバー2台を使用して、約46時間で1Bバージョンをゼロからトレーニングでき、計算コストは約1,472ドルでした。0.6Bバージョンは単一ノードで50時間のトレーニングが必要で、ハードウェアコストは約800ドルです。データ抽出、シーケンスパッキング、PyTorch分散トレーニングを含む完全なエンジニアリングフレームワークも同時にオープンソース化されました。この極限的なコスト削減は、独自のデュアルタイムスケールリカレント設計によって実現されています。モデルには高速（低層）と低速（高層）の2つのTransformerモジュールが内蔵されており、これらは同じ入力に対して交互に反復し、状態を加算することで情報を交換します。この設計により、物理的なパラメータ総数を固定したまま、反復回数を増やすことで計算深度を動的に拡張できます。プリトレーニングのハードルが急激に低下したことで、これまで計算コストの高さにより見送られていた多くのモデル理論が、低コストで検証される機会を得ました。特に注意すべき点は、今回公開されたのはアラインメントされていない純粋なプリトレーニング重みであり、モデルはプレフィックス継承タスクのみを実行可能で、直接QAアシスタントとして使用することはできません。（出典：BlockBeats）