Sapient、トレーニングコストを1,300倍削減した10億パラメーターHRM-Textモデルをオープンソース化

iconKuCoinFlash
共有
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon概要

expand icon
Sapient Intelligenceは5月19日(UTC+8)にオンチェーンニュースを公開し、階層的推論アーキテクチャを備えた10億パラメータのテキストモデル「HRM-Text」をオープンソース化しました。このモデルは潜在空間推論を活用し、事前学習コストを130〜600倍削減します。400億の構造化トークンで学習され、同様のモデルに比べて使用データ量はごく一部です。10億バージョンは、2台の8-GPU H100サーバーを使用して46時間で$1,472で学習可能です。0.6億バージョンのコストは$800です。データ抽出およびPyTorch学習を含む完全なエンジニアリングフレームワークもオープンソース化されています。本リリースの主な注目点はインフレーションデータと学習効率です。

AIMPACT ニュース、5月19日(UTC+8)、Beatingの監視によると、Sapient Intelligenceは10億パラメータ(1B)のテキスト生成基礎モデル「HRM-Text」をオープンソース化しました。これは階層的推論モデル(HRM)アーキテクチャに基づく純粋なプリトレーニングモデルであり、アーキテクチャの下層に潜在空間推論を導入することで、基礎モデルのプリトレーニングに必要な計算リソースを130〜600倍削減しました。具体的には、HRM-Textは400億(40B)個の構造化トークンのみでプリトレーニングを完了し、データ量は同レベルの従来モデルの約千分の一です。公式テストでは、8枚のH100 GPUを搭載したサーバー2台を使用して、約46時間で1Bバージョンをゼロからトレーニングでき、計算コストは約1,472ドルでした。0.6Bバージョンは単一ノードで50時間のトレーニングが必要で、ハードウェアコストは約800ドルです。データ抽出、シーケンスパッキング、PyTorch分散トレーニングを含む完全なエンジニアリングフレームワークも同時にオープンソース化されました。この極限的なコスト削減は、独自のデュアルタイムスケールリカレント設計によって実現されています。モデルには高速(低層)と低速(高層)の2つのTransformerモジュールが内蔵されており、これらは同じ入力に対して交互に反復し、状態を加算することで情報を交換します。この設計により、物理的なパラメータ総数を固定したまま、反復回数を増やすことで計算深度を動的に拡張できます。プリトレーニングのハードルが急激に低下したことで、これまで計算コストの高さにより見送られていた多くのモデル理論が、低コストで検証される機会を得ました。特に注意すべき点は、今回公開されたのはアラインメントされていない純粋なプリトレーニング重みであり、モデルはプレフィックス継承タスクのみを実行可能で、直接QAアシスタントとして使用することはできません。(出典:BlockBeats)

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。