AIMPACT メッセージ:5月16日(UTC+8)、Beating監視によると、Nous Researchは長コンテキスト事前学習メカニズム「Lighthouse Attention」をオープンソース化しました。B200 GPU1枚で512Kの長さのテキストを処理する際、この手法は従来のメカニズムと比較して計算速度が約17倍速く、98Kの長さではエンドツーエンドの学習速度が1.4~1.7倍向上しました。従来のアテンションメカニズムはすべての単語間のペア関係を計算する必要があり、テキストが長くなるほど計算リソースが平方級に増加します。Lighthouse Attentionは、まず粗くスクリーニングしてから精密に計算するアプローチを採用しています。異なる階層でテキストの圧縮要約を素早く閲覧し、スコアリングによってコアな断片を抽出して短いテキストを構成し、その後既存の効率的な演算子であるFlashAttentionに直接処理させます。スクリーニングロジックがカーネル外部に完全に分離されているため、開発者は低レベルコードを手作業で記述する必要がなく、追加の学習目標を導入する必要もありません。過去の同様の高速化手法は、モデルがジャンプ読み取りに慣れることで、従来の逐語的精読能力を失うという副作用がよくありました。この落とし穴を避けるため、開発チームはモデルにまず加速モードで大部分の学習を完了させ、訓練の最終段階で短時間だけ従来の完全アテンション計算に戻して適応させる方法を採用しました。5.3億パラメータ規模のモデルに500億トークンの学習データを投入した実験では、この方法で学習されたモデルは、学習時間を大幅に短縮するだけでなく、最終的な性能においても従来の完全アテンション方式で学習されたベースラインモデルを上回るか、同等以上の結果を達成しました。(出典:BlockBeats)
Nous Research、Lighthouse Attentionをオープンソース化、B200で17倍の速度向上を達成
KuCoinFlash共有






オンチェーンニュースメディアMetaEraは5月16日(UTC+8)、Nous Researchが長コンテキスト事前学習用のLighthouse Attentionメカニズムをオープンソース化したと報告しました。この手法は、512K長のテキストに対して単一のB200 GPUで17倍の高速計算を実現し、98K長では1.4~1.7倍の学習速度を達成します。低レベルコーディングや追加の学習目的を回避するため、二段階プロセスを採用しています。テストでは、500億トークンで学習された530Mパラメータのモデルが、従来の手法と同等またはそれ以上の性能を発揮しながら、学習時間を短縮しました。暗号通貨ニュースプラットフォームは、開発者や研究者への効率向上を強調しています。
出典:原文を表示
免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。
デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。