Nous Research、Lighthouse Attentionをオープンソース化、B200で17倍の速度向上を達成

AIMPACT メッセージ：5月16日（UTC+8）、Beating監視によると、Nous Researchは長コンテキスト事前学習メカニズム「Lighthouse Attention」をオープンソース化しました。B200 GPU1枚で512Kの長さのテキストを処理する際、この手法は従来のメカニズムと比較して計算速度が約17倍速く、98Kの長さではエンドツーエンドの学習速度が1.4～1.7倍向上しました。従来のアテンションメカニズムはすべての単語間のペア関係を計算する必要があり、テキストが長くなるほど計算リソースが平方級に増加します。Lighthouse Attentionは、まず粗くスクリーニングしてから精密に計算するアプローチを採用しています。異なる階層でテキストの圧縮要約を素早く閲覧し、スコアリングによってコアな断片を抽出して短いテキストを構成し、その後既存の効率的な演算子であるFlashAttentionに直接処理させます。スクリーニングロジックがカーネル外部に完全に分離されているため、開発者は低レベルコードを手作業で記述する必要がなく、追加の学習目標を導入する必要もありません。過去の同様の高速化手法は、モデルがジャンプ読み取りに慣れることで、従来の逐語的精読能力を失うという副作用がよくありました。この落とし穴を避けるため、開発チームはモデルにまず加速モードで大部分の学習を完了させ、訓練の最終段階で短時間だけ従来の完全アテンション計算に戻して適応させる方法を採用しました。5.3億パラメータ規模のモデルに500億トークンの学習データを投入した実験では、この方法で学習されたモデルは、学習時間を大幅に短縮するだけでなく、最終的な性能においても従来の完全アテンション方式で学習されたベースラインモデルを上回るか、同等以上の結果を達成しました。（出典：BlockBeats）