AIMPACT 消息,5 月 16 日(UTC+8),據動察 Beating 監測,Nous Research 開源了長上下文預訓練機制 Lighthouse Attention。在單張 B200 顯卡上處理 512K 長度文本時,該方案的計算速度比傳統機制快約 17 倍,並在 98K 長度下實現了 1.4 到 1.7 倍的端到端訓練提速。傳統注意力機制需要計算所有詞語的兩兩關係,文本一長,算力消耗就會呈平方級暴漲。Lighthouse Attention 改用先粗篩再精算的思路。它會先在不同層級快速瀏覽文本的壓縮摘要,通過打分挑出核心片段拼成短文本,然後直接交給現成的高效算子 FlashAttention 處理。由於篩選邏輯被徹底剝離到了內核之外,開發者直接省去了手寫底層代碼的麻煩,也不用增加額外的訓練目標。過去採用類似思路的加速方案常有副作用,模型習慣跳躍閱讀後,極易喪失原本逐字精讀的能力。為了避開這個陷阱,研發團隊讓模型先用加速模式跑完絕大部分進度,只在訓練末尾短暫切回傳統的全注意力計算稍作適應。在針對 5.3 億參數規模的模型、投喂 500 億 Token 訓練數據的實測中,這樣練出的模型不僅大幅縮短了耗時,最終表現還全面追平甚至反超了全程使用傳統方式訓練的基線版本。(來源:BlockBeats)
Nous Research 開源 Lighthouse Attention,在 B200 上實現 17 倍速度提升
KuCoinFlash分享






鏈上新聞媒體 MetaEra 於 5 月 16 日(UTC+8)報導,Nous Research 已將其 Lighthouse Attention 機制開源,用於長上下文預訓練。該方法在單一 B200 GPU 上處理 512K 長度文本時,計算速度提升 17 倍;在 98K 長度下,訓練速度提升 1.4–1.7 倍。該技術採用兩步驟流程,避免使用低階編碼或額外的訓練目標。在測試中,一個在 50B 個 token 上訓練的 530M 參數模型,表現與傳統方法相當或更優,同時縮短了訓練時間。加密貨幣新聞平台正強調此技術為開發者和研究人員帶來的效率提升。
來源:顯示原文
免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。
虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款和風險披露 。