ME News 消息,4 月 22 日(UTC+8),據動察 Beating 監測,月之暗面在 GitHub 開源 FlashKDA,一套專為英偉達 Hopper 系列顯卡(H100、H20 等)加速模型推理的工具,採用 MIT 協議。其服務對象為 KDA,即月之暗面去年在 Kimi Linear 論文中提出的新型注意力機制。傳統注意力機制在處理長文本時,計算量會隨長度平方級膨脹,而線性注意力則將此代價降至線性增長,KDA 是此路徑中的一種改良版本。Kimi Linear 模型的結構為 3 層 KDA 與 1 層傳統注意力交替使用。此前,KDA 已有一個使用 Triton 語言編寫的版本,上線於開源庫 flash-linear-attention(簡稱 fla)。FlashKDA 重新使用英偉達底層 GPU 庫 CUTLASS 重寫,專為榨取 Hopper 顯卡性能而設計。官方在 H20 上實測顯示,同一次前向計算中,FlashKDA 比 Triton 版本快 1.7 至 2.2 倍,在輸入長度不一、拼批次運行的場景下加速效果尤為明顯。然而,官方僅與自家 Triton 版本進行對比,未與其他線性注意力方案比較。此次僅開源前向計算部分,意味著僅能「運行模型」(推理),無法「訓練模型」,訓練仍需使用原版 Triton。使用門檻:需配備 Hopper 及之後的顯卡(SM90 架構起)、CUDA 12.9 以上、PyTorch 2.4 以上。FlashKDA 已作為新後端合併至 fla 上游(PR #852),老用戶只需修改一行配置即可切換。(來源:BlockBeats)
MetaEra 開源 FlashKDA,將 Kimi 線性推理速度提升 1.7-2.2 倍
KuCoinFlash分享






MetaEra 於 4 月 22 日(UTC+8)宣布在 MIT 許可下開源 FlashKDA,這是一款針對 NVIDIA Hopper GPU 優化的工具。FlashKDA 利用 CUTLASS 提升 H20 GPU 的效能,可將 Kimi Linear 的推理速度提升 1.7-2.2 倍。它支援可變輸入長度和批次處理,但目前僅支援推理功能。使用者需配備 Hopper GPU、CUDA 12.9+ 及 PyTorch 2.4+。該工具現已納入 flash-linear-attention 儲存庫,有助於鏈上新聞與生態系統的發展。
來源:顯示原文
免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。
虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款和風險披露 。