MetaEra 開源 FlashKDA，將 Kimi 線性推理速度提升 1.7-2.2 倍

ME News 消息，4 月 22 日（UTC+8），據動察 Beating 監測，月之暗面在 GitHub 開源 FlashKDA，一套專為英偉達 Hopper 系列顯卡（H100、H20 等）加速模型推理的工具，採用 MIT 協議。其服務對象為 KDA，即月之暗面去年在 Kimi Linear 論文中提出的新型注意力機制。傳統注意力機制在處理長文本時，計算量會隨長度平方級膨脹，而線性注意力則將此代價降至線性增長，KDA 是此路徑中的一種改良版本。Kimi Linear 模型的結構為 3 層 KDA 與 1 層傳統注意力交替使用。此前，KDA 已有一個使用 Triton 語言編寫的版本，上線於開源庫 flash-linear-attention（簡稱 fla）。FlashKDA 重新使用英偉達底層 GPU 庫 CUTLASS 重寫，專為榨取 Hopper 顯卡性能而設計。官方在 H20 上實測顯示，同一次前向計算中，FlashKDA 比 Triton 版本快 1.7 至 2.2 倍，在輸入長度不一、拼批次運行的場景下加速效果尤為明顯。然而，官方僅與自家 Triton 版本進行對比，未與其他線性注意力方案比較。此次僅開源前向計算部分，意味著僅能「運行模型」（推理），無法「訓練模型」，訓練仍需使用原版 Triton。使用門檻：需配備 Hopper 及之後的顯卡（SM90 架構起）、CUDA 12.9 以上、PyTorch 2.4 以上。FlashKDA 已作為新後端合併至 fla 上游（PR #852），老用戶只需修改一行配置即可切換。（來源：BlockBeats）