MetaEra công khai FlashKDA, tăng tốc độ suy luận tuyến tính của Kimi lên 1,7-2,2 lần

Theo tin tức từ ME News, vào ngày 22 tháng 4 (UTC+8), theo giám sát của Beating, Moonshot AI đã mở nguồn FlashKDA trên GitHub — một bộ công cụ được thiết kế đặc biệt để tăng tốc suy luận mô hình trên các card GPU dòng NVIDIA Hopper (H100, H20, v.v.), theo giấy phép MIT. Công cụ này phục vụ cho KDA, một cơ chế chú ý mới được Moonshot AI đề xuất trong bài báo Kimi Linear năm ngoái. Khi các mô hình lớn xử lý văn bản dài, lượng tính toán của cơ chế chú ý truyền thống sẽ tăng theo cấp bậc bình phương của độ dài, trong khi cơ chế chú ý tuyến tính giúp giảm chi phí này xuống mức tăng tuyến tính; KDA là một phiên bản cải tiến trên con đường này. Kiến trúc mô hình Kimi Linear sử dụng luân phiên 3 lớp KDA với 1 lớp chú ý truyền thống. Trước đó, KDA đã có một phiên bản được viết bằng ngôn ngữ Triton, được đăng trên kho mã nguồn mở flash-linear-attention (viết tắt là fla). FlashKDA đã được viết lại hoàn toàn bằng thư viện GPU cấp thấp của NVIDIA là CUTLASS, nhằm tối ưu hiệu năng trên card Hopper. Theo thử nghiệm thực tế của nhà phát triển trên H20, trong cùng một lần tính toán tiến, FlashKDA nhanh hơn 1,7 đến 2,2 lần so với phiên bản Triton, đặc biệt rõ rệt trong các tình huống đầu vào có độ dài không đồng đều và xử lý theo lô. Tuy nhiên, nhà phát triển chỉ so sánh với phiên bản Triton của chính họ, chưa so sánh với các giải pháp chú ý tuyến tính khác. Lần này chỉ mở nguồn phần tính toán tiến, nghĩa là chỉ có thể “chạy mô hình” (suy luận), chưa thể “huấn luyện mô hình”; việc huấn luyện vẫn phải sử dụng phiên bản Triton cũ. Yêu cầu sử dụng: card GPU phải là Hopper trở lên (bắt đầu từ kiến trúc SM90), CUDA 12.9 trở lên và PyTorch 2.4 trở lên. FlashKDA đồng thời đã được tích hợp làm backend mới vào kho upstream fla (PR #852); người dùng cũ chỉ cần thay đổi một dòng cấu hình để chuyển đổi. (Nguồn: BlockBeats)