MetaEra công khai FlashKDA, tăng tốc độ suy luận tuyến tính của Kimi lên 1,7-2,2 lần

iconKuCoinFlash
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
MetaEra đã công bố vào ngày 22 tháng 4 (UTC+8) việc mở nguồn FlashKDA, một công cụ được tối ưu hóa cho các GPU NVIDIA Hopper dưới giấy phép MIT. Được thiết kế để tăng tốc độ suy luận của Kimi Linear lên 1,7–2,2 lần, FlashKDA sử dụng CUTLASS để cải thiện hiệu suất trên GPU H20. Công cụ hỗ trợ độ dài đầu vào thay đổi và xử lý theo lô, nhưng hiện chỉ cho phép suy luận. Người dùng cần GPU Hopper, CUDA 12.9+ và PyTorch 2.4+. Công cụ hiện đã trở thành một phần của kho flash-linear-attention, góp phần vào sự phát triển của tin tức trên chuỗi và hệ sinh thái.

Theo tin tức từ ME News, vào ngày 22 tháng 4 (UTC+8), theo giám sát của Beating, Moonshot AI đã mở nguồn FlashKDA trên GitHub — một bộ công cụ được thiết kế đặc biệt để tăng tốc suy luận mô hình trên các card GPU dòng NVIDIA Hopper (H100, H20, v.v.), theo giấy phép MIT. Công cụ này phục vụ cho KDA, một cơ chế chú ý mới được Moonshot AI đề xuất trong bài báo Kimi Linear năm ngoái. Khi các mô hình lớn xử lý văn bản dài, lượng tính toán của cơ chế chú ý truyền thống sẽ tăng theo cấp bậc bình phương của độ dài, trong khi cơ chế chú ý tuyến tính giúp giảm chi phí này xuống mức tăng tuyến tính; KDA là một phiên bản cải tiến trên con đường này. Kiến trúc mô hình Kimi Linear sử dụng luân phiên 3 lớp KDA với 1 lớp chú ý truyền thống. Trước đó, KDA đã có một phiên bản được viết bằng ngôn ngữ Triton, được đăng trên kho mã nguồn mở flash-linear-attention (viết tắt là fla). FlashKDA đã được viết lại hoàn toàn bằng thư viện GPU cấp thấp của NVIDIA là CUTLASS, nhằm tối ưu hiệu năng trên card Hopper. Theo thử nghiệm thực tế của nhà phát triển trên H20, trong cùng một lần tính toán tiến, FlashKDA nhanh hơn 1,7 đến 2,2 lần so với phiên bản Triton, đặc biệt rõ rệt trong các tình huống đầu vào có độ dài không đồng đều và xử lý theo lô. Tuy nhiên, nhà phát triển chỉ so sánh với phiên bản Triton của chính họ, chưa so sánh với các giải pháp chú ý tuyến tính khác. Lần này chỉ mở nguồn phần tính toán tiến, nghĩa là chỉ có thể “chạy mô hình” (suy luận), chưa thể “huấn luyện mô hình”; việc huấn luyện vẫn phải sử dụng phiên bản Triton cũ. Yêu cầu sử dụng: card GPU phải là Hopper trở lên (bắt đầu từ kiến trúc SM90), CUDA 12.9 trở lên và PyTorch 2.4 trở lên. FlashKDA đồng thời đã được tích hợp làm backend mới vào kho upstream fla (PR #852); người dùng cũ chỉ cần thay đổi một dòng cấu hình để chuyển đổi. (Nguồn: BlockBeats)

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.