MetaEra Membuka Sumber FlashKDA, Meningkatkan Kecepatan Inferensi Kimi Linear sebesar 1,7-2,2x

Berita ME, 22 April (UTC+8), menurut pemantauan Beating, Moonshot AI telah meng-open-source FlashKDA di GitHub, sebuah alat yang dirancang khusus untuk mempercepat inferensi model pada seri GPU NVIDIA Hopper (H100, H20, dll.) dengan lisensi MIT. Alat ini dirancang untuk mendukung KDA, mekanisme perhatian baru yang diusulkan oleh Moonshot AI dalam paper Kimi Linear tahun lalu. Pada model besar yang membaca teks panjang, perhatian tradisional mengalami pertumbuhan kuadratik dalam beban komputasi seiring panjang teks, sedangkan perhatian linier mengurangi biaya ini menjadi pertumbuhan linier—KDA adalah salah satu varian yang disempurnakan dari pendekatan ini. Struktur model Kimi Linear menggunakan tiga lapis KDA yang bergantian dengan satu lapis perhatian tradisional. Sebelumnya, versi KDA sudah tersedia dalam bahasa Triton dan tersedia di repositori open-source flash-linear-attention (disingkat fla). FlashKDA ditulis ulang menggunakan library GPU dasar NVIDIA, CUTLASS, untuk secara khusus memaksimalkan kinerja GPU Hopper. Dalam pengujian resmi di H20, FlashKDA menunjukkan peningkatan kecepatan 1,7 hingga 2,2 kali lebih cepat dibanding versi Triton pada perhitungan forward yang sama, dengan percepatan paling signifikan terlihat pada skenario dengan panjang input tidak seragam dan penggabungan batch. Namun, pihak resmi hanya membandingkan dengan versi Triton mereka sendiri, bukan dengan solusi perhatian linier lainnya. Versi yang dibuka kali ini hanya mencakup perhitungan forward, artinya hanya dapat digunakan untuk "menjalankan model" (inferensi), sementara pelatihan model masih memerlukan versi Triton asli. Persyaratan penggunaan: GPU harus Hopper atau lebih baru (mulai dari arsitektur SM90), CUDA 12.9 atau lebih tinggi, dan PyTorch 2.4 atau lebih tinggi. FlashKDA juga telah digabungkan sebagai backend baru ke dalam repositori fla utama (PR #852); pengguna lama hanya perlu mengubah satu baris konfigurasi untuk beralih. (Sumber: BlockBeats)