MetaEra membuka sumber FlashKDA, meningkatkan kelajuan inferens Kimi sebanyak 1.7-2.2x

Berita ME, pada 22 April (UTC+8), menurut pemantauan Beating, Moonshot AI telah mengopen-source FlashKDA, satu set alat khas untuk mempercepat inferens model pada serangkaian GPU NVIDIA Hopper (H100, H20, dll.), di bawah lisensi MIT. Alat ini dirancang khusus untuk KDA, mekanisme perhatian baru yang diperkenalkan Moonshot AI dalam makalah Kimi Linear. Pada model besar yang membaca teks panjang, perhatian tradisional mengalami pertumbuhan kuadratik dalam penghitungan seiring panjang teks, sementara perhatian linear mengurangi beban ini menjadi pertumbuhan linear; KDA adalah salah satu versi penyempurnaan dalam jalur ini. Struktur model Kimi Linear menggunakan tiga lapis KDA dan satu lapis perhatian tradisional secara bergantian. Sebelumnya, versi KDA telah tersedia dalam bahasa Triton dan tersedia di repositori open-source flash-linear-attention (disingkat fla). FlashKDA ditulis ulang menggunakan pustaka GPU bawah tingkat NVIDIA, CUTLASS, untuk secara khusus memaksimalkan kinerja GPU Hopper. Uji coba resmi di H20 menunjukkan bahwa dalam satu perhitungan maju yang sama, FlashKDA 1.7 hingga 2.2 kali lebih cepat daripada versi Triton, dengan percepatan yang paling jelas terlihat pada skenario dengan panjang input tidak seragam dan penggabungan batch. Namun, pihak resmi hanya membandingkan dengan versi Triton mereka sendiri, bukan dengan solusi perhatian linear lainnya. Versi yang dibuka kali ini hanya mencakup perhitungan maju, artinya hanya dapat "menjalankan model" (inferensi), bukan "melatih model"; pelatihan masih memerlukan versi Triton asli. Persyaratan penggunaan: GPU harus Hopper atau lebih baru (mulai dari arsitektur SM90), CUDA 12.9 ke atas, dan PyTorch 2.4 ke atas. FlashKDA juga telah digabungkan sebagai backend baru ke dalam upstream fla (PR #852); pengguna lama hanya perlu mengubah satu baris konfigurasi untuk beralih. (Sumber: BlockBeats)