Berita ME, 22 April (UTC+8), menurut pemantauan Beating, Moonshot AI telah meng-open-source FlashKDA di GitHub, sebuah alat yang dirancang khusus untuk mempercepat inferensi model pada seri GPU NVIDIA Hopper (H100, H20, dll.) dengan lisensi MIT. Alat ini dirancang untuk mendukung KDA, mekanisme perhatian baru yang diusulkan oleh Moonshot AI dalam paper Kimi Linear tahun lalu. Pada model besar yang membaca teks panjang, perhatian tradisional mengalami pertumbuhan kuadratik dalam beban komputasi seiring panjang teks, sedangkan perhatian linier mengurangi biaya ini menjadi pertumbuhan linier—KDA adalah salah satu varian yang disempurnakan dari pendekatan ini. Struktur model Kimi Linear menggunakan tiga lapis KDA yang bergantian dengan satu lapis perhatian tradisional. Sebelumnya, versi KDA sudah tersedia dalam bahasa Triton dan tersedia di repositori open-source flash-linear-attention (disingkat fla). FlashKDA ditulis ulang menggunakan library GPU dasar NVIDIA, CUTLASS, untuk secara khusus memaksimalkan kinerja GPU Hopper. Dalam pengujian resmi di H20, FlashKDA menunjukkan peningkatan kecepatan 1,7 hingga 2,2 kali lebih cepat dibanding versi Triton pada perhitungan forward yang sama, dengan percepatan paling signifikan terlihat pada skenario dengan panjang input tidak seragam dan penggabungan batch. Namun, pihak resmi hanya membandingkan dengan versi Triton mereka sendiri, bukan dengan solusi perhatian linier lainnya. Versi yang dibuka kali ini hanya mencakup perhitungan forward, artinya hanya dapat digunakan untuk "menjalankan model" (inferensi), sementara pelatihan model masih memerlukan versi Triton asli. Persyaratan penggunaan: GPU harus Hopper atau lebih baru (mulai dari arsitektur SM90), CUDA 12.9 atau lebih tinggi, dan PyTorch 2.4 atau lebih tinggi. FlashKDA juga telah digabungkan sebagai backend baru ke dalam repositori fla utama (PR #852); pengguna lama hanya perlu mengubah satu baris konfigurasi untuk beralih. (Sumber: BlockBeats)
MetaEra Membuka Sumber FlashKDA, Meningkatkan Kecepatan Inferensi Kimi Linear sebesar 1,7-2,2x
KuCoinFlashBagikan






MetaEra mengumumkan pada 22 April (UTC+8) pelepasan sumber terbuka FlashKDA, sebuah alat yang dioptimalkan untuk GPU NVIDIA Hopper di bawah lisensi MIT. Dirancang untuk meningkatkan kecepatan inferensi Kimi Linear sebesar 1,7–2,2x, FlashKDA memanfaatkan CUTLASS untuk meningkatkan kinerja pada GPU H20. Alat ini mendukung panjang input variabel dan pemrosesan bertahap, tetapi saat ini hanya memungkinkan inferensi. Pengguna memerlukan GPU Hopper, CUDA 12.9+, dan PyTorch 2.4+. Alat ini kini menjadi bagian dari repositori flash-linear-attention, berkontribusi pada perkembangan berita on-chain dan ekosistem.
Sumber:Tampilkan versi asli
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.