Berita ME, pada 22 April (UTC+8), menurut pemantauan Beating, Moonshot AI telah mengopen-source FlashKDA, satu set alat khas untuk mempercepat inferens model pada serangkaian GPU NVIDIA Hopper (H100, H20, dll.), di bawah lisensi MIT. Alat ini dirancang khusus untuk KDA, mekanisme perhatian baru yang diperkenalkan Moonshot AI dalam makalah Kimi Linear. Pada model besar yang membaca teks panjang, perhatian tradisional mengalami pertumbuhan kuadratik dalam penghitungan seiring panjang teks, sementara perhatian linear mengurangi beban ini menjadi pertumbuhan linear; KDA adalah salah satu versi penyempurnaan dalam jalur ini. Struktur model Kimi Linear menggunakan tiga lapis KDA dan satu lapis perhatian tradisional secara bergantian. Sebelumnya, versi KDA telah tersedia dalam bahasa Triton dan tersedia di repositori open-source flash-linear-attention (disingkat fla). FlashKDA ditulis ulang menggunakan pustaka GPU bawah tingkat NVIDIA, CUTLASS, untuk secara khusus memaksimalkan kinerja GPU Hopper. Uji coba resmi di H20 menunjukkan bahwa dalam satu perhitungan maju yang sama, FlashKDA 1.7 hingga 2.2 kali lebih cepat daripada versi Triton, dengan percepatan yang paling jelas terlihat pada skenario dengan panjang input tidak seragam dan penggabungan batch. Namun, pihak resmi hanya membandingkan dengan versi Triton mereka sendiri, bukan dengan solusi perhatian linear lainnya. Versi yang dibuka kali ini hanya mencakup perhitungan maju, artinya hanya dapat "menjalankan model" (inferensi), bukan "melatih model"; pelatihan masih memerlukan versi Triton asli. Persyaratan penggunaan: GPU harus Hopper atau lebih baru (mulai dari arsitektur SM90), CUDA 12.9 ke atas, dan PyTorch 2.4 ke atas. FlashKDA juga telah digabungkan sebagai backend baru ke dalam upstream fla (PR #852); pengguna lama hanya perlu mengubah satu baris konfigurasi untuk beralih. (Sumber: BlockBeats)
MetaEra membuka sumber FlashKDA, meningkatkan kelajuan inferens Kimi sebanyak 1.7-2.2x
KuCoinFlashKongsi






MetaEra mengumumkan pada 22 April (UTC+8) pembebasan sumber terbuka FlashKDA, sebuah alat yang dioptimaskan untuk GPU NVIDIA Hopper di bawah lesen MIT. Direka untuk meningkatkan kelajuan inferens Kimi Linear sebanyak 1.7-2.2x, FlashKDA memanfaatkan CUTLASS untuk meningkatkan prestasi pada GPU H20. Alat ini menyokong panjang input yang berubah-ubah dan pemprosesan berpaket, tetapi pada masa ini hanya membenarkan inferens. Pengguna memerlukan GPU Hopper, CUDA 12.9+, dan PyTorch 2.4+. Alat ini kini sebahagian daripada repositori flash-linear-attention, menyumbang kepada berita atas rantai dan pertumbuhan ekosistem.
Sumber:Tunjukkan artikel asal
Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini.
Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.