UC Berkeley dan MIT melancarkan FlashLib, pustaka akselerasi ML dengan peningkatan kelajuan sehingga 208x

ME AI mesej, menurut pemantauan Beating, Universiti California, Berkeley bekerjasama dengan Institut Teknologi Massachusetts, Universiti California, Irvine, dan Universiti Texas di Austin serta pihak lain telah memperkenalkan pustaka operator ML klasik GPU bernama FlashLib, yang mencakup 15 operator tingkat tinggi, bertujuan untuk memberikan akselerasi berprestasi tinggi bagi alur kerja pembelajaran mesin dan skenario agen. Berdasarkan Triton dan CuteDSL, FlashLib mencapai peningkatan puncak hingga 208 kali lebih cepat dibanding cuML 25.10 NVIDIA pada GPU H200 untuk operator seperti KMeans dan KNN. Dalam pengujian pada GPU H200, efisiensi Flash-KMeans mencapai 61% dari FLOPs puncak, sementara Flash-KNN mencapai 85.2% dari bandwidth memori HBM. Dibandingkan cuML 25.10 NVIDIA, FlashLib mempercepat 26 kali dalam pengelompokan KMeans, 19 kali dalam pencarian KNN, dan 40 kali dalam pengelompokan HDBSCAN. Sementara itu, dalam dekomposisi TruncatedSVD, dengan toleransi komputasi dan kompromi algoritma tertentu, ia mencapai akselerasi puncak hingga 208 kali. Pada operator lain seperti PCA, exact t-SNE, dan MultinomialNB, peningkatan kecepatan masing-masing mencapai 47 kali, 147 kali, dan 49 kali. Seiring AI memasuki era agen, operator ML klasik telah berubah dari pemrosesan batch offline menjadi primitif real-time online. Dalam inferensi panjang seperti agen komputasi ilmiah, model perlu memanggil operator pengelompokan, pencarian, dan reduksi dimensi secara sering, menjadikan operator offline tradisional sebagai bottleneck latensi sistem. FlashLib secara khusus memperkenalkan API prediksi performa yang mampu memperkirakan durasi eksekusi dan beban memori GPU dengan tepat hanya dalam sekitar 5 mikrodetik waktu CPU tanpa memicu evaluasi GPU, memberikan dukungan analisis berbiaya rendah untuk perencanaan tugas dan keputusan agen. Saat ini, FlashLib telah dirilis sebagai sumber terbuka di GitHub. (Sumber: BlockBeats)