MetaEra open-source FlashKDA, augmente la vitesse d'inférence linéaire de Kimi de 1,7 à 2,2 fois

Selon les nouvelles de ME, le 22 avril (UTC+8), selon le suivi de Beating, Moonshot AI a open-sourcé FlashKDA sur GitHub, un ensemble d'outils dédiés à l'accélération de l'inférence de modèles pour les cartes graphiques NVIDIA Hopper (H100, H20, etc.), sous licence MIT. Ce projet cible KDA, un nouveau mécanisme d'attention introduit par Moonshot AI dans son article Kimi Linear. Lors de la lecture de textes longs, les mécanismes d'attention traditionnels voient leur charge de calcul augmenter de manière quadratique avec la longueur, tandis que l'attention linéaire réduit cette charge à une croissance linéaire ; KDA est une version améliorée dans cette lignée. La structure du modèle Kimi Linear alterne trois couches KDA avec une couche d'attention traditionnelle. Une version précédente de KDA, écrite en langage Triton, était déjà disponible dans la bibliothèque open source flash-linear-attention (abrégée fla). FlashKDA a été entièrement réécrit en utilisant la bibliothèque GPU bas niveau NVIDIA CUTLASS, optimisé spécifiquement pour exploiter pleinement les performances des cartes Hopper. Selon les tests officiels sur H20, lors d'un même calcul en avant, FlashKDA est 1,7 à 2,2 fois plus rapide que la version Triton, avec une accélération particulièrement marquée dans les scénarios où les longueurs d'entrée varient et où les lots sont fusionnés. Toutefois, l'entreprise n'a comparé FlashKDA qu'à sa propre version Triton, sans le comparer à d'autres solutions d'attention linéaire. Cette version open source ne couvre que l'inférence (c'est-à-dire uniquement l'exécution du modèle), et l'entraînement reste encore dépendant de la version Triton originale. Exigences techniques : carte graphique Hopper ou ultérieure (architecture SM90 minimum), CUDA 12.9 ou supérieur, PyTorch 2.4 ou supérieur. FlashKDA a été intégré en tant que nouveau backend dans la version principale de fla (PR #852) ; les utilisateurs existants n'ont qu'à modifier une seule ligne de configuration pour passer à cette nouvelle version. (Source : BlockBeats)