Selon les nouvelles de ME, le 22 avril (UTC+8), selon le suivi de Beating, Moonshot AI a open-sourcé FlashKDA sur GitHub, un ensemble d'outils dédiés à l'accélération de l'inférence de modèles pour les cartes graphiques NVIDIA Hopper (H100, H20, etc.), sous licence MIT. Ce projet cible KDA, un nouveau mécanisme d'attention introduit par Moonshot AI dans son article Kimi Linear. Lors de la lecture de textes longs, les mécanismes d'attention traditionnels voient leur charge de calcul augmenter de manière quadratique avec la longueur, tandis que l'attention linéaire réduit cette charge à une croissance linéaire ; KDA est une version améliorée dans cette lignée. La structure du modèle Kimi Linear alterne trois couches KDA avec une couche d'attention traditionnelle. Une version précédente de KDA, écrite en langage Triton, était déjà disponible dans la bibliothèque open source flash-linear-attention (abrégée fla). FlashKDA a été entièrement réécrit en utilisant la bibliothèque GPU bas niveau NVIDIA CUTLASS, optimisé spécifiquement pour exploiter pleinement les performances des cartes Hopper. Selon les tests officiels sur H20, lors d'un même calcul en avant, FlashKDA est 1,7 à 2,2 fois plus rapide que la version Triton, avec une accélération particulièrement marquée dans les scénarios où les longueurs d'entrée varient et où les lots sont fusionnés. Toutefois, l'entreprise n'a comparé FlashKDA qu'à sa propre version Triton, sans le comparer à d'autres solutions d'attention linéaire. Cette version open source ne couvre que l'inférence (c'est-à-dire uniquement l'exécution du modèle), et l'entraînement reste encore dépendant de la version Triton originale. Exigences techniques : carte graphique Hopper ou ultérieure (architecture SM90 minimum), CUDA 12.9 ou supérieur, PyTorch 2.4 ou supérieur. FlashKDA a été intégré en tant que nouveau backend dans la version principale de fla (PR #852) ; les utilisateurs existants n'ont qu'à modifier une seule ligne de configuration pour passer à cette nouvelle version. (Source : BlockBeats)
MetaEra open-source FlashKDA, augmente la vitesse d'inférence linéaire de Kimi de 1,7 à 2,2 fois
KuCoinFlashPartager






MetaEra a annoncé le 22 avril (UTC+8) la mise à disposition en open source de FlashKDA, un outil optimisé pour les GPU NVIDIA Hopper sous licence MIT. Conçu pour augmenter la vitesse d'inférence de Kimi Linear de 1,7 à 2,2 fois, FlashKDA utilise CUTLASS pour améliorer les performances sur les GPU H20. Il prend en charge des longueurs d'entrée variables et le traitement par lots, mais ne permet actuellement que l'inférence. Les utilisateurs doivent disposer de GPU Hopper, CUDA 12.9+ et PyTorch 2.4+. L'outil fait désormais partie du dépôt flash-linear-attention, contribuant à l'actualité sur chaîne et à la croissance de l'écosystème.
Source:Afficher l'original
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.