Nous Research open source Lighthouse Attention, réalise un gain de vitesse de 17x sur B200

iconKuCoinFlash
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
Le média sur chaîne MetaEra a rapporté le 16 mai (UTC+8) que Nous Research a open-sourcé son mécanisme Lighthouse Attention pour l'entraînement préalable sur de longs contextes. Cette méthode permet un gain de 17 fois en vitesse de calcul sur un seul GPU B200 pour des textes de 512K caractères et une accélération de 1,4 à 1,7 fois pour des textes de 98K caractères. Elle utilise un processus en deux étapes pour éviter le codage de bas niveau ou des objectifs d'entraînement supplémentaires. Lors des tests, un modèle de 530 millions de paramètres entraîné sur 50 milliards de jetons a atteint ou surpassé les performances des méthodes traditionnelles tout en réduisant le temps d'entraînement. Les plateformes d'actualités crypto mettent en avant les gains d'efficacité pour les développeurs et les chercheurs.

Message AIMPACT, 16 mai (UTC+8), selon le suivi de Beating, Nous Research a open-sourcé le mécanisme d'entraînement préalable à long contexte Lighthouse Attention. Lors du traitement de textes de 512K de longueur sur une seule carte graphique B200, cette solution accélère le calcul d'environ 17 fois par rapport aux mécanismes traditionnels et réalise une accélération end-to-end de 1,4 à 1,7 fois à une longueur de 98K. Les mécanismes d'attention traditionnels nécessitent le calcul des relations bipartites entre tous les mots ; à mesure que le texte s'allonge, la consommation de puissance de calcul augmente de manière quadratique. Lighthouse Attention adopte une approche en deux étapes : d'abord un filtrage grossier, puis un calcul précis. Il parcourt rapidement des résumés compressés du texte à différents niveaux, attribue des scores pour sélectionner les fragments clés et les assemble en un texte court, puis les transmet directement à l'opérateur efficace déjà existant FlashAttention. Étant donné que la logique de filtrage est entièrement externalisée au noyau, les développeurs évitent ainsi la complexité d'écrire du code bas niveau et n'ont pas besoin d'ajouter d'objectifs d'entraînement supplémentaires. Les solutions d'accélération précédentes basées sur une approche similaire présentaient souvent des effets secondaires : une fois habituées à la lecture sautée, les modèles perdaient facilement leur capacité à lire mot par mot avec précision. Pour éviter ce piège, l'équipe de recherche a fait en sorte que le modèle effectue la majeure partie de l'entraînement en mode accéléré, puis ne revienne brièvement à l'attention complète traditionnelle en fin d'entraînement pour une légère adaptation. Lors d'expérimentations réelles sur un modèle de 530 millions de paramètres alimenté avec 50 milliards de tokens de données d'entraînement, le modèle ainsi formé non seulement réduit considérablement le temps d'entraînement, mais atteint également des performances globales équivalentes, voire supérieures, à celles de la version de référence entraînée entièrement avec la méthode traditionnelle. (Source : BlockBeats)

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.