Le système multi-agent Cursor optimise 235 opérateurs NVIDIA GPU en trois semaines, approchant les limites matérielles

Selon les nouvelles de ME, le 15 avril (UTC+8), selon les données recueillies par Beating, l'outil de programmation IA Cursor a révélé une expérience de collaboration avec NVIDIA sur son système multi-agents. Ce système a fonctionné de manière autonome pendant trois semaines sur 27 GPU Blackwell B200, en ciblant 235 problèmes d'optimisation d'opérateurs réels extraits de plus de 124 modèles open source de production tels que DeepSeek, Qwen et Gemma. Il a généré et optimisé depuis zéro le code des opérateurs GPU, réalisant une accélération géométrique moyenne globale de 38 %. L'optimisation des opérateurs GPU est l'un des domaines les plus exigeants en ingénierie logicielle, exigeant une maîtrise approfondie de l'architecture des puces, des instructions au niveau assembleur et de la gestion de la mémoire ; un opérateur haute performance nécessite généralement plusieurs mois, voire plusieurs années, à un expert chevronné pour être affiné. Le système multi-agent de Cursor a traité simultanément les 235 problèmes : un agent de planification attribuait les tâches et planifiait dynamiquement selon les indicateurs de performance, tandis que plusieurs agents de travail optimisaient en parallèle ; le système appelait automatiquement le pipeline de benchmark SOL-ExecBench de NVIDIA pour créer une boucle automatisée « tester, déboguer, optimiser », sans aucune intervention humaine. Le système a effectué deux runs distincts, l'un en CUDA C (incluant du PTX en ligne) et l'autre en CuTe DSL : le premier testait la capacité d'inférence matérielle la plus basse niveau, le second évaluait la capacité d'apprendre de nouveaux API presque absents des données d'entraînement publiques. Sur les 235 problèmes, le système a surpassé la ligne de base sur 149 (63 %), dont 45 (19 %) ont été accélérés de plus de deux fois. Trois résultats représentatifs : 1. Attention à requêtes groupées BF16 (extraite du scénario d'inférence Llama 3.1 8B) : 84 % plus rapide que la bibliothèque FlashInfer optimisée manuellement, score SOL de 0,9722, proche de la limite théorique du matériel (score maximal : 1,0). 2. Multiplication matricielle BF16 : l'opérateur généré depuis zéro atteint 86 % des performances du cuBLAS de NVIDIA optimisé manuellement, dépassant la ligne de base jusqu'à 9 % dans les scénarios à petit M fréquemment utilisés pour le décodage des LLM. 3. Opération linéaire NVFP4 pour les couches de mélanges d'experts (extraite de modèles MoE tels que Qwen3) : le système a identifié automatiquement les goulets d'étranglement liés à la quantification en virgule flottante sur 4 bits et a appliqué une optimisation ciblée par fusion, obtenant une accélération de 39 %. Cursor admet que le score SOL médian global n'est que de 0,56, laissant une marge importante d'amélioration, principalement due à la limitation des ressources GPU (27 GPU partagées pour les 235 problèmes). Cursor affirme que ces technologies multi-agents « seront intégrées très prochainement dans le produit principal ». Une entreprise d'IDE dont l'agent IA peut déjà approcher les meilleurs experts humains en optimisation GPU au niveau assembleur représente bien plus qu'une simple histoire de « vous aider à écrire du code d'application ». (Source : BlockBeats)