El sistema multiagente Cursor optimiza 235 operadores NVIDIA GPU en tres semanas, acercándose a los límites del hardware

Según noticias de ME, el 15 de abril (UTC+8), según el monitoreo de Beating, la herramienta de programación de IA Cursor reveló un experimento de colaboración con NVIDIA en su sistema multiagente. Este sistema operó de forma autónoma durante tres semanas en 27 GPU Blackwell B200, optimizando 235 problemas reales de operadores extraídos de más de 124 modelos de código abierto de producción, como DeepSeek, Qwen y Gemma, generando y optimizando desde cero el código de operadores GPU, logrando una aceleración geométrica promedio del 38%. La optimización de operadores GPU es uno de los campos de ingeniería de software con mayor barrera de entrada, requiriendo que los ingenieros dominen arquitecturas de chips, instrucciones a nivel ensamblador y programación de memoria; un operador de alto rendimiento suele requerir meses o incluso años de refinamiento por parte de expertos experimentados. El sistema multiagente de Cursor procesó simultáneamente las 235 tareas: un agente de planificación asigna tareas y programa dinámicamente según métricas de rendimiento, múltiples agentes de trabajo optimizan en paralelo, y el sistema invoca automáticamente el pipeline de prueba SOL-ExecBench de NVIDIA para formar un ciclo automático de “prueba, depuración, optimización”, sin intervención humana. El sistema ejecutó dos rondas, una en CUDA C (con ensamblador PTX incrustado) y otra en CuTe DSL: la primera prueba la capacidad de inferencia a nivel de hardware más bajo, y la segunda evalúa la capacidad de aprender nuevas API que prácticamente no existen en los datos de entrenamiento públicos. De las 235 tareas, el sistema superó la línea base en 149 (63%), incluyendo 45 (19%) con aceleraciones superiores al 200%. Tres resultados representativos: 1. Atención por consulta agrupada BF16 (extraída del escenario de inferencia Llama 3.1 8B): 84% más rápida que la biblioteca FlashInfer optimizada manualmente, con una puntuación SOL de 0.9722, cerca del límite teórico del hardware (puntuación máxima: 1.0). 2. Multiplicación matricial BF16: el operador generado desde cero alcanzó el 86% del rendimiento optimizado manualmente por cuBLAS de NVIDIA, superando la línea base hasta un 9% en escenarios comunes de decodificación LLM con M pequeño. 3. Operación lineal NVFP4 en capas de expertos mixtos (extraída de modelos MoE como Qwen3): el sistema identificó automáticamente el cuello de botella cuantizado en coma flotante de 4 bits y realizó optimizaciones específicas de fusión, logrando una aceleración del 39%. Cursor reconoció que la mediana general de las puntuaciones SOL fue solo de 0.56, lo que indica un gran margen para mejorar, principalmente debido a la limitada cantidad de recursos GPU (27 GPU compartidas entre las 235 tareas). Cursor afirmó que estas tecnologías multiagente “se integrarán rápidamente en el producto principal”. Una empresa de IDE ha logrado que sus agentes de IA se acerquen al nivel de los expertos humanos más destacados en la optimización GPU a nivel ensamblador, lo cual representa un avance mucho mayor que simplemente “ayudarte a escribir código de aplicaciones”. (Fuente: BlockBeats)