O Sistema Multi-Agente Cursor otimiza 235 operadores de GPU NVIDIA em três semanas, aproximando-se dos limites de hardware

Notícia da ME, 15 de abril (UTC+8), segundo monitoramento da Beating, a ferramenta de programação de IA Cursor revelou sua experiência de colaboração com a NVIDIA em seu sistema multiagente. O sistema operou autonomamente por três semanas em 27 GPUs Blackwell B200, otimizando 235 problemas reais de operadores extraídos de mais de 124 modelos de código aberto de produção, como DeepSeek, Qwen e Gemma, gerando e otimizando código de operadores GPU do zero, alcançando uma aceleração geométrica média geral de 38%. A otimização de operadores GPU é um dos campos mais desafiadores da engenharia de software, exigindo que engenheiros dominem arquitetura de chip, instruções em nível de assembly e gerenciamento de memória; um operador de alto desempenho geralmente requer meses ou até anos de refinamento por especialistas sênior. O sistema multiagente da Cursor processou todas as 235 tarefas simultaneamente: um agente de planejamento atribui tarefas e ajusta dinamicamente o agendamento com base em métricas de desempenho, enquanto múltiplos agentes de trabalho otimizam em paralelo; o sistema chama automaticamente o pipeline de benchmark SOL-ExecBench da NVIDIA para formar um ciclo automático de “testar, depurar, otimizar”, sem intervenção humana. O sistema executou duas rodadas, uma em CUDA C (incluindo PTX assembly embutido) e outra em CuTe DSL: a primeira testa a capacidade de inferência de hardware mais profunda, enquanto a segunda testa a capacidade de aprender novas APIs quase inexistentes nos dados de treinamento públicos. Das 235 tarefas, o sistema superou a linha de base em 149 (63%), sendo que 45 (19%) alcançaram aceleração superior a 2 vezes. Três resultados representativos: 1. Atenção com consulta agrupada BF16 (extraída do cenário de inferência Llama 3.1 8B): 84% mais rápida que a biblioteca FlashInfer otimizada manualmente, pontuação SOL de 0,9722, próxima ao limite teórico do hardware (máximo 1,0). 2. Multiplicação de matriz BF16: o operador gerado do zero atingiu 86% do desempenho manualmente ajustado da cuBLAS da NVIDIA e superou a linha de base em até 9% em cenários com pequeno M, comuns na decodificação de inferência LLM. 3. Operação linear de camada mista NVFP4 (extraída de modelos MoE como Qwen3): o sistema identificou autonomamente o gargalo da quantização ponto flutuante de 4 bits e realizou otimizações específicas de fusão, alcançando aceleração de 39%. A Cursor admitiu que a pontuação SOL mediana geral foi apenas 0,56, indicando grande espaço para melhoria, principalmente devido à limitação de recursos GPU (27 GPUs compartilhadas entre as 235 tarefas). A Cursor afirmou que essas tecnologias multiagente “serão rapidamente integradas ao produto principal”. Uma agente de IA de uma empresa de IDE já consegue aproximar-se do nível dos melhores especialistas humanos na otimização GPU em nível de assembly — uma história muito maior do que “ajudar a escrever código de aplicativos”. (Fonte: BlockBeats)