Ang Cursor Multi-Agent System ay nag-optimize sa 235 mga NVIDIA GPU operator sa loob ng tatlong linggo, malapit na sa mga limitasyon ng hardware

Ayon sa ME News, noong Abril 15 (UTC+8), ayon sa pagmamasid ng Beating, ipinahayag ng AI programming tool na Cursor ang kanilang eksperimento sa pagtatrabaho kasama ang NVIDIA. Ang sistema na ito ay nagpapatakbo nang awtomatiko nang tatlong linggo sa 27 na Blackwell B200 GPU, naglalayong mapabuti ang 235 totoong optimization problems mula sa higit sa 124 production-grade open-source models tulad ng DeepSeek, Qwen, at Gemma, sa pamamagitan ng pagbuo at pag-optimize ng GPU operator code mula sa zero, na nagresulta sa kabuuang 38% geometric average speedup. Ang GPU operator optimization ay isa sa pinakamataas na hadlang sa software engineering, kung saan kailangan ng mga engineer na magkaroon ng malalim na kaalaman sa chip architecture, assembly-level instructions, at memory scheduling; karaniwan, ang isang high-performance operator ay nangangailangan ng ilang buwan hanggang sa ilang taon ng pagpapabuti ng mga eksperto. Ang multi-agent system ng Cursor ay nakapagtrabaho nang sabay-sabay sa lahat ng 235 problema: ang isang planning agent ang nag-aalok ng mga gawain at nag-schedule nang dinamiko batay sa performance metrics, habang ang maraming working agents ay nagpapatakbo nang paralelo upang mag-optimize, at ang sistema mismo ay gumagamit ng NVIDIA’s SOL-ExecBench benchmark pipeline upang bumuo ng isang automated “test, debug, optimize” loop nang walang tulong mula sa tao. Ang sistema ay nagpatakbo nang dalawang beses gamit ang dalawang wika: CUDA C (kasama ang inline PTX assembly) at CuTe DSL—una para subukin ang pinakamababang hardware inference capability, at pangalawa para subukin ang kakayahan na matutunan ang mga bagong API na hindi gaanong kinikilala sa public training data. Sa mga 235 problema, lumampas ang sistema sa baseline sa 149 (63%), kung saan 45 (19%) ay nakapag-achieve ng speedup na higit pa sa 2x. Tatlong makabuluhang resulta: 1. BF16 Grouped Query Attention (nakuha mula sa Llama 3.1 8B inference scenario): 84% mas mabilis kaysa sa hand-optimized FlashInfer library, SOL score na 0.9722, malapit na sa theoretical hardware limit (perfect score: 1.0) 2. BF16 Matrix Multiplication: Ang operator na gawa mula sa zero ay nakamit ang 86% ng performance ng hand-tuned cuBLAS ng NVIDIA, at lumampas sa baseline hanggang 9% sa mga maliit M scenarios na karaniwang ginagamit sa LLM decoding 3. NVFP4 Linear Operation sa Mixture-of-Experts layer (nakuha mula sa Qwen3 at iba pang MoE models): Ang sistema ay nakakilala nang awtomatiko ng bottleneck sa 4-bit floating-point quantization at nag-gawa ng targeted fusion optimization, na nagresulta sa 39% speedup Kinikilala ng Cursor na ang median SOL score ay lamang 0.56, kaya may malaking espasyo para sa pagpapabuti—ang pangunahing dahilan ay limitadong GPU resources (27 GPU na ginagamit para sa lahat ng 235 problems). Sinasabi ng Cursor na ang mga multi-agent technology na ito ay “magiging bahagi ng core product sa malapit na pagkakataon.” Ang isang AI agent mula sa isang IDE company ay nakakapag-achieve na ng pag-optimize sa GPU level na paririto sa pinakamahusay na human experts—na mas malaki pa kaysa sa kuwento na “tutulungan ka mag-write ng application code.” (Source: BlockBeats)