Cursor 多代理系統在三週內優化了 235 個 NVIDIA GPU 操作，接近硬體極限

ME News 消息，4 月 15 日（UTC+8），據動察 Beating 監測，AI 編程工具 Cursor 披露其多智能體系統與英偉達的合作實驗。該系統在 27 塊 Blackwell B200 GPU 上自主運行三週，針對從 DeepSeek、Qwen、Gemma 等超過 124 個生產級開源模型中提取的 235 個真實算子優化問題，從零編寫並優化 GPU 算子代碼，整體實現 38% 的幾何平均加速。GPU 算子優化是軟體工程中門檻最高的領域之一，要求工程師精通晶片架構、彙編級指令和記憶體調度，一個高性能算子通常需要資深專家數月甚至數年打磨。Cursor 的多智能體系統一次性處理全部 235 題：一個規劃智能體分配任務並根據性能指標動態調度，多個工作智能體並行優化，系統自行調用英偉達的 SOL-ExecBench 基準測試管道形成「測試、調試、優化」自動迴圈，全程無人干預。系統分別用 CUDA C（含內聯 PTX 彙編）和 CuTe DSL 兩種語言各跑了一輪，前者測試最底層硬體推理能力，後者測試學習公開訓練資料中幾乎沒有新 API 的能力。235 題中，系統在 149 題（63%）上超越基線，其中 45 題（19%）加速超過 2 倍。三個代表性結果：1. BF16 分組查詢注意力（提取自 Llama 3.1 8B 推理場景）：較人工優化的 FlashInfer 庫快 84%，SOL 得分 0.9722，接近硬體理論極限（滿分 1.0）2. BF16 矩陣乘法：從零生成的算子達到英偉達 cuBLAS 手工調優性能的 86%，在 LLM 推理解碼常用的小 M 場景下反超基線最多 9%3. NVFP4 混合專家層線性運算（提取自 Qwen3 等 MoE 模型）：系統自主識別 4 位浮點量化瓶頸並做針對性融合優化，加速 39%。Cursor 坦承整體中位 SOL 得分僅 0.56，仍有大幅提升空間，主因是 GPU 資源有限（235 題共用 27 塊 GPU）。Cursor 称這些多智能體技術「將很快融入核心產品」。一家 IDE 公司的 AI 智能體已經能在彙編級別的 GPU 優化上逼近人類頂尖專家，這比「幫你寫應用代碼」的故事大得多。（來源：BlockBeats）