ME News 消息,4 月 15 日(UTC+8),據動察 Beating 監測,AI 編程工具 Cursor 披露其多智能體系統與英偉達的合作實驗。該系統在 27 塊 Blackwell B200 GPU 上自主運行三週,針對從 DeepSeek、Qwen、Gemma 等超過 124 個生產級開源模型中提取的 235 個真實算子優化問題,從零編寫並優化 GPU 算子代碼,整體實現 38% 的幾何平均加速。GPU 算子優化是軟體工程中門檻最高的領域之一,要求工程師精通晶片架構、彙編級指令和記憶體調度,一個高性能算子通常需要資深專家數月甚至數年打磨。Cursor 的多智能體系統一次性處理全部 235 題:一個規劃智能體分配任務並根據性能指標動態調度,多個工作智能體並行優化,系統自行調用英偉達的 SOL-ExecBench 基準測試管道形成「測試、調試、優化」自動迴圈,全程無人干預。系統分別用 CUDA C(含內聯 PTX 彙編)和 CuTe DSL 兩種語言各跑了一輪,前者測試最底層硬體推理能力,後者測試學習公開訓練資料中幾乎沒有新 API 的能力。235 題中,系統在 149 題(63%)上超越基線,其中 45 題(19%)加速超過 2 倍。三個代表性結果:1. BF16 分組查詢注意力(提取自 Llama 3.1 8B 推理場景):較人工優化的 FlashInfer 庫快 84%,SOL 得分 0.9722,接近硬體理論極限(滿分 1.0)2. BF16 矩陣乘法:從零生成的算子達到英偉達 cuBLAS 手工調優性能的 86%,在 LLM 推理解碼常用的小 M 場景下反超基線最多 9%3. NVFP4 混合專家層線性運算(提取自 Qwen3 等 MoE 模型):系統自主識別 4 位浮點量化瓶頸並做針對性融合優化,加速 39%。Cursor 坦承整體中位 SOL 得分僅 0.56,仍有大幅提升空間,主因是 GPU 資源有限(235 題共用 27 塊 GPU)。Cursor 称這些多智能體技術「將很快融入核心產品」。一家 IDE 公司的 AI 智能體已經能在彙編級別的 GPU 優化上逼近人類頂尖專家,這比「幫你寫應用代碼」的故事大得多。(來源:BlockBeats)
Cursor 多代理系統在三週內優化了 235 個 NVIDIA GPU 操作,接近硬體極限
KuCoinFlash分享






鏈上新聞:4 月 15 日(UTC+8),AI 程式設計工具 Cursor 宣布與 NVIDIA 合作,採用其多代理系統。在三週內,該系統於 27 塊 Blackwell B200 GPU 上優化了來自 124 個開源模型的 235 個真實世界 GPU 運算元,實現了 38% 的幾何平均速度提升。真實資產(RWA)新聞:149 個運算元(63%)表現優於基準,其中 45 個(19%)實現了超過 2 倍的加速。關鍵改進包括 BF16 分組查詢注意力運算加快 84%,以及 NVFP4 MoE 層運算加快 39%。Cursor 指出 GPU 資源受限,並計劃將多代理技術整合至其核心產品中。
來源:顯示原文
免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。
虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款和風險披露 。