Qwen3.7-Max 在國內晶片上完成 35 小時優化任務,性能提升 10 倍

icon MarsBit
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
阿里巴巴的 Qwen3.7-Max 已作為智能代理的新旗艦基礎模型推出,在 Pingtouge Zhenwu M890 處理器上執行 35 小時的優化任務時,性能提升了 10.0 倍。該模型在使用鏈上新聞且無晶片架構數據的情況下,表現優於 GLM 5.1 和 Kimi K2.6。關鍵改進包括分割前綴 KV-cache 和重構運算子。此結果凸顯了 AI 驅動的鏈上新聞與性能提升的潛力。

根據動察 Beating 監測,阿里通義千問正式發布新一代智能體旗艦基底 Qwen3.7-Max。官方公佈的實戰數據顯示,在完全沒有晶片架構文件與效能分析數據的情況下,新模型在一項長達 35 小時、跨越 1158 次工具呼叫的全自主核心優化任務中,將國產平頭哥真武 M890 處理器的 Triton 算子效能強行提升了 10.0 倍。在優化過程中,模型歷經了五個核心演進階段。它首先透過 Split-K 分區將前綴 KV-cache 沿 token 維度劃分,以填滿 36 個 SM 核心;隨後將主機與裝置間同步的 cudaMalloc 替換為預分配的 PyTorch 變數,並透過使用 tensor 元資料完全抹去查詢前綴長度時的同步 cudaMemcpy 動作,徹底移除主機與裝置間的通訊開銷;在最後階段,模型重構算子以在單個線程塊中同時處理全部 4 個 query token,共享加載以分攤記憶體存取開銷,完成了關鍵的架構級特化重構。算子優化實測顯示,Qwen3.7-Max 取得 10.0x 幾何平均加速比,顯著超越 GLM 5.1(7.3x)與 Kimi K2.6(5.0x)。而 DeepSeek V4 Pro 僅為 3.3x,且在後半程因連續五輪未發出任何工具呼叫而提前主動結束任務。為了在多變環境中掌握通用的解題策略,Qwen3.7-Max 在訓練中將任務、運行框架與驗證器進行解耦,並透過跨框架強化學習訓練避免針對特定基準的捷徑過擬合。在通用的智能體基準 MCP-Mark(60.8 分)與 SpreadSheetBench(87.0 分)上,Qwen3.7-Max 展現了極強的泛化性,綜合效能表現已緊逼 Claude-4.6-Opus-Max。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露