AIMPACT 消息,5 月 13 日(UTC+8),全球權威評測機構 Artificial Analysis 發布全新 Coding Agent 基準——Artificial Analysis Coding Agent Index,用於衡量 Agent harnesses 與模型組合在 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 和 SWE-Atlas-QnA 三項主流基準上的表現。在該評測中,閉源模型 Opus 4.7(運行於 Cursor CLI)取得全球第一,GLM-5.1(運行於 Claude Code)則獲得開源第一。該基準覆蓋真實編程任務、Agentic 終端任務和技術問答題,旨在反映實際編程 Agent 場景下的真實性能。文中觀點認為,GLM-5.1 代表了國產大模型在該場景下的 SOTA 能力。(來源:InFoQ)
GLM-5.1 在人工分析編碼代理基準測試中位列開源模型第一名
KuCoinFlash分享






區塊鏈分析公司 Artificial Analysis 於 5 月 13 日(UTC+8)發布了 Coding Agent 指數,評估模型在 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 和 SWE-Atlas-QnA 上的表現。GLM-5.1(運行於 Claude Code)在開源模型中位居榜首,而 Opus 4.7(Cursor CLI)則整體領先。該基準測試評估真實世界的編碼、終端任務和技術問答。GLM-5.1 展現了頂尖的開源模型表現,國內模型的關注度持續上升。
來源:顯示原文
免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。
虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款和風險披露 。