AIMPACTのお知らせ、5月13日(UTC+8)、世界的な評価機関Artificial Analysisが、新たなCoding Agentベンチマーク「Artificial Analysis Coding Agent Index」を発表しました。このベンチマークは、Agent harnessesとモデルの組み合わせがSWE-Bench-Pro-Hard-AA、Terminal-Bench v2、SWE-Atlas-QnAの3つの主要ベンチマーク上でどのように機能するかを測定します。この評価において、閉源モデルOpus 4.7(Cursor CLIで実行)が世界第1位を獲得し、GLM-5.1(Claude Codeで実行)がオープンソースモデル中で第1位となりました。このベンチマークは、実際のプログラミングタスク、Agenticターミナルタスク、および技術的質問をカバーし、実際のプログラミングAgentシナリオにおける真のパフォーマンスを反映することを目的としています。記事では、GLM-5.1がこのシナリオにおける中国製大規模モデルのSOTA能力を代表していると評価されています。(出典:InFoQ)
GLM-5.1、人工分析コーディングエージェントベンチマークでオープンソースモデル中1位にランクイン
KuCoinFlash共有






オンチェーン分析企業Artificial Analysisは、5月13日(UTC+8)にCoding Agent Indexをリリースし、SWE-Bench-Pro-Hard-AA、Terminal-Bench v2、SWE-Atlas-QnAに基づいてモデルを評価しました。GLM-5.1(Claude Code上で動作)はオープンソースモデルの中で最高性能を記録し、Opus 4.7(Cursor CLI)が全体で首位を獲得しました。このベンチマークは、実際のコーディング、ターミナルタスク、技術的なQ&Aをテストします。GLM-5.1はオープンソースモデルとして最高のパフォーマンスを示し、国内モデルへの関心が高まっています。
出典:原文を表示
免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。
デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。