Odaily星球日報訊 慢霧 CISO 23pads 在 X 平台發文表示,PinchBench 基準測試評估 AI 大語言模型在 OpenClaw 代理任務中的表現,結果顯示 Gemini 3 Flash 處理 OpenClaw 任務成功率以 95.1% 領先,minimax-m2.1、kimi-k2.5 則分別以 93.6%、93.4% 分列第 2、3 名。Claude Sonnet 4.5 則為 92.7%,GPT-4o 為 85.2%。
PinchBench 基準測試:Gemini 3 Flash 在 OpenClaw 任務中以 95.1% 的成功率領先 AI 模型
KuCoinFlash分享






流動性與加密貨幣市場迎來新基準,Gemini 3 Flash 在 OpenClaw 任務中以 95.1% 的成功率位居 PinchBench 測試榜首,Minimax-m2.1 和 Kimi-k2.5 分別以 93.6% 和 93.4% 緊隨其後,Claude Sonnet 4.5 和 GPT-4o 則取得 92.7% 和 85.2% 的成績。此測試專注於真實世界代理的表現,監管機構在監控 CFT 合規時,或可追蹤此類指標以提升透明度。
來源:顯示原文
免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。
虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款和風險披露 。