据 1M AI News 消息,OpenClaw 創始人 Peter Steinberger 轉發第三方機構 PinchBench 基準測試結果,該測試評估 AI 大語言模型在 OpenClaw 代理任務中的表現。
結果顯示 Gemini 3 Flash 處理 OpenClaw 任務成功率以 95.1% 領先,minimax-m2.1、kimi-k2.5 則分別以 93.6%、93.4% 分列第 2、3 名。Claude Sonnet 4.5 則為 92.7%,GPT-4o 為 85.2%。
KuCoinFlash据 1M AI News 消息,OpenClaw 創始人 Peter Steinberger 轉發第三方機構 PinchBench 基準測試結果,該測試評估 AI 大語言模型在 OpenClaw 代理任務中的表現。
結果顯示 Gemini 3 Flash 處理 OpenClaw 任務成功率以 95.1% 領先,minimax-m2.1、kimi-k2.5 則分別以 93.6%、93.4% 分列第 2、3 名。Claude Sonnet 4.5 則為 92.7%,GPT-4o 為 85.2%。