据 1M AI News 消息,OpenClaw 创始人 Peter Steinberger 转发第三方机构 PinchBench 基准测试结果,该测试评估 AI 大语言模型在 OpenClaw 代理任务中的表现。
परिणाम दर्शाते हैं कि Gemini 3 Flash ने OpenClaw कार्य को सफलतापूर्वक पूरा करने की दर 95.1% के साथ अग्रणी स्थान प्राप्त किया, जबकि minimax-m2.1 और kimi-k2.5 क्रमशः 93.6% और 93.4% के साथ दूसरे और तीसरे स्थान पर हैं। Claude Sonnet 4.5 का स्कोर 92.7% है और GPT-4o का 85.2% है।
