1M AI News によると、OpenClawの創設者Peter Steinbergerが、第三者機関PinchBenchのベンチマークテスト結果を共有し、そのテストはAI大規模言語モデルがOpenClawエージェントタスクでどのように機能するかを評価しています。
結果、Gemini 3 Flash が OpenClaw タスクの成功率 95.1% で首位を占め、minimax-m2.1 と kimi-k2.5 はそれぞれ 93.6%、93.4% で 2 位、3 位となりました。Claude Sonnet 4.5 は 92.7%、GPT-4o は 85.2% でした。
