Menurut berita dari 1M AI News, pendiri OpenClaw, Peter Steinberger, membagikan hasil pengujian benchmark dari lembaga pihak ketiga PinchBench, yang mengevaluasi kinerja model bahasa besar AI dalam tugas agen OpenClaw.
Hasil menunjukkan bahwa Gemini 3 Flash memimpin dengan tingkat keberhasilan 95,1% dalam menyelesaikan tugas OpenClaw, sedangkan minimax-m2.1 dan kimi-k2.5 masing-masing berada di posisi 2 dan 3 dengan tingkat keberhasilan 93,6% dan 93,4%. Claude Sonnet 4.5 berada di 92,7%, sedangkan GPT-4o berada di 85,2%.
