1M AI News'e göre, OpenClaw kurucusu Peter Steinberger, üçüncü taraf kuruluş PinchBench'in OpenClaw vekil görevlerinde AI büyük dil modellerinin performansını değerlendiren benchmark testi sonuçlarını paylaştı.
Sonuçlar, Gemini 3 Flash'ın OpenClaw görevini %95,1 başarı oranı ile birinci sırada tamamladığını, minimax-m2.1 ve kimi-k2.5'in sırasıyla %93,6 ve %93,4 başarı oranları ile ikinci ve üçüncü sırada olduğunu gösteriyor. Claude Sonnet 4.5 %92,7, GPT-4o ise %85,2 başarı oranı ile yer alıyor.
