وفقًا لـ 1M AI News، قام بيتير شتاينبرغر، مؤسس OpenClaw، بإعادة تغريد نتائج اختبار مرجعي من جهة خارجية تُسمى PinchBench، والذي قيّم أداء نماذج اللغة الكبيرة للذكاء الاصطناعي في مهام وكيل OpenClaw.
أظهرت النتائج أن Gemini 3 Flash حقق نجاحًا بنسبة 95.1% في معالجة مهام OpenClaw، متقدمًا على minimax-m2.1 و kimi-k2.5 اللذين جاءا في المرتين الثانية والثالثة بنسبة 93.6% و93.4% على التوالي. أما Claude Sonnet 4.5 فبلغت نسبته 92.7%، وGPT-4o بلغت 85.2%.
