OpenClaw AI एजेंट बेंचमार्क: सफलता दर के आधार पर शीर्ष 10 मॉडल

ओपनक्लॉ में वास्तविक दुनिया के एजेंट कार्यों में कौन सा बड़ा मॉडल वास्तव में सबसे शक्तिशाली है?

MyToken ने एक पारदर्शी बेंचमार्क तैयार किया है, जो AI कोडिंग एजेंट्स की वास्तविक क्षमता का मूल्यांकन करने पर केंद्रित है, और इसमें केवल सफलता की दर को एक मुख्य मापदंड के रूप में देखा जाता है (गति और लागत अन्य स्वतंत्र मापदंड हैं, जिनका बाद में अलग से विश्लेषण किया जाएगा)। यह पूरी तरह से खुला, पुनर्निर्मित करने योग्य है, और केवल कठोर मूल्यांकन मानदंडों और नवीनतम सफलता की दर के शीर्ष 10 सूची को प्रस्तुत करता है।

एक, मूल्यांकन मापदंड: सफलता की दर

विशिष्ट मानदंड: दिए गए कार्य को AI एजेंट द्वारा पूर्ण और सटीक रूप से पूरा किए जाने का अनुपात। प्रत्येक कार्य अत्यधिक मानकीकृत प्रक्रिया का उपयोग करता है:

एक सटीक उपयोगकर्ता प्रॉम्प्ट

पूर्ण अभिग्राहक को भेजें ताकि वास्तविक उपयोगकर्ता अनुरोध परिदृश्य का अनुकरण किया जा सके

अपेक्षित व्यवहार

स्वीकार्य वास्तवीकरण विधियों और महत्वपूर्ण निर्णय बिंदुओं का वर्णन

मूल्यांकन मानदंड (चेकलिस्ट)

एक एटमिक सफलता निर्धारण सूची बनाएं जिसे प्रत्येक बिंदु पर जांचा जा सके

द्वितीय: तीन मूल्यांकन विधियाँ

इस समीक्षा में मुख्य रूप से तीन अंकन विधियाँ अपनाई गईं

ऑटोमेटेड चेक: पायथन स्क्रिप्ट फाइल कंटेंट, एक्जीक्यूशन लॉग, टूल कॉल आदि वस्तुनिष्ठ परिणामों की सीधे जांच करती है
LLM बड़ा मॉडल न्यायाधीश: Claude Opus विस्तृत मापदंड के अनुसार अंक देता है (सामग्री गुणवत्ता, उपयुक्तता, पूर्णता आदि)
मिक्स्ड मोड: ऑटोमेटेड ऑब्जेक्टिव चेक + LLM जज द्वारा क्वालिटेटिव एवलुएशन का संयोजन

All task definitions, prompts, and scoring logic are publicly disclosed for retesting and verification.

तीन, मूल्यांकन के लिए कार्य

इस बेंचमार्क में 23 अलग-अलग श्रेणियों के कार्य शामिल हैं। यह मूल इंटरैक्शन, फाइल/कोड ऑपरेशन, कंटेंट रचना, अनुसंधान विश्लेषण, सिस्टम टूल कॉल, मेमोरी परसिस्टेंस जैसे कई पहलुओं को कवर करता है और डेवलपर्स के दैनिक OpenClaw उपयोग के स्थिति के साथ अत्यधिक मेल खाता है:

सैनिटी चेक (ऑटोमेटेड) — सरल निर्देशों को संभालें और अभिवादन का सही तरीके से उत्तर दें
कैलेंडर इवेंट बनाना (स्वचालित) — प्राकृतिक भाषा से मानक ICS कैलेंडर फ़ाइल उत्पन्न करें
स्टॉक की कीमत शोध (स्वचालित) — वास्तविक समय में स्टॉक की कीमत की जांच करें और फॉर्मेटेड रिपोर्ट निकालें
ब्लॉग पोस्ट लेखन (LLM न्यायाधीश) — लगभग 500 शब्दों का संरचित Markdown ब्लॉग लिखें
मौसम स्क्रिप्ट निर्माण (स्वचालित) — त्रुटि संसाधन के साथ Python मौसम API स्क्रिप्ट लिखें
दस्तावेज सारांशीकरण (LLM न्यायाधीश) — तीन-खंड रूप में मुख्य विषय का संक्षिप्त सारांश
टेक कॉन्फ्रेंस शोध (LLM न्यायाधीश) —— 5 वास्तविक टेक कॉन्फ्रेंस की जानकारी (नाम, तारीख, स्थान, लिंक) का संकलन
पेशेवर ईमेल तैयार करना (LLM न्यायाधीश) — सम्मेलन को विनम्रता से अस्वीकार करें और वैकल्पिक समाधान प्रस्तावित करें
संदर्भ से स्मृति प्राप्ति (स्वचालित) — प्रोजेक्ट नोट्स से तारीखें, सदस्य, तकनीकी स्टैक आदि का सटीक निकालना
फाइल स्ट्रक्चर बनाना (स्वचालित) — मानक प्रोजेक्ट डायरेक्टरी, README, .gitignore को स्वचालित रूप से बनाएं
मल्टी-स्टेप API वर्कफ्लो (मिश्रित) —— कॉन्फिगरेशन पढ़ें → कॉल स्क्रिप्ट लिखें → पूर्ण दस्तावेजीकरण
ClawdHub स्किल (ऑटोमेशन) इंस्टॉल करें — स्किल रिपॉजिटरी से इंस्टॉल करें और उपलब्धता की पुष्टि करें
खोजें और स्किल स्थापित करें (स्वचालित) — मौसम से संबंधित स्किल खोजें और सही ढंग से स्थापित करें
AI इमेज जनरेशन (मिश्रित) — वर्णन के आधार पर इमेज बनाएं और सहेजें
मानवीकृत करें AI-द्वारा उत्पन्न ब्लॉग (LLM न्यायाधीश) — मशीनी शैली के सामग्री को प्राकृतिक मौखिक भाषा में बदलें
दैनिक शोध सारांश (LLM न्यायाधीश) — एक संगठित दैनिक सारांश के लिए बहुत सारे दस्तावेजों का संयोजन
ईमेल इनबॉक्स ट्राइज (मिश्रित) — कई ईमेलों का विश्लेषण करें और तत्कालता के आधार पर रिपोर्ट तैयार करें
ईमेल खोज और सारांशीकरण (मिश्रित) — आर्काइव्ड ईमेल्स को खोजें और महत्वपूर्ण जानकारी को सारांशित करें
प्रतिस्पर्धी बाजार अनुसंधान (मिश्रित) — उद्यम APM क्षेत्र में प्रतिद्वंद्वी विश्लेषण
CSV और Excel सारांशीकरण (मिश्रित) —— टेबल फाइलों का विश्लेषण करें और निष्कर्ष प्राप्त करें
ELI5 PDF सारांश (LLM न्यायाधीश) — तकनीकी PDF को एक 5 साल के बच्चे के समझ में आने वाली भाषा में समझाएं
OpenClaw रिपोर्ट समझ (स्वचालित) — अनुसंधान रिपोर्ट PDF से विशिष्ट प्रश्नों का सटीक उत्तर दें
दूसरा ब्रेन ज्ञान स्थायित्व (मिश्रित) — सत्रों के बीच जानकारी को संग्रहीत करना और सटीकता से याद रखना

चार: मुख्य निष्कर्ष: सफलता दर के शीर्ष 10 बड़े मॉडल्स की सूची (सर्वोत्तम %/औसत %)

डेटा 7 अप्रैल, 2026 तक का अपडेट है
सर्वोत्तम % एकल अधिकतम सफलता दर है, औसत % बार-बार की औसत सफलता दर है, जो स्थिरता को अधिक अच्छी तरह से दर्शाता है

यहाँ सबसे अधिक सफलता दर वाले दस मॉडल हैं

anthropic/claude-opus-4.6 (Anthropic) —— 93.3% / 82.0%
arcee-ai/trinity-large-thinking (Arcee AI) — 91.9% / 91.9%
openai/gpt-5.4 (OpenAI) —— 90.5% / 81.7%
qwen/qwen3.5-27b (Qwen) —— 90.0% / 78.5%
minimax/minimax-m2.7 (MiniMax) —— 89.8% / 83.2%
anthropic/claude-haiku-4.5 (Anthropic) —— 89.5% / 78.1%
qwen/qwen3.5-397b-a17b (Qwen) —— 89.1% / 80.4%
xiaomi/mimo-v2-flash（Xiaomi）——88.8% / 70.2%
qwen/qwen3.6-plus-preview (Qwen) —— 88.6% / 84.0%
nvidia/nemotron-3-super-120b-a12b（NVIDIA）——88.6% / 75.5%

OpenClaw

Claude Opus 4.6 अभी 93.3% की सर्वोच्च सफलता दर के साथ अग्रणी है, लेकिन Arcee का Trinity औसत स्थिरता में उल्लेखनीय प्रदर्शन कर रहा है, और Qwen श्रृंखला के कई मॉडल टॉप दस में शामिल हैं, जो बहुत अच्छी कीमत-प्रदर्शन क्षमता को दर्शाते हैं। सफलता दर एक आधारभूत दरवाजा है, आगे गति और लागत के मापदंड वास्तविक अनुभव को आगे प्रभावित करेंगे।

यह 23 कार्य बेंचमार्क पूरी तरह पारदर्शी है, और हम सभी को अपने वास्तविक परिदृश्य के साथ इसका परीक्षण करने की जोरदार सलाह देते हैं। अधिक मॉडल रैंकिंग के लिए, MyToken द्वारा जल्द ही लॉन्च किए जाने वाले एजेंट रैंकिंग फीचर का इंतजार करें।

(डेटा PinchBench द्वारा सार्वजनिक OpenClaw एजेंट बेंचमार्क से लिया गया है, जो लगातार अपडेट किया जा रहा है।)