AI हाइप साइकिल के लिए एक विनम्र संख्या: GPT-5.5, दुनिया के सबसे उन्नत भाषा मॉडल में से एक, एक वास्तविक डिजिटल वातावरण में हमेशा चलने वाले व्यक्तिगत सहायक के रूप में कार्य करने पर केवल 34.5% स्कोर कर पाया। Claude Opus 4.7 ने 31.8% पर और बुरा प्रदर्शन किया।
ये परिणाम Claw-Anything से आते हैं, जो हुआवेई शोधकर्ताओं द्वारा बीजिंग इंस्टीट्यूट ऑफ टेक्नोलॉजी और पीकिंग विश्वविद्यालय के सहयोग से प्रकाशित एक नया बेंचमार्क है। 25 मई, 2026 को प्रकाशित यह पेपर केवल यह परीक्षण नहीं करता कि AI प्रश्नों के उत्तर दे सकता है या नहीं। यह परीक्षण करता है कि AI वास्तव में आपका डिजिटल जीवन चला सकता है या नहीं।
Claw-Anything वास्तव में क्या मापता है
बेंचमार्क एक पूर्ण डिजिटल जीवन का अनुकरण करता है, फिर AI सहायकों से लंबे समय तक चलने वाली घटनाओं और कई परस्पर निर्भर बैकएंड सेवाओं के माध्यम से इसका प्रबंधन करने को कहता है। आप AI से एक ईमेल का सारांश देने के बजाय, आप इससे अपना इनबॉक्स, कैलेंडर, संदेश ऐप्स और फाइल सिस्टम एक साथ मॉनिटर करने और बिना कहे ही उचित कार्रवाई करने को कहते हैं।
जटिलता काफी अधिक है। कार्यों में औसतन 10.1 आपस में निर्भर सेवाएँ शामिल हैं, कुछ परिदृश्यों में यह संख्या 18 तक पहुँच सकती है। बेंचमार्क में 200 मानव-सत्यापित कार्य परिवेश हैं, जिनमें प्रति परिवेश औसतन 191.7k संदर्भ शब्द हैं।
बेंचमार्क एक से अधिक उपकरणों पर ग्राफिकल यूजर इंटरफेस और कमांड लाइन इंटरफेस दोनों की बातचीत का मूल्यांकन करता है। यह प्रोएक्टिव व्यवहार का भी परीक्षण करता है: क्या AI आपसे पूछे जाने से पहले यह महसूस कर सकता है कि कुछ करने की आवश्यकता है?
प्रशिक्षण पाइपलाइन एक आशा की किरण प्रदान करती है
अनुसंधान टीम ने एक स्वचालित पाइपलाइन बनाई जिसने इन जटिल सहायक कार्यों पर AI मॉडल को फाइन-ट्यून करने के लिए 2,000 प्रशिक्षण वातावरण उत्पन्न किए। Qwen3.5-27B, एक छोटा ओपन-सोर्स मॉडल, इन वातावरणों से प्राप्त सफल कार्य ट्रैजेक्टरीज पर फाइन-ट्यून करने के बाद 23.7% का प्रदर्शन सुधार दिखाया।
ClawBench और WildClawBench, जो व्यापक OpenClaw परितंत्र के भीतर समान बहु-चरणीय व्यावहारिक कार्यों का परीक्षण करते हैं, शीर्ष AI मॉडल्स को 33% और 62% के बीच स्कोर दिखाते हैं।
क्रिप्टो निवेशकों को ध्यान क्यों देना चाहिए
GPT-5.5 के लिए 34.5% पास दर विशेष रूप से ध्यान देने योग्य है क्योंकि कई क्रिप्टो AI प्रोजेक्ट्स OpenAI के मॉडल्स पर बनाए गए हैं। Qwen3.5-27B के साथ फाइन-ट्यूनिंग के परिणाम यह सुझाते हैं कि डोमेन-विशिष्ट सफल ट्रैजेक्टरीज पर विशेष प्रशिक्षण से प्रदर्शन में महत्वपूर्ण सुधार हो सकता है। इसका मतलब है कि ऐसे क्रिप्टो AI प्रोजेक्ट्स जो वास्तविक ऑन-चेन इंटरैक्शन्स से उच्च गुणवत्ता वाले प्रशिक्षण डेटा को संग्रहित करने में भारी निवेश कर रहे हैं, वे सबसे अधिक संभावना है कि वास्तविक मूल्य प्रदान करेंगे।
हुआवेई की ओपन-सोर्स एआई बेंचमार्किंग में भागीदारी, साथ ही व्यापक ओपनक्लॉ फ्रेमवर्क के साथ, यह संकेत देती है कि विश्वसनीय एआई सहायक बनाने की प्रतिस्पर्धा लगातार वैश्विक होती जा रही है। यह बेंचमार्क उस प्रकार के जटिल, बहु-चरणीय, बहु-सेवा समन्वय का परीक्षण करता है जिसकी क्रिप्टो एआई एजेंट्स को विश्वसनीय ढंग से करने की आवश्यकता होगी: कई प्रोटोकॉल पर डीफाई पोर्टफोलियो का प्रबंधन, गवर्नेंस प्रस्तावों का निगरानी करना, बाजार की स्थिति के आधार पर पुनः संतुलन करना, और संपत्तियों को चेन के बीच ब्रिज करना।
