AI ہائپ سائیکل کے لیے ایک عاجز کن عدد یہ ہے: GPT-5.5، دنیا کے سب سے جدید ترین زبانی ماڈلز میں سے ایک، ایک واقعی ڈیجیٹل ماحول میں ہمیشہ آن پرسنل اسسٹنٹ کے طور پر کام کرنے پر صرف 34.5% سکور کر پایا۔ Claude Opus 4.7 نے 31.8% پر مزید کمزوری دکھائی۔
یہ نتائج Claw-Anything سے آئے ہیں، جو ہواوی کے محققین نے بیجنگ انسٹیٹیوٹ آف ٹیکنالوجی اور پکنگ یونیورسٹی کے ساتھ مل کر 25 مئی، 2026 کو جاری کیا۔ یہ تحقیق صرف یہ نہیں جانچتی کہ AI سوالات کے جواب دے سکتا ہے، بلکہ یہ جانچتی ہے کہ AI کیا آپ کی ڈیجیٹل زندگی کو اصل میں چلا سکتا ہے۔
کلॉ-آنیتھنگ دراصل کیا ناپتا ہے
معیاری ٹیسٹ ایک مکمل ڈیجیٹل زندگی کا شبیہہ بناتا ہے، پھر AI اسسٹنٹس سے مانگتا ہے کہ وہ لمبے عرصے تک کی واقعات کی سلسلہ وار اور متعدد متبادل طریقہ کار والی بیک اینڈ سروسز کے ذریعے اس کا انتظام کریں۔ آپ AI سے صرف ایک ای میل کا خلاصہ نہیں مانگ رہے، بلکہ آپ اس سے آپ کا ان بکس، کیلنڈر، میسجنگ ایپس اور فائل سسٹمز کو ایک ساتھ نگرانی کرنے اور بغیر کہے ہوئے مناسب کارروائی کرنے کا مطالبہ کر رہے ہیں۔
یہ پیچیدگی قابلِ ذکر ہے۔ کاموں میں اوسطاً 10.1 آپس میں منحصر خدمات شامل ہیں، جبکہ کچھ صورتحال میں یہ تعداد 18 تک پہنچ جاتی ہے۔ بینچ مارک میں 200 انسانی طور پر تصدیق شدہ کام کے ماحول شامل ہیں، جن میں اوسطاً ہر ماحول میں 191.7k حوالہ الفاظ ہیں۔
معیاری جائزہ متعدد ڈیوائسز پر گرافیکل صارف انٹرفیس اور کمانڈ لائن انٹرفیس کے تعاملات کا جائزہ لیتا ہے۔ یہ پیش گوئی کے رویے کا بھی امتحان کرتا ہے: کیا AI اس بات کو نوٹ کر سکتا ہے کہ کچھ کرنے کی ضرورت ہے، جب تک آپ نے نہیں پوچھا؟
ٹریننگ پائپ لائن امید کا ایک کرہ فراہم کرتی ہے
تحقیقی ٹیم نے ایک خودکار پائپ لائن تعمیر کی جس نے ان پیچیدہ اسسٹنٹ کاموں پر AI ماڈلز کو فائن ٹیون کرنے کے لیے 2,000 تربیتی ماحول تیار کیے۔ Qwen3.5-27B، ایک چھوٹا اوپن سورس ماڈل، جب ان ماحولوں سے کامیاب کاموں کے ٹریجکٹریز پر فائن ٹیون کیا گیا تو اس کی کارکردگی میں 23.7% کا بہتری آئی۔
کلو بینچ اور وائلڈ کلو بینچ، جو وسیع اوپن کلو ایکو سسٹم کے اندر مشابہ متعدد مرحلہ عملی کاموں کا امتحان لیتے ہیں، اعلیٰ AI ماڈلز کو 33% اور 62% کے درمیان سکور دیتے ہیں۔
کرپٹو سرمایہ کاروں کو توجہ دینی چاہیے
GPT-5.5 کے لیے 34.5% پاس ریٹ خاص طور پر قابل توجہ ہے کیونکہ بہت سے کرپٹو AI منصوبے OpenAI کے مڈلز پر بنائے جاتے ہیں۔ Qwen3.5-27B کے ساتھ فائن ٹیوننگ کے نتائج یہ ظاہر کرتے ہیں کہ ڈومین خاص کامیاب راستوں پر مبنی تربیت سے کارکردگی میں معنی خیز بہتری حاصل کی جا سکتی ہے۔ اس کا مطلب یہ ہے کہ وہ کرپٹو AI منصوبے جو اصل آن-چین تفاعل سے اعلیٰ معیار کی تربیتی ڈیٹا کو اکٹھا کرنے میں زیادہ سرمایہ کاری کر رہے ہیں، وہی اصل قدر فراہم کرنے کے لیے سب سے زیادہ ممکنہ ہیں۔
ہواوی کی شامل ہونا، اور OpenClaw فریم ورک کے ساتھ، اوپن سورس AI بینچ مارکنگ میں، اعتماد کے ساتھ AI اسسٹنٹس بنانے کی دوڑ کے عالمی ہونے کا اشارہ ہے۔ یہ بینچ مارک خاص طور پر اس قسم کی پیچیدہ، متعدد مراحل، متعدد سروسز کی تعاون کا امتحان کرتا ہے جو کرپٹو AI ایجنس کو قابل اعتماد طریقے سے انجام دینا ہوگا: متعدد پروٹوکولز پر DeFi پورٹ فولیوز کا انتظام، حکومتی پیش گوئیوں کی نگرانی، بازار کی صورتحال کے مطابق ریبالنسنگ، اور زنجیروں کے درمیان اثاثوں کا برج کرنا۔
