ہواوی نے ذاتی اسسٹنٹ کے کاموں میں AI ایجینٹس کا جائزہ لینے کے لیے Claw-Anything بینچ مارک شروع کیا

iconCryptoBriefing
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
ہواوی نے 25 مئی، 2026 کو بیجنگ انسٹیٹیوٹ آف ٹیکنالوجی اور پکنگ یونیورسٹی کے ساتھ مل کر Claw-Anything بینچ مارک شروع کیا۔ یہ بینچ مارک متعدد سروسز میں پیچیدہ ڈیجیٹل زندگی کے کاموں کو منظم کرنے میں AI ایجینٹس کا جائزہ لیتا ہے۔ GPT-5.5 نے 34.5% اسکور کیا، جبکہ Claude Opus 4.7 نے 31.8% اسکور کیا۔ اس بینچ مارک میں 200 انسانی تصدیق شدہ کام شامل ہیں جن کا اوسط متن 191.7k الفاظ ہے۔ ایک تربیتی پائپ لائن نے Qwen3.5-27B کی کارکردگی میں 23.7% کا اضافہ کیا۔ یہ AI + کرپٹو خبروں کا اپڈیٹ ڈیجیٹل اثاثوں کی خبروں اور AI صلاحیتوں کا جائزہ لینے کے لیے نئے ٹولز پر روشنی ڈالتا ہے۔

AI ہائپ سائیکل کے لیے ایک عاجز کن عدد یہ ہے: GPT-5.5، دنیا کے سب سے جدید ترین زبانی ماڈلز میں سے ایک، ایک واقعی ڈیجیٹل ماحول میں ہمیشہ آن پرسنل اسسٹنٹ کے طور پر کام کرنے پر صرف 34.5% سکور کر پایا۔ Claude Opus 4.7 نے 31.8% پر مزید کمزوری دکھائی۔

یہ نتائج Claw-Anything سے آئے ہیں، جو ہواوی کے محققین نے بیجنگ انسٹیٹیوٹ آف ٹیکنالوجی اور پکنگ یونیورسٹی کے ساتھ مل کر 25 مئی، 2026 کو جاری کیا۔ یہ تحقیق صرف یہ نہیں جانچتی کہ AI سوالات کے جواب دے سکتا ہے، بلکہ یہ جانچتی ہے کہ AI کیا آپ کی ڈیجیٹل زندگی کو اصل میں چلا سکتا ہے۔

کلॉ-آنیتھنگ دراصل کیا ناپتا ہے

معیاری ٹیسٹ ایک مکمل ڈیجیٹل زندگی کا شبیہہ بناتا ہے، پھر AI اسسٹنٹس سے مانگتا ہے کہ وہ لمبے عرصے تک کی واقعات کی سلسلہ وار اور متعدد متبادل طریقہ کار والی بیک اینڈ سروسز کے ذریعے اس کا انتظام کریں۔ آپ AI سے صرف ایک ای میل کا خلاصہ نہیں مانگ رہے، بلکہ آپ اس سے آپ کا ان بکس، کیلنڈر، میسجنگ ایپس اور فائل سسٹمز کو ایک ساتھ نگرانی کرنے اور بغیر کہے ہوئے مناسب کارروائی کرنے کا مطالبہ کر رہے ہیں۔

اعلان

یہ پیچیدگی قابلِ ذکر ہے۔ کاموں میں اوسطاً 10.1 آپس میں منحصر خدمات شامل ہیں، جبکہ کچھ صورتحال میں یہ تعداد 18 تک پہنچ جاتی ہے۔ بینچ مارک میں 200 انسانی طور پر تصدیق شدہ کام کے ماحول شامل ہیں، جن میں اوسطاً ہر ماحول میں 191.7k حوالہ الفاظ ہیں۔

معیاری جائزہ متعدد ڈیوائسز پر گرافیکل صارف انٹرفیس اور کمانڈ لائن انٹرفیس کے تعاملات کا جائزہ لیتا ہے۔ یہ پیش گوئی کے رویے کا بھی امتحان کرتا ہے: کیا AI اس بات کو نوٹ کر سکتا ہے کہ کچھ کرنے کی ضرورت ہے، جب تک آپ نے نہیں پوچھا؟

ٹریننگ پائپ لائن امید کا ایک کرہ فراہم کرتی ہے

تحقیقی ٹیم نے ایک خودکار پائپ لائن تعمیر کی جس نے ان پیچیدہ اسسٹنٹ کاموں پر AI ماڈلز کو فائن ٹیون کرنے کے لیے 2,000 تربیتی ماحول تیار کیے۔ Qwen3.5-27B، ایک چھوٹا اوپن سورس ماڈل، جب ان ماحولوں سے کامیاب کاموں کے ٹریجکٹریز پر فائن ٹیون کیا گیا تو اس کی کارکردگی میں 23.7% کا بہتری آئی۔

کلو بینچ اور وائلڈ کلو بینچ، جو وسیع اوپن کلو ایکو سسٹم کے اندر مشابہ متعدد مرحلہ عملی کاموں کا امتحان لیتے ہیں، اعلیٰ AI ماڈلز کو 33% اور 62% کے درمیان سکور دیتے ہیں۔

کرپٹو سرمایہ کاروں کو توجہ دینی چاہیے

GPT-5.5 کے لیے 34.5% پاس ریٹ خاص طور پر قابل توجہ ہے کیونکہ بہت سے کرپٹو AI منصوبے OpenAI کے مڈلز پر بنائے جاتے ہیں۔ Qwen3.5-27B کے ساتھ فائن ٹیوننگ کے نتائج یہ ظاہر کرتے ہیں کہ ڈومین خاص کامیاب راستوں پر مبنی تربیت سے کارکردگی میں معنی خیز بہتری حاصل کی جا سکتی ہے۔ اس کا مطلب یہ ہے کہ وہ کرپٹو AI منصوبے جو اصل آن-چین تفاعل سے اعلیٰ معیار کی تربیتی ڈیٹا کو اکٹھا کرنے میں زیادہ سرمایہ کاری کر رہے ہیں، وہی اصل قدر فراہم کرنے کے لیے سب سے زیادہ ممکنہ ہیں۔

ہواوی کی شامل ہونا، اور OpenClaw فریم ورک کے ساتھ، اوپن سورس AI بینچ مارکنگ میں، اعتماد کے ساتھ AI اسسٹنٹس بنانے کی دوڑ کے عالمی ہونے کا اشارہ ہے۔ یہ بینچ مارک خاص طور پر اس قسم کی پیچیدہ، متعدد مراحل، متعدد سروسز کی تعاون کا امتحان کرتا ہے جو کرپٹو AI ایجنس کو قابل اعتماد طریقے سے انجام دینا ہوگا: متعدد پروٹوکولز پر DeFi پورٹ فولیوز کا انتظام، حکومتی پیش گوئیوں کی نگرانی، بازار کی صورتحال کے مطابق ریبالنسنگ، اور زنجیروں کے درمیان اثاثوں کا برج کرنا۔

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔