Ipinakilala ng Huawei ang Claw-Anything Benchmark upang subukan ang mga AI Agent sa mga gawain ng personal assistant

Narito ang isang nakakapagpapakumbaba na bilang para sa siklo ng hype sa AI: GPT-5.5, isa sa mga pinaka-advanced na language model sa mundo, ay nakakuha ng 34.5% lamang nang hilingin na maging isang palaging-on na personal assistant sa isang realistiko digital na kapaligiran. Mas masama ang resulta ni Claude Opus 4.7 sa 31.8%.

Mula sa Claw-Anything, isang bagong benchmark na inilabas ng mga mananaliksik mula sa Huawei kasama ang Beijing Institute of Technology at Peking University. Ang papel, na inilabas noong Mayo 25, 2026, ay hindi lamang sinusubok kung ang AI ay makakasagot ng mga tanong. Sinusubok nito kung ang AI ay talagang makapagpapatakbo ng iyong digital na buhay.

Ano ang sinusukat ng Claw-Anything

Ang benchmark ay nagpapakita ng isang kumpletong digital na buhay, pagkatapos ay hinihingi sa mga AI assistant na pamahalaan ito sa mga mahabang panahon ng mga pangyayari at maraming interdependent na backend service. Sa halip na hilingin sa AI na i-summarize ang isang email, hinihingi mo sa iyo na subaybayan ang iyong inbox, kalendaryo, mga app ng mensahe, at mga file system nang одночасно, at pagkatapos ay gawin ang angkop na aksyon nang hindi ipinag-uutos.

Pamamahayag

Ang kumplikado ay malaki. Ang mga gawain ay nagsasangkot ng isang average na 10.1 na interdependent na serbisyo, na may ilang skenaryo na umabot hanggang sa 18. Ang benchmark ay naglalaman ng 200 na task environments na binigyang-konsulta ng mga tao, na may average na 191.7k na salitang konteksto bawat environment.

Sinusuri ng benchmark ang mga interaksyon sa graphical user interface at command line interface sa iba’t ibang device. Sinusubok din nito ang proaktibong pag-uugali: nakikita ba ng AI ang isang bagay na kailangang gawin bago ka mag-utos?

Ang training pipeline ay nagtataglay ng isang tiyak na pag-asa

Ginawa ng team ng pananaliksik ang isang automated na pipeline na nag-generate ng 2,000 mga training environment para sa fine-tuning ng AI models sa mga kumplikadong gawain ng assistant. Nakita ng Qwen3.5-27B, isang mas maliit na open-source na model, ang isang pagtaas ng 23.7% sa performance pagkatapos ma-fine-tune sa mga tagumpay na task trajectories mula sa mga environment na ito.

Ang ClawBench at WildClawBench, na nagtatala ng mga katulad na multi-step na praktikal na gawain sa loob ng mas malawak na OpenClaw ecosystem, ay nagpapakita ng pinakamataas na marka ng mga AI model sa pagitan ng 33% at 62%.

Bakit dapat pansinin ng mga investor sa cryptocurrency

Ang 34.5% na rate ng pagpasa para sa GPT-5.5 ay lalong nakakatangi dahil maraming crypto AI project na nabubuo sa ibabaw ng mga modelo ng OpenAI. Ang mga resulta ng fine-tuning gamit ang Qwen3.5-27B ay nagmumungkahi na ang espesyalisadong pagtuturo sa domain-specific na matagumpay na trahektorya ay maaaring makapagpabuti nang may kahulugan sa performance. Ibig sabihin, ang mga crypto AI project na malamang na magdadala ng tunay na halaga ay ang mga nagpapalaki ng malaking pondo sa pagpili ng mataas na kalidad na training data mula sa totoong on-chain interactions.

Ang pagkakaugnay ni Huawei sa open-source na pagbabantay ng AI, kasama ang mas malawak na OpenClaw framework, ay nagpapakita na ang pagtutunggalian upang bumuo ng mga kapanatigan na AI assistant ay lalong global. Ang pagbabantay ay partikular na tumataya sa uri ng kompleks, marami-hakbang, at marami-serbisyo na koordinasyon na kailangan ng mga AI agent sa crypto upang maging maaasahan: pamamahala ng DeFi portfolio sa maraming protokolo, pagmamasid sa mga propuesta ng pamamahala, pag-rebalance batay sa mga kondisyon ng merkado, at pag-bridge ng mga aset sa pagitan ng mga chain.