Ipinakilala ng Huawei ang Claw-Anything Benchmark upang subukan ang mga AI Agent sa mga gawain ng personal assistant

iconCryptoBriefing
I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconSummary

expand icon
Ipinakilala ng Huawei ang Claw-Anything benchmark noong Mayo 25, 2026, sa pamamagitan ng pakikipag-ugnayan sa Beijing Institute of Technology at Peking University. Tinataya ng benchmark ang mga AI agent sa pagpapatakbo ng mga kumplikadong gawain sa digital na buhay sa iba’t ibang serbisyo. Nakakuha ang GPT-5.5 ng 34.5%, habang nakakuha ang Claude Opus 4.7 ng 31.8%. Kasama sa benchmark ang 200 na gawain na patotohanan ng tao na may average na 191.7k na salitang konteksto. Binigyan ng pagpapabuti ng isang training pipeline ang performance ng Qwen3.5-27B ng 23.7%. Ipinapakita ng update sa balita tungkol sa AI + crypto na ito ang mga bagong kasangkapan para sa pag-evaluate ng balita tungkol sa digital na ari-arian at kakayahan ng AI.

Narito ang isang nakakapagpapakumbaba na bilang para sa siklo ng hype sa AI: GPT-5.5, isa sa mga pinaka-advanced na language model sa mundo, ay nakakuha ng 34.5% lamang nang hilingin na maging isang palaging-on na personal assistant sa isang realistiko digital na kapaligiran. Mas masama ang resulta ni Claude Opus 4.7 sa 31.8%.

Mula sa Claw-Anything, isang bagong benchmark na inilabas ng mga mananaliksik mula sa Huawei kasama ang Beijing Institute of Technology at Peking University. Ang papel, na inilabas noong Mayo 25, 2026, ay hindi lamang sinusubok kung ang AI ay makakasagot ng mga tanong. Sinusubok nito kung ang AI ay talagang makapagpapatakbo ng iyong digital na buhay.

Ano ang sinusukat ng Claw-Anything

Ang benchmark ay nagpapakita ng isang kumpletong digital na buhay, pagkatapos ay hinihingi sa mga AI assistant na pamahalaan ito sa mga mahabang panahon ng mga pangyayari at maraming interdependent na backend service. Sa halip na hilingin sa AI na i-summarize ang isang email, hinihingi mo sa iyo na subaybayan ang iyong inbox, kalendaryo, mga app ng mensahe, at mga file system nang одночасно, at pagkatapos ay gawin ang angkop na aksyon nang hindi ipinag-uutos.

Pamamahayag

Ang kumplikado ay malaki. Ang mga gawain ay nagsasangkot ng isang average na 10.1 na interdependent na serbisyo, na may ilang skenaryo na umabot hanggang sa 18. Ang benchmark ay naglalaman ng 200 na task environments na binigyang-konsulta ng mga tao, na may average na 191.7k na salitang konteksto bawat environment.

Sinusuri ng benchmark ang mga interaksyon sa graphical user interface at command line interface sa iba’t ibang device. Sinusubok din nito ang proaktibong pag-uugali: nakikita ba ng AI ang isang bagay na kailangang gawin bago ka mag-utos?

Ang training pipeline ay nagtataglay ng isang tiyak na pag-asa

Ginawa ng team ng pananaliksik ang isang automated na pipeline na nag-generate ng 2,000 mga training environment para sa fine-tuning ng AI models sa mga kumplikadong gawain ng assistant. Nakita ng Qwen3.5-27B, isang mas maliit na open-source na model, ang isang pagtaas ng 23.7% sa performance pagkatapos ma-fine-tune sa mga tagumpay na task trajectories mula sa mga environment na ito.

Ang ClawBench at WildClawBench, na nagtatala ng mga katulad na multi-step na praktikal na gawain sa loob ng mas malawak na OpenClaw ecosystem, ay nagpapakita ng pinakamataas na marka ng mga AI model sa pagitan ng 33% at 62%.

Bakit dapat pansinin ng mga investor sa cryptocurrency

Ang 34.5% na rate ng pagpasa para sa GPT-5.5 ay lalong nakakatangi dahil maraming crypto AI project na nabubuo sa ibabaw ng mga modelo ng OpenAI. Ang mga resulta ng fine-tuning gamit ang Qwen3.5-27B ay nagmumungkahi na ang espesyalisadong pagtuturo sa domain-specific na matagumpay na trahektorya ay maaaring makapagpabuti nang may kahulugan sa performance. Ibig sabihin, ang mga crypto AI project na malamang na magdadala ng tunay na halaga ay ang mga nagpapalaki ng malaking pondo sa pagpili ng mataas na kalidad na training data mula sa totoong on-chain interactions.

Ang pagkakaugnay ni Huawei sa open-source na pagbabantay ng AI, kasama ang mas malawak na OpenClaw framework, ay nagpapakita na ang pagtutunggalian upang bumuo ng mga kapanatigan na AI assistant ay lalong global. Ang pagbabantay ay partikular na tumataya sa uri ng kompleks, marami-hakbang, at marami-serbisyo na koordinasyon na kailangan ng mga AI agent sa crypto upang maging maaasahan: pamamahala ng DeFi portfolio sa maraming protokolo, pagmamasid sa mga propuesta ng pamamahala, pag-rebalance batay sa mga kondisyon ng merkado, at pag-bridge ng mga aset sa pagitan ng mga chain.

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.