Huawei Melancarkan Claw-Anything Benchmark untuk Menguji Agen AI dalam Tugas Pembantu Peribadi

Berikut adalah nombor yang merendahkan hati bagi kitaran hype AI: GPT-5.5, salah satu model bahasa paling canggih di dunia, hanya mendapat 34.5% apabila diminta berfungsi sebagai pembantu peribadi yang sentiasa aktif dalam persekitaran digital yang realistik. Claude Opus 4.7 berprestasi lebih buruk lagi pada 31.8%.

Keputusan-keputusan tersebut datang daripada Claw-Anything, satu tolok ukur baharu yang diterbitkan oleh penyelidik Huawei bekerjasama dengan Institut Teknologi Beijing dan Universiti Peking. Kertas kerja ini, yang dikeluarkan pada 25 Mei 2026, tidak hanya menguji sama ada AI boleh menjawab soalan. Ia menguji sama ada AI benar-benar boleh menjalankan kehidupan digital anda.

Apa yang sebenarnya diukur oleh Claw-Anything

Ujian patutan mensimulasikan kehidupan digital yang lengkap, kemudian meminta pembantu AI untuk menguruskannya melalui aliran peristiwa jangka panjang dan pelbagai perkhidmatan belakang yang saling bergantung. Alih-alih meminta AI untuk meringkaskan e-mel, anda meminta ia memantau kotak masuk, kalender, aplikasi mesej, dan sistem fail secara serentak, kemudian mengambil tindakan yang sesuai tanpa diminta.

Kompleksinya adalah besar. Tugasan melibatkan purata 10.1 perkhidmatan saling bergantung, dengan beberapa senario mencapai sehingga 18. Penilaian merangkumi 200 persekitaran tugasan yang disahkan manusia dengan purata 191.7k perkataan konteks setiap persekitaran.

Ujian patutan menilai interaksi antara antaramuka pengguna grafik dan antaramuka baris arahan di pelbagai peranti. Ia juga menguji tingkah laku proaktif: adakah AI dapat memperhatikan sesuatu perlu dilakukan sebelum anda bertanya?

Pipelin latihan menawarkan secercah harapan

Pasukan penyelidikan membina saluran automatik yang menghasilkan 2,000 persekitaran latihan untuk penyesuaian model AI terhadap tugas-tugas pembantu yang kompleks ini. Qwen3.5-27B, model sumber terbuka yang lebih kecil, menunjukkan peningkatan prestasi 23.7% selepas disesuaikan dengan trajektori tugas berjaya daripada persekitaran ini.

ClawBench dan WildClawBench, yang menguji tugas praktik berlangkah banyak yang serupa dalam ekosistem OpenClaw yang lebih luas, menunjukkan model AI teratas mencapai skor antara 33% dan 62%.

Mengapa pelabur kripto perlu memperhatikan

Kadar lulus 34.5% untuk GPT-5.5 adalah sangat ketara kerana banyak projek AI kripto dibina di atas model OpenAI. Keputusan penyesuaian halus dengan Qwen3.5-27B menunjukkan bahawa latihan khusus berdasarkan trajektori berjaya dalam domain tertentu boleh meningkatkan prestasi secara bermakna. Ini bermakna projek AI kripto yang paling mungkin memberikan nilai sebenar kemungkinan besar adalah yang menginvestasikan banyak sumber daya dalam mengumpulkan data latihan berkualiti tinggi daripada interaksi sebenar di rantai.

Keterlibatan Huawei dalam penilaian AI sumber terbuka, bersama kerangka kerja OpenClaw yang lebih luas, menandakan bahawa perlumbaan untuk membina pembantu AI yang boleh dipercayai semakin global. Penilaian ini secara khusus menguji jenis koordinasi kompleks, berperingkat, dan antara pelbagai perkhidmatan yang diperlukan oleh agen AI kripto untuk dilaksanakan dengan boleh dipercayai: mengurus portfolio DeFi merentas pelbagai protokol, memantau cadangan tatacara, menyesuaikan semula berdasarkan keadaan pasaran, dan memindahkan aset antara rantai.