Huawei Melancarkan Claw-Anything Benchmark untuk Menguji Agen AI dalam Tugas Pembantu Peribadi

iconCryptoBriefing
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Huawei melancarkan tolok Claw-Anything pada 25 Mei 2026, bekerjasama dengan Institut Teknologi Beijing dan Universiti Peking. Tolok ini menguji agen AI dalam mengurus tugas kehidupan digital yang kompleks merentas pelbagai perkhidmatan. GPT-5.5 mendapat 34.5%, manakala Claude Opus 4.7 mendapat 31.8%. Tolok ini merangkumi 200 tugas yang disahkan manusia dengan purata 191.7k perkataan konteks. Satu saluran latihan meningkatkan prestasi Qwen3.5-27B sebanyak 23.7%. Kemas kini berita AI + kripto ini menonjolkan alat-alat baharu untuk menilai berita aset digital dan kemampuan AI.

Berikut adalah nombor yang merendahkan hati bagi kitaran hype AI: GPT-5.5, salah satu model bahasa paling canggih di dunia, hanya mendapat 34.5% apabila diminta berfungsi sebagai pembantu peribadi yang sentiasa aktif dalam persekitaran digital yang realistik. Claude Opus 4.7 berprestasi lebih buruk lagi pada 31.8%.

Keputusan-keputusan tersebut datang daripada Claw-Anything, satu tolok ukur baharu yang diterbitkan oleh penyelidik Huawei bekerjasama dengan Institut Teknologi Beijing dan Universiti Peking. Kertas kerja ini, yang dikeluarkan pada 25 Mei 2026, tidak hanya menguji sama ada AI boleh menjawab soalan. Ia menguji sama ada AI benar-benar boleh menjalankan kehidupan digital anda.

Apa yang sebenarnya diukur oleh Claw-Anything

Ujian patutan mensimulasikan kehidupan digital yang lengkap, kemudian meminta pembantu AI untuk menguruskannya melalui aliran peristiwa jangka panjang dan pelbagai perkhidmatan belakang yang saling bergantung. Alih-alih meminta AI untuk meringkaskan e-mel, anda meminta ia memantau kotak masuk, kalender, aplikasi mesej, dan sistem fail secara serentak, kemudian mengambil tindakan yang sesuai tanpa diminta.

Iklan

Kompleksinya adalah besar. Tugasan melibatkan purata 10.1 perkhidmatan saling bergantung, dengan beberapa senario mencapai sehingga 18. Penilaian merangkumi 200 persekitaran tugasan yang disahkan manusia dengan purata 191.7k perkataan konteks setiap persekitaran.

Ujian patutan menilai interaksi antara antaramuka pengguna grafik dan antaramuka baris arahan di pelbagai peranti. Ia juga menguji tingkah laku proaktif: adakah AI dapat memperhatikan sesuatu perlu dilakukan sebelum anda bertanya?

Pipelin latihan menawarkan secercah harapan

Pasukan penyelidikan membina saluran automatik yang menghasilkan 2,000 persekitaran latihan untuk penyesuaian model AI terhadap tugas-tugas pembantu yang kompleks ini. Qwen3.5-27B, model sumber terbuka yang lebih kecil, menunjukkan peningkatan prestasi 23.7% selepas disesuaikan dengan trajektori tugas berjaya daripada persekitaran ini.

ClawBench dan WildClawBench, yang menguji tugas praktik berlangkah banyak yang serupa dalam ekosistem OpenClaw yang lebih luas, menunjukkan model AI teratas mencapai skor antara 33% dan 62%.

Mengapa pelabur kripto perlu memperhatikan

Kadar lulus 34.5% untuk GPT-5.5 adalah sangat ketara kerana banyak projek AI kripto dibina di atas model OpenAI. Keputusan penyesuaian halus dengan Qwen3.5-27B menunjukkan bahawa latihan khusus berdasarkan trajektori berjaya dalam domain tertentu boleh meningkatkan prestasi secara bermakna. Ini bermakna projek AI kripto yang paling mungkin memberikan nilai sebenar kemungkinan besar adalah yang menginvestasikan banyak sumber daya dalam mengumpulkan data latihan berkualiti tinggi daripada interaksi sebenar di rantai.

Keterlibatan Huawei dalam penilaian AI sumber terbuka, bersama kerangka kerja OpenClaw yang lebih luas, menandakan bahawa perlumbaan untuk membina pembantu AI yang boleh dipercayai semakin global. Penilaian ini secara khusus menguji jenis koordinasi kompleks, berperingkat, dan antara pelbagai perkhidmatan yang diperlukan oleh agen AI kripto untuk dilaksanakan dengan boleh dipercayai: mengurus portfolio DeFi merentas pelbagai protokol, memantau cadangan tatacara, menyesuaikan semula berdasarkan keadaan pasaran, dan memindahkan aset antara rantai.

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.