Huawei Meluncurkan Claw-Anything Benchmark untuk Mengujikan Agen AI dalam Tugas Asisten Pribadi

Berikut adalah angka yang merendahkan hati untuk siklus hiperbola AI: GPT-5.5, salah satu model bahasa paling canggih di dunia, hanya mendapatkan skor 34,5% ketika diminta berfungsi sebagai asisten pribadi yang selalu aktif dalam lingkungan digital yang realistis. Claude Opus 4.7 bahkan lebih buruk dengan skor 31,8%.

Hasil tersebut berasal dari Claw-Anything, benchmark baru yang diterbitkan oleh peneliti Huawei bekerja sama dengan Institut Teknologi Beijing dan Universitas Peking. Makalah yang dirilis pada 25 Mei 2026 tidak hanya menguji apakah AI dapat menjawab pertanyaan, tetapi juga menguji apakah AI benar-benar dapat menjalankan kehidupan digital Anda.

Apa yang sebenarnya diukur oleh Claw-Anything

Benchmark ini mensimulasikan kehidupan digital lengkap, lalu meminta asisten AI untuk mengelolanya melalui aliran peristiwa jangka panjang dan beberapa layanan backend yang saling terkait. Alih-alih meminta AI untuk merangkum email, Anda meminta AI untuk memantau kotak masuk, kalender, aplikasi pesan, dan sistem file secara bersamaan, lalu mengambil tindakan yang tepat tanpa diminta.

Kompleksitasnya sangat besar. Tugas-tugas melibatkan rata-rata 10.1 layanan yang saling bergantung, dengan beberapa skenario mencapai hingga 18. Benchmark mencakup 200 lingkungan tugas yang diverifikasi manusia dengan rata-rata 191,7k kata konteks per lingkungan.

Benchmark ini mengevaluasi interaksi antarmuka pengguna grafis dan antarmuka baris perintah di berbagai perangkat. Ini juga menguji perilaku proaktif: bisakah AI menyadari bahwa ada sesuatu yang perlu dilakukan sebelum Anda meminta?

Pipeline pelatihan menawarkan sedikit harapan

Tim peneliti membangun pipeline otomatis yang menghasilkan 2.000 lingkungan pelatihan untuk fine-tuning model AI pada tugas-tugas asisten yang kompleks ini. Qwen3.5-27B, model open-source yang lebih kecil, menunjukkan peningkatan kinerja sebesar 23,7% setelah difine-tuning pada trajektori tugas sukses dari lingkungan-lingkungan ini.

ClawBench dan WildClawBench, yang menguji tugas praktis multi-langkah serupa dalam ekosistem OpenClaw yang lebih luas, menunjukkan model AI teratas mendapatkan skor antara 33% dan 62%.

Mengapa investor kripto harus memperhatikan

Tingkat kelulusan 34,5% untuk GPT-5.5 sangat mencolok karena banyak proyek AI kripto dibangun di atas model OpenAI. Hasil fine-tuning dengan Qwen3.5-27B menunjukkan bahwa pelatihan khusus pada trajektori sukses berbasis domain dapat secara bermakna meningkatkan kinerja. Artinya, proyek AI kripto yang paling mungkin memberikan nilai nyata kemungkinan besar adalah yang secara signifikan berinvestasi dalam mengkurasi data pelatihan berkualitas tinggi dari interaksi on-chain aktual.

Keterlibatan Huawei dalam pengujian terbuka AI, bersama kerangka kerja OpenClaw yang lebih luas, menandakan bahwa perlombaan untuk membangun asisten AI yang andal semakin bersifat global. Pengujian ini secara khusus menguji koordinasi kompleks, multi-langkah, dan multi-layanan yang diperlukan oleh agen AI kripto untuk dilakukan secara andal: mengelola portofolio DeFi di berbagai protokol, memantau usulan tata kelola, menyesuaikan ulang berdasarkan kondisi pasar, dan menjembatani aset antar rantai.