Huawei Meluncurkan Claw-Anything Benchmark untuk Mengujikan Agen AI dalam Tugas Asisten Pribadi

iconCryptoBriefing
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Huawei meluncurkan benchmark Claw-Anything pada 25 Mei 2026, bekerja sama dengan Institut Teknologi Beijing dan Universitas Peking. Benchmark ini menguji agen AI dalam mengelola tugas-tugas kehidupan digital kompleks di berbagai layanan. GPT-5.5 mendapat skor 34,5%, sementara Claude Opus 4.7 mendapat skor 31,8%. Benchmark ini mencakup 200 tugas yang diverifikasi manusia dengan rata-rata 191,7k kata konteks. Sebuah pipeline pelatihan meningkatkan kinerja Qwen3.5-27B sebesar 23,7%. Pembaruan berita AI + kripto ini menyoroti alat-alat baru untuk mengevaluasi berita aset digital dan kemampuan AI.

Berikut adalah angka yang merendahkan hati untuk siklus hiperbola AI: GPT-5.5, salah satu model bahasa paling canggih di dunia, hanya mendapatkan skor 34,5% ketika diminta berfungsi sebagai asisten pribadi yang selalu aktif dalam lingkungan digital yang realistis. Claude Opus 4.7 bahkan lebih buruk dengan skor 31,8%.

Hasil tersebut berasal dari Claw-Anything, benchmark baru yang diterbitkan oleh peneliti Huawei bekerja sama dengan Institut Teknologi Beijing dan Universitas Peking. Makalah yang dirilis pada 25 Mei 2026 tidak hanya menguji apakah AI dapat menjawab pertanyaan, tetapi juga menguji apakah AI benar-benar dapat menjalankan kehidupan digital Anda.

Apa yang sebenarnya diukur oleh Claw-Anything

Benchmark ini mensimulasikan kehidupan digital lengkap, lalu meminta asisten AI untuk mengelolanya melalui aliran peristiwa jangka panjang dan beberapa layanan backend yang saling terkait. Alih-alih meminta AI untuk merangkum email, Anda meminta AI untuk memantau kotak masuk, kalender, aplikasi pesan, dan sistem file secara bersamaan, lalu mengambil tindakan yang tepat tanpa diminta.

Iklan

Kompleksitasnya sangat besar. Tugas-tugas melibatkan rata-rata 10.1 layanan yang saling bergantung, dengan beberapa skenario mencapai hingga 18. Benchmark mencakup 200 lingkungan tugas yang diverifikasi manusia dengan rata-rata 191,7k kata konteks per lingkungan.

Benchmark ini mengevaluasi interaksi antarmuka pengguna grafis dan antarmuka baris perintah di berbagai perangkat. Ini juga menguji perilaku proaktif: bisakah AI menyadari bahwa ada sesuatu yang perlu dilakukan sebelum Anda meminta?

Pipeline pelatihan menawarkan sedikit harapan

Tim peneliti membangun pipeline otomatis yang menghasilkan 2.000 lingkungan pelatihan untuk fine-tuning model AI pada tugas-tugas asisten yang kompleks ini. Qwen3.5-27B, model open-source yang lebih kecil, menunjukkan peningkatan kinerja sebesar 23,7% setelah difine-tuning pada trajektori tugas sukses dari lingkungan-lingkungan ini.

ClawBench dan WildClawBench, yang menguji tugas praktis multi-langkah serupa dalam ekosistem OpenClaw yang lebih luas, menunjukkan model AI teratas mendapatkan skor antara 33% dan 62%.

Mengapa investor kripto harus memperhatikan

Tingkat kelulusan 34,5% untuk GPT-5.5 sangat mencolok karena banyak proyek AI kripto dibangun di atas model OpenAI. Hasil fine-tuning dengan Qwen3.5-27B menunjukkan bahwa pelatihan khusus pada trajektori sukses berbasis domain dapat secara bermakna meningkatkan kinerja. Artinya, proyek AI kripto yang paling mungkin memberikan nilai nyata kemungkinan besar adalah yang secara signifikan berinvestasi dalam mengkurasi data pelatihan berkualitas tinggi dari interaksi on-chain aktual.

Keterlibatan Huawei dalam pengujian terbuka AI, bersama kerangka kerja OpenClaw yang lebih luas, menandakan bahwa perlombaan untuk membangun asisten AI yang andal semakin bersifat global. Pengujian ini secara khusus menguji koordinasi kompleks, multi-langkah, dan multi-layanan yang diperlukan oleh agen AI kripto untuk dilakukan secara andal: mengelola portofolio DeFi di berbagai protokol, memantau usulan tata kelola, menyesuaikan ulang berdasarkan kondisi pasar, dan menjembatani aset antar rantai.

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.