Benchmark Agen AI OpenClaw: 10 Model Teratas yang Diurutkan Berdasarkan Tingkat Keberhasilan

icon MarsBit
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Berita AI + kripto muncul setelah MyToken menerbitkan benchmark agen OpenClaw AI, meranking model-model teratas berdasarkan tingkat keberhasilan. Uji coba mencakup 23 tugas yang mencakup eksekusi kode, pembuatan konten, dan alat sistem. Claude Opus 4.6 dari Anthropic memimpin dengan tingkat keberhasilan terbaik 93,3%, diikuti oleh Trinity dari Arcee AI dengan 91,9%. Beberapa varian Qwen juga masuk dalam 10 besar. Benchmark ini bersifat open-source dan dapat direproduksi, menggunakan data dari uji coba agen OpenClaw PinchBench. Berita on-chain terus menyoroti kemajuan AI di ruang kripto.

Ingin tahu model besar mana yang paling kuat dalam tugas agen dunia nyata OpenClaw?

MyToken mengumpulkan seperangkat benchmark transparan berdasarkan evaluasi situs web untuk menilai kemampuan nyata agen pengkodean AI, hanya melihat satu dimensi inti: tingkat keberhasilan (kecepatan dan biaya termasuk dimensi independen lainnya yang akan dianalisis terpisah nanti). Sepenuhnya terbuka dan dapat direproduksi, hanya menampilkan standar evaluasi yang ketat + peringkat 10 besar tingkat keberhasilan terbaru.

Satu: Dimensi Evaluasi: Tingkat Keberhasilan

Kriteria spesifik: Persentase jumlah tugas yang diselesaikan secara lengkap dan akurat oleh agen AI. Setiap tugas menggunakan proses yang sangat terstandarisasi:

  • Precise user prompt

Send to agent in full to simulate real user request scenario

  • Perilaku yang diharapkan

Menjelaskan metode implementasi yang dapat diterima dan poin keputusan kunci

  • Kriteria penilaian (checklist)

Daftar kriteria keberhasilan atomisasi yang dapat diverifikasi satu per satu

Dua, tiga metode penilaian

Evaluasi ini terutama menggunakan tiga metode penilaian.

  • Pemeriksaan otomatis: Skrip Python secara langsung memverifikasi konten file, catatan eksekusi, pemanggilan alat, dan hasil objektif lainnya

  • Pengadil model LLM besar: Claude Opus memberi skor berdasarkan skala rinci (kualitas konten, kesesuaian, kelengkapan, dll.)

  • Mode campuran: Pemeriksaan objektif otomatis + penilaian kualitatif oleh LLM sebagai hakim

Semua definisi tugas, Prompt, dan logika penilaian dipublikasikan sepenuhnya untuk verifikasi ulang.

Tiga: Tugas untuk evaluasi

Uji coba ini mencakup 23 kategori tugas yang berbeda, mencakup berbagai aspek seperti interaksi dasar, operasi file/kode, penciptaan konten, analisis penelitian, pemanggilan alat sistem, dan persistensi memori, yang sangat mendekati skenario penggunaan sehari-hari pengembang terhadap OpenClaw:

  1. Pengecekan Kewajaran (otomatis) — menangani perintah sederhana dan membalas salam dengan benar

  2. Pembuatan Acara Kalender (otomatisasi) —— Generasi Naskah ICS Standar dari Bahasa Alami

  3. Penelitian Harga Saham (otomatisasi) — Query harga saham secara real-time dan hasilkan laporan terformat

  4. Penulisan Postingan Blog (Hakim LLM) — Tulis sebuah postingan blog berstruktur Markdown sekitar 500 kata

  5. Pembuatan Script Cuaca (otomatisasi) — Menulis script Python API cuaca dengan penanganan kesalahan

  6. Ringkasan Dokumen (Pengadil LLM) — Ringkasan padat tiga bagian tentang topik inti

  7. Penelitian Konferensi Teknologi (Hakim LLM) —— Mengumpulkan dan mengatur informasi dari 5 konferensi teknologi nyata (nama, tanggal, lokasi, tautan)

  8. Draft Email Profesional (Penilai LLM) — Menolak pertemuan dengan sopan dan mengusulkan solusi alternatif

  9. Pengambilan Memori dari Konteks (otomatisasi) — Ekstraksi tepat tanggal, anggota, teknologi, dll. dari catatan proyek

  10. Pembuatan Struktur File (otomatisasi) — menghasilkan direktori proyek standar, README, .gitignore secara otomatis

  11. Alur API Multi-langkah (Hibrida) — Membaca Konfigurasi → Menulis Skrip Panggilan → Dokumentasi Lengkap

  12. Instal Skill ClawdHub (otomatisasi) — instal dan verifikasi ketersediaan dari repositori skill

  13. Cari dan Instal Keterampilan (otomatisasi) — Cari keterampilan cuaca dan pasang dengan benar

  14. Generasi Gambar AI (Campuran) — Buat dan simpan gambar berdasarkan deskripsi

  15. Humanisasi Blog yang Dihasilkan AI (Pengadil LLM) — Ubah konten yang terasa mesin menjadi bahasa sehari-hari yang alami

  16. Ringkasan Riset Harian (Pengadil LLM) — Menggabungkan beberapa dokumen menjadi ringkasan harian yang koheren

  17. Pengelompokan Kotak Masuk Email (Campuran) — Analisis beberapa email dan susun laporan berdasarkan tingkat kepentingan

  18. Pencarian dan Ringkasan Email (Campuran) — Mencari email arsip dan merangkum informasi penting

  19. Riset Pasar Kompetitif (Hibrida) — Analisis Kompetitor di Bidang APM Perusahaan

  20. Ringkasan CSV dan Excel (campuran) — menganalisis file tabel dan menghasilkan wawasan

  21. Ringkasan PDF ELI5 (Penilai LLM) — Jelaskan PDF teknis dengan bahasa yang bisa dimengerti anak usia 5 tahun

  22. Pemahaman Laporan OpenClaw (otomatisasi) — menjawab pertanyaan spesifik secara akurat dari PDF laporan penelitian

  23. Ketahanan Pengetahuan Second Brain (Hibrida) — Menyimpan dan mengingat informasi secara akurat di luar sesi

Empat: Kesimpulan Utama: Peringkat 10 Model Teratas Berdasarkan Tingkat Keberhasilan (Best %/Avg %)

  • Data diperbarui hingga 7 April 2026

  • Best % adalah tingkat keberhasilan tertinggi dalam satu kali percobaan, Avg % adalah rata-rata tingkat keberhasilan dalam beberapa percobaan, yang lebih mencerminkan stabilitas

Berikut adalah sepuluh model dengan tingkat keberhasilan tertinggi

  1. anthropic/claude-opus-4.6 (Anthropic) —— 93,3% / 82,0%

  2. arcee-ai/trinity-large-thinking (Arcee AI) —— 91,9% / 91,9%

  3. openai/gpt-5.4 (OpenAI) —— 90,5% / 81,7%

  4. qwen/qwen3.5-27b (Qwen) —— 90,0% / 78,5%

  5. minimax/minimax-m2.7 (MiniMax) —— 89,8% / 83,2%

  6. anthropic/claude-haiku-4.5 (Anthropic) —— 89,5% / 78,1%

  7. qwen/qwen3.5-397b-a17b (Qwen) —— 89,1% / 80,4%

  8. xiaomi/mimo-v2-flash (Xiaomi) —— 88,8% / 70,2%

  9. qwen/qwen3.6-plus-preview (Qwen) —— 88,6% / 84,0%

  10. nvidia/nemotron-3-super-120b-a12b (NVIDIA) —— 88,6% / 75,5%

OpenClaw

Claude Opus 4.6 saat ini memimpin dengan tingkat keberhasilan tertinggi 93,3%, tetapi Trinity dari Arcee menonjol dalam stabilitas rata-rata, sementara seri Qwen juga memiliki beberapa model masuk sepuluh besar, menunjukkan potensi nilai yang sangat baik. Tingkat keberhasilan adalah ambang dasar, namun kecepatan dan biaya akan semakin memengaruhi pengalaman nyata di masa mendatang.

Benchmarks 23 tugas ini sepenuhnya transparan, kami sangat menyarankan Anda menguji secara langsung sesuai dengan skenario Anda sendiri. Untuk peringkat model lainnya, tunggu fitur peringkat agen MyToken yang segera diluncurkan.

(Data berasal dari pengujian benchmark proxy OpenClaw yang dipublikasikan oleh PinchBench, terus diperbarui.)

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.