GLM-5.1 Menduduki Peringkat Pertama di Antara Model Sumber Terbuka dalam Benchmark Agensi Koding Analisis Buatan

iconKuCoinFlash
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Perusahaan analisis on-chain Artificial Analysis merilis Coding Agent Index pada 13 Mei (UTC+8), mengevaluasi model-model pada SWE-Bench-Pro-Hard-AA, Terminal-Bench v2, dan SWE-Atlas-QnA. GLM-5.1 (berjalan di Claude Code) memimpin model open-source, sementara Opus 4.7 (Cursor CLI) memimpin secara keseluruhan. Uji coba benchmark ini menilai pemrograman dunia nyata, tugas terminal, dan Q&A teknis. GLM-5.1 menunjukkan kinerja terbaik di antara model open-source, dengan minat terbuka terhadap model domestik yang meningkat.

Pesan AIMPACT, 13 Mei (UTC+8), lembaga evaluasi global terkemuka Artificial Analysis meluncurkan benchmark Coding Agent baru—Artificial Analysis Coding Agent Index—untuk mengukur kinerja kombinasi Agent harnesses dan model pada tiga benchmark utama: SWE-Bench-Pro-Hard-AA, Terminal-Bench v2, dan SWE-Atlas-QnA. Dalam evaluasi ini, model propietaris Opus 4.7 (berjalan di Cursor CLI) mendapatkan peringkat pertama secara global, sementara GLM-5.1 (berjalan di Claude Code) meraih peringkat pertama untuk model open-source. Benchmark ini mencakup tugas pemrograman nyata, tugas terminal Agentic, dan pertanyaan teknis, bertujuan untuk mencerminkan kinerja nyata dalam skenario pemrograman Agent. Pandangan dalam artikel menyatakan bahwa GLM-5.1 mewakili kemampuan SOTA model besar buatan dalam negeri dalam skenario ini. (Sumber: InFoQ)

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.