AIMPACT mesajı, 13 Mayıs (UTC+8), küresel yetkili değerlendirme kuruluşu Artificial Analysis, Agent sistemlerinin ve modellerin SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 ve SWE-Atlas-QnA üç ana benchmark üzerindeki performansını ölçmek için yeni bir Coding Agent Endeksi olan Artificial Analysis Coding Agent Index’i yayınladı. Bu değerlendirme sırasında, kapalı kaynaklı model Opus 4.7 (Cursor CLI üzerinde çalıştırılıyor) küresel birinci oldu; GLM-5.1 (Claude Code üzerinde çalıştırılıyor) ise açık kaynaklılar arasında birinci oldu. Bu endeks, gerçek programlama görevlerini, agentic terminal görevlerini ve teknik soru-cevapları kapsıyor ve gerçek dünya programlama Agent senaryolarındaki gerçek performansı yansıtmayı amaçlıyor. Metinde, GLM-5.1’in bu senaryoda yerel büyük modellerin SOTA kapasitesini temsil ettiği ifade ediliyor. (Kaynak: InFoQ)
GLM-5.1, Yapay Analiz Kodlama Ajanı Benchmarkinde açık kaynak modeller arasında birinci oldu
KuCoinFlashPaylaş






On-chain analiz firması Artificial Analysis, 13 Mayıs'ta (UTC+8) Coding Agent Endeksini yayınladı ve modelleri SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 ve SWE-Atlas-QnA üzerinde değerlendirdi. GLM-5.1 (Claude Code üzerinde çalışan), açık kaynak modeller arasında birinci oldu; Opus 4.7 (Cursor CLI) ise genel sıralamada lider konumda. Benchmark, gerçek dünya kodlama, terminal görevleri ve teknik soru-cevapları test ediyor. GLM-5.1, açık kaynak performansında en üst seviyede yer alıyor ve yerel modeller üzerindeki ilginin arttığı gözlemleniyor.
Kaynak:Orijinalini göster
Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir.
Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.