GLM-5.1 ครองอันดับหนึ่งในโมเดลโอเพนซอร์สสำหรับการทดสอบ Artificial Analysis Coding Agent

KuCoinFlash

เวลาเผยแพร่: 13/05/2569 13:41:04

แชร์

สรุป

บริษัทวิเคราะห์บนโซ่ Artificial Analysis เปิดตัวดัชนี Coding Agent เมื่อวันที่ 13 พฤษภาคม (UTC+8) โดยประเมินโมเดลบน SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 และ SWE-Atlas-QnA GLM-5.1 (ทำงานบน Claude Code) นำหน้าโมเดลโอเพนซอร์ส ขณะที่ Opus 4.7 (Cursor CLI) นำเป็นอันดับหนึ่งโดยรวม การทดสอบแบบเบนช์มาร์กนี้วัดความสามารถในการเขียนโค้ดจริง งานเทอร์มินัล และการตอบคำถามทางเทคนิค GLM-5.1 แสดงประสิทธิภาพที่ดีที่สุดในกลุ่มโอเพนซอร์ส โดยความสนใจในโมเดลภายในประเทศกำลังเพิ่มขึ้น

ข้อความจาก AIMPACT เมื่อวันที่ 13 พฤษภาคม (UTC+8) สถาบันประเมินระดับโลก Artificial Analysis ได้เปิดตัวมาตรฐาน Coding Agent ใหม่คือ Artificial Analysis Coding Agent Index เพื่อวัดประสิทธิภาพของการรวมกันระหว่าง Agent harnesses และโมเดลบนมาตรฐานหลักสามรายการ ได้แก่ SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 และ SWE-Atlas-QnA ในการประเมินนี้ โมเดลแบบปิด Opus 4.7 (รันบน Cursor CLI) ได้รับตำแหน่งอันดับหนึ่งของโลก ส่วน GLM-5.1 (รันบน Claude Code) ได้รับตำแหน่งอันดับหนึ่งในกลุ่มโมเดลแบบเปิด มาตรฐานนี้ครอบคลุมงานเขียนโปรแกรมจริง งาน terminal แบบ Agentic และคำถามด้านเทคนิค โดยมีเป้าหมายเพื่อสะท้อนประสิทธิภาพจริงของตัวแทนการเขียนโปรแกรมในสถานการณ์จริง ข้อความในบทความระบุว่า GLM-5.1 แสดงถึงความสามารถ SOTA ของโมเดลขนาดใหญ่ของจีนในบริบทนี้ (ที่มา: InFoQ)

แหล่งที่มา:แสดงต้นฉบับ

คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา