GLM-5.1 xếp đầu trong bảng xếp hạng các mô hình mã nguồn mở tại Bài kiểm tra Agent mã hóa phân tích nhân tạo

iconKuCoinFlash
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Công ty phân tích trên chuỗi Artificial Analysis đã công bố Chỉ số Coding Agent vào ngày 13 tháng 5 (UTC+8), đánh giá các mô hình trên SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 và SWE-Atlas-QnA. GLM-5.1 (chạy trên Claude Code) dẫn đầu các mô hình mã nguồn mở, trong khi Opus 4.7 (Cursor CLI) dẫn đầu tổng thể. Bài kiểm tra đánh giá các nhiệm vụ lập trình thực tế, tác vụ terminal và hỏi đáp kỹ thuật. GLM-5.1 thể hiện hiệu suất hàng đầu trong các mô hình mã nguồn mở, với sự quan tâm ngày càng tăng đối với các mô hình trong nước.

Tin tức từ AIMPACT, ngày 13 tháng 5 (UTC+8), tổ chức đánh giá uy tín toàn cầu Artificial Analysis đã công bố chỉ số Coding Agent mới — Artificial Analysis Coding Agent Index, dùng để đo lường hiệu suất của các tổ hợp Agent harnesses và mô hình trên ba bộ chuẩn phổ biến: SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 và SWE-Atlas-QnA. Trong bài đánh giá này, mô hình đóng cửa Opus 4.7 (chạy trên Cursor CLI) đạt vị trí số một toàn cầu, trong khi GLM-5.1 (chạy trên Claude Code) giành vị trí số một trong các mô hình mã nguồn mở. Bộ chuẩn này bao gồm các nhiệm vụ lập trình thực tế, nhiệm vụ terminal Agentic và câu hỏi kỹ thuật, nhằm phản ánh hiệu suất thực tế trong các tình huống lập trình Agent. Bài viết cho rằng GLM-5.1 đại diện cho khả năng SOTA của các mô hình lớn trong nước trong bối cảnh này. (Nguồn: InFoQ)

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.