Fable 5 hoàn thành khó khăn nhất trong bài kiểm tra AI Agent mới ALE

icon MarsBit
Chia sẻ
AI summary iconTóm tắt

Theo giám sát của Beating, Đại học California, Berkeley, do RDI dẫn đầu và phối hợp với hàng trăm chuyên gia ngành, đã ra mắt tiêu chuẩn đánh giá tác nhân AI mới mang tên Agents' Last Exam (ALE), nhằm đánh giá khả năng của các tác nhân trong việc hoàn thành các công việc chuyên môn số thực tế. ALE bao phủ 55 lĩnh vực chuyên môn số, thu thập hơn 1.500 nhiệm vụ được xác thực từ các dự án thực tế của chuyên gia con người, hỗ trợ xác minh kết quả trong môi trường tương tác GUI và CLI. Các hệ thống tiên tiến đầu tiên được thử nghiệm bao gồm Fable 5, GPT-5.5 và Composer 2.5. Theo dữ liệu so sánh mới nhất trên trang web chính thức, trong các nhiệm vụ khó nhất đòi hỏi suy luận liên tục và kiến thức chuyên sâu, tỷ lệ thành công của tất cả các tác nhân được thử nghiệm đều bằng 0%, và Fable 5 vừa được phát hành tuần này cũng không làm được gì. Điều này chủ yếu là do đánh giá kích hoạt các chính sách an toàn: khoảng 35% nhiệm vụ của Fable 5 đã bị quay lại chạy trên phiên bản cũ Opus 4.8, khiến hiệu suất tổng thể kém xa so với các hệ thống khác trong bảng xếp hạng. Về chi phí API cho từng nhiệm vụ, Fable 5 khoảng 15,70 USD, cao hơn nhiều so với 3,80 USD của GPT-5.5 và 1,33 USD của Composer 2.5, chi phí cao hơn từ 4 đến 12 lần cho cùng một nhiệm vụ. Các bài kiểm tra cũng phát hiện ra rằng nguyên nhân thất bại phổ biến nhất của các tác nhân là tuyên bố thành công quá sớm, vội vàng kết thúc mà không kiểm tra kết quả thực tế, thậm chí bỏ sót tệp tin hoặc tính toán sai dữ liệu. Đối với các tác nhân dòng lệnh, nhóm đánh giá đồng thời đã phát hành tập con ALE-CLI. So với Terminal-Bench và SWE-bench-Pro hiện có, ALE-CLI bao phủ 40 lĩnh vực con, với thời gian trung bình của con người cho mỗi nhiệm vụ kéo dài từ vài giờ đến vài tuần. Trong đánh giá dòng lệnh, tác nhân tốt nhất cũng chỉ đạt tỷ lệ vượt qua 25,2%. Nhóm đánh giá nhấn mạnh rằng thời đại của các tác nhân hữu dụng đã đến, nhưng vẫn còn một chặng đường dài để đạt đến mức có thể thay thế con người trong công việc thực tế.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.