Fable 5 hoàn thành khó khăn nhất trong bài kiểm tra AI Agent mới ALE

Theo giám sát của Beating, Đại học California, Berkeley, do RDI dẫn đầu và phối hợp với hàng trăm chuyên gia ngành, đã ra mắt tiêu chuẩn đánh giá tác nhân AI mới mang tên Agents' Last Exam (ALE), nhằm đánh giá khả năng của các tác nhân trong việc hoàn thành các công việc chuyên môn số thực tế. ALE bao phủ 55 lĩnh vực chuyên môn số, thu thập hơn 1.500 nhiệm vụ được xác thực từ các dự án thực tế của chuyên gia con người, hỗ trợ xác minh kết quả trong môi trường tương tác GUI và CLI. Các hệ thống tiên tiến đầu tiên được thử nghiệm bao gồm Fable 5, GPT-5.5 và Composer 2.5. Theo dữ liệu so sánh mới nhất trên trang web chính thức, trong các nhiệm vụ khó nhất đòi hỏi suy luận liên tục và kiến thức chuyên sâu, tỷ lệ thành công của tất cả các tác nhân được thử nghiệm đều bằng 0%, và Fable 5 vừa được phát hành tuần này cũng không làm được gì. Điều này chủ yếu là do đánh giá kích hoạt các chính sách an toàn: khoảng 35% nhiệm vụ của Fable 5 đã bị quay lại chạy trên phiên bản cũ Opus 4.8, khiến hiệu suất tổng thể kém xa so với các hệ thống khác trong bảng xếp hạng. Về chi phí API cho từng nhiệm vụ, Fable 5 khoảng 15,70 USD, cao hơn nhiều so với 3,80 USD của GPT-5.5 và 1,33 USD của Composer 2.5, chi phí cao hơn từ 4 đến 12 lần cho cùng một nhiệm vụ. Các bài kiểm tra cũng phát hiện ra rằng nguyên nhân thất bại phổ biến nhất của các tác nhân là tuyên bố thành công quá sớm, vội vàng kết thúc mà không kiểm tra kết quả thực tế, thậm chí bỏ sót tệp tin hoặc tính toán sai dữ liệu. Đối với các tác nhân dòng lệnh, nhóm đánh giá đồng thời đã phát hành tập con ALE-CLI. So với Terminal-Bench và SWE-bench-Pro hiện có, ALE-CLI bao phủ 40 lĩnh vực con, với thời gian trung bình của con người cho mỗi nhiệm vụ kéo dài từ vài giờ đến vài tuần. Trong đánh giá dòng lệnh, tác nhân tốt nhất cũng chỉ đạt tỷ lệ vượt qua 25,2%. Nhóm đánh giá nhấn mạnh rằng thời đại của các tác nhân hữu dụng đã đến, nhưng vẫn còn một chặng đường dài để đạt đến mức có thể thay thế con người trong công việc thực tế.