Fable 5 Gagal Melakukan Tugas-Tugas Paling Sulit dalam Benchmark Agen AI Baru ALE

Menurut pemantauan Beating, Universitas California, Berkeley, yang dipimpin oleh RDI, bekerja sama dengan ratusan pakar industri, meluncurkan benchmark evaluasi agen AI baru bernama Agents' Last Exam (ALE), yang dirancang untuk menilai kemampuan agen dalam menyelesaikan pekerjaan profesional digital nyata. ALE mencakup 55 subbidang profesional digital dan mengumpulkan lebih dari 1.500 tugas verifikasi yang berasal dari proyek nyata para ahli manusia, mendukung verifikasi hasil di lingkungan interaksi GUI dan CLI. Uji coba awal mencakup sistem mutakhir seperti Fable 5, GPT-5.5, dan Composer 2.5. Menurut perbandingan terbaru di situs resmi, dalam tugas paling sulit yang memerlukan penalaran berkelanjutan dan keahlian mendalam, semua agen yang diuji mencatat tingkat keberhasilan 0%. Fable 5, yang baru dirilis minggu ini, juga gagal total. Hal ini terutama disebabkan oleh peluncuran kebijakan keamanan: sekitar 35% tugas Fable 5 dikembalikan dan dijalankan ulang menggunakan versi lama Opus 4.8, sehingga kinerja keseluruhan jauh lebih rendah dibandingkan sistem lainnya. Dalam hal biaya API per tugas, Fable 5 sekitar $15,70, jauh lebih tinggi daripada $3,80 dari GPT-5.5 dan $1,33 dari Composer 2.5, dengan biaya yang 4 hingga 12 kali lebih tinggi untuk tugas yang sama. Pengujian juga menemukan bahwa penyebab paling umum kegagalan agen adalah pengumuman keberhasilan terlalu dini—mengakhiri tugas tanpa memverifikasi hasil aktual, bahkan sering melewatkan file atau menghitung data secara salah. Untuk agen baris perintah, tim evaluasi juga merilis subset ALE-CLI secara bersamaan. Dibandingkan dengan Terminal-Bench dan SWE-bench-Pro yang sudah ada, ALE-CLI mencakup 40 subbidang, dengan waktu rata-rata manusia per tugas mencapai beberapa jam hingga beberapa minggu. Dalam evaluasi baris perintah, agen terbaik pun hanya mencapai tingkat kelulusan 25,2%. Tim evaluasi menunjukkan bahwa era agen yang mudah digunakan telah tiba, tetapi masih ada jalan panjang sebelum agen benar-benar mampu menggantikan manusia dalam pekerjaan nyata.