Fable 5 Gagal Melakukan Tugas Paling Sukar dalam Penilaian Agen AI ALE Baru

Berdasarkan pemantauan Beating, Universiti California, Berkeley, yang dipimpin oleh RDI, bekerjasama dengan ratusan pakar industri, telah melancarkan piawaian penilaian agen AI baharu bernama Agents' Last Exam (ALE) untuk menilai kemampuan agen dalam menyelesaikan pekerjaan profesional digital yang sebenar. ALE merangkumi 55 subbidang profesional digital dan mengumpulkan lebih daripada 1,500 tugas yang telah disahkan daripada projek sebenar pakar manusia, menyokong pengesahan hasil dalam persekitaran interaksi GUI dan CLI. Ujian pertama merangkumi sistem terkini seperti Fable 5, GPT-5.5, dan Composer 2.5. Menurut perbandingan terkini di laman web rasmi, dalam tugas paling sukar yang memerlukan penalaran berterusan dan pengetahuan mendalam, semua agen yang diuji mencatatkan kadar kejayaan 0%. Fable 5, yang dilancarkan minggu ini, juga gagal sepenuhnya. Ini terutamanya disebabkan oleh pemacuan strategi keselamatan, di mana sekitar 35% tugas Fable 5 dikembalikan dan dijalankan semula menggunakan versi lama Opus 4.8, menyebabkan prestasi keseluruhan jauh lebih rendah berbanding sistem lain. Dari segi kos API per tugas, Fable 5 berada pada kira-kira $15.70, jauh lebih tinggi berbanding $3.80 untuk GPT-5.5 dan $1.33 untuk Composer 2.5, dengan kos yang 4 hingga 12 kali lebih tinggi untuk tugas yang sama. Ujian juga mendapati bahawa sebab kegagalan paling biasa pada agen ialah pengumuman kejayaan terlalu awal—iaitu agen mengakhiri tugas tanpa mengesahkan hasil sebenar, bahkan melupakan fail atau mengira data dengan salah. Untuk agen baris arahan, pasukan penilaian juga melancarkan subset ALE-CLI. Berbanding Terminal-Bench dan SWE-bench-Pro yang sedia ada, ALE-CLI merangkumi 40 subbidang, dengan masa purata manusia untuk setiap tugas mencapai beberapa jam hingga beberapa minggu. Dalam ujian baris arahan, agen terbaik hanya mencapai kadar lulus 25.2%. Pasukan penilaian menekankan bahawa era agen yang mudah digunakan telah tiba, tetapi masih terdapat jalan panjang sebelum agen benar-benar mampu menggantikan manusia dalam pekerjaan profesional.