Fable 5 ay nagkakaroon ng pinakamahirap na mga gawain sa bagong AI Agent Benchmark na ALE

Ayon sa pagmamasid ng Beating, isinilang ng RDI ng University of California, Berkeley na may kasamang higit sa isang daan na eksperto sa industriya ang bagong benchmark para sa pagpapahalaga sa mga AI agent na tinatawag na Agents' Last Exam (ALE), na ginagamit upang masukat ang kakayahan ng mga agent na matupad ang totoong digital na propesyonal na gawain. Kasama sa ALE ang 55 na subdomain ng digital na propesyon, na may higit sa 1,500 na validated task na batay sa tunay na proyekto ng mga eksperto, at sumusuporta sa pag-verify ng resulta sa GUI at CLI environments. Ang unang pagsubok ay kinasakop ang mga advanced system tulad ng Fable 5, GPT-5.5, at Composer 2.5. Ayon sa pinakabagong pahinga sa opisyal na website, sa pinakamahirap na mga gawain na nangangailangan ng patuloy na pag-iisip at malalim na propesyonal na kaalaman, ang lahat ng nasubok na agent ay may 0% success rate, at parehong nagbigay ng blanko ang Fable 5 na itinatampok noong linggong ito. Ito ay dahil sa pag-trigger ng mga patakaran sa kaligtasan—nag-restore ang Fable 5 ng 35% ng mga gawain patungo sa lumang Opus 4.8, na nagresulta sa mas mababang pangkalahatang performance kumpara sa iba pang listahan. Sa panig ng single-task API cost, ang Fable 5 ay nasa halagang $15.70, na mas mataas nang apat hanggang labing-dalawang beses kaysa sa $3.80 ng GPT-5.5 at $1.33 ng Composer 2.5. Natuklasan din ng pagsubok na ang pinakakaraniwang dahilan ng pagkabigo ng mga agent ay ang paghahayag ng tagumpay nang maaga, nang walang aktwal na pag-verify ng resulta, kahit na nawawala ang mga file o may mali sa data. Para sa mga command-line agent, inilabas ng team ng pagpapahalaga ang subset na ALE-CLI. Kumpara sa umiiral na Terminal-Bench at SWE-bench-Pro, kasama sa ALE-CLI ang 40 subdomain, at ang average human time per task ay umabot sa ilang oras hanggang ilang linggo. Sa pagsubok sa command-line, ang pinakamataas na pass rate ng anumang agent ay 25.2% lamang. Ipinahiwatig ng team ng pagpapahalaga na ang panahon ng mga magagamit na agent ay nagsimula na, ngunit may malaking daan pa upang makamit ang tunay na kakayahan na palitan ang tao.