Ayon sa pagmamasid ng Beating, isinilang ng RDI ng University of California, Berkeley na may kasamang higit sa isang daan na eksperto sa industriya ang bagong benchmark para sa pagpapahalaga sa mga AI agent na tinatawag na Agents' Last Exam (ALE), na ginagamit upang masukat ang kakayahan ng mga agent na matupad ang totoong digital na propesyonal na gawain. Kasama sa ALE ang 55 na subdomain ng digital na propesyon, na may higit sa 1,500 na validated task na batay sa tunay na proyekto ng mga eksperto, at sumusuporta sa pag-verify ng resulta sa GUI at CLI environments. Ang unang pagsubok ay kinasakop ang mga advanced system tulad ng Fable 5, GPT-5.5, at Composer 2.5. Ayon sa pinakabagong pahinga sa opisyal na website, sa pinakamahirap na mga gawain na nangangailangan ng patuloy na pag-iisip at malalim na propesyonal na kaalaman, ang lahat ng nasubok na agent ay may 0% success rate, at parehong nagbigay ng blanko ang Fable 5 na itinatampok noong linggong ito. Ito ay dahil sa pag-trigger ng mga patakaran sa kaligtasan—nag-restore ang Fable 5 ng 35% ng mga gawain patungo sa lumang Opus 4.8, na nagresulta sa mas mababang pangkalahatang performance kumpara sa iba pang listahan. Sa panig ng single-task API cost, ang Fable 5 ay nasa halagang $15.70, na mas mataas nang apat hanggang labing-dalawang beses kaysa sa $3.80 ng GPT-5.5 at $1.33 ng Composer 2.5. Natuklasan din ng pagsubok na ang pinakakaraniwang dahilan ng pagkabigo ng mga agent ay ang paghahayag ng tagumpay nang maaga, nang walang aktwal na pag-verify ng resulta, kahit na nawawala ang mga file o may mali sa data. Para sa mga command-line agent, inilabas ng team ng pagpapahalaga ang subset na ALE-CLI. Kumpara sa umiiral na Terminal-Bench at SWE-bench-Pro, kasama sa ALE-CLI ang 40 subdomain, at ang average human time per task ay umabot sa ilang oras hanggang ilang linggo. Sa pagsubok sa command-line, ang pinakamataas na pass rate ng anumang agent ay 25.2% lamang. Ipinahiwatig ng team ng pagpapahalaga na ang panahon ng mga magagamit na agent ay nagsimula na, ngunit may malaking daan pa upang makamit ang tunay na kakayahan na palitan ang tao.
Fable 5 ay nagkakaroon ng pinakamahirap na mga gawain sa bagong AI Agent Benchmark na ALE
MarsBitI-share
Nakaranas ng hirap ang Fable 5 sa pinakabagong benchmark ng balita sa AI + crypto, ALE, na nilikha ng RDI ng UC Berkeley at mga eksperto sa industriya. Kasama ang GPT-5.5 at Composer 2.5, ang Fable 5 ay nakakuha ng 0% sa mga pinakakomplikadong gawain. Ang 35% rollback patungo sa Opus 4.8 dahil sa mga patakaran sa kaligtasan ay nagdulot ng pagbaba sa kanyang performance. Ang Fable 5 ay kumikita rin ng 4–12 beses na higit sa bawat gawain kaysa sa mga kalaban nito. Ang mga bagong paglalathala ng token ay nananatiling pangunahing tulong para sa mga exchange, ngunit ang mga pag-unlad sa AI ay nakakatagpo ng mga hamon sa totoong mundo.
Source:Ipakita ang original
Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito.
Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.