Berdasarkan pemantauan Beating, Universiti California, Berkeley, yang dipimpin oleh RDI, bekerjasama dengan ratusan pakar industri, telah melancarkan piawaian penilaian agen AI baharu bernama Agents' Last Exam (ALE) untuk menilai kemampuan agen dalam menyelesaikan pekerjaan profesional digital yang sebenar. ALE merangkumi 55 subbidang profesional digital dan mengumpulkan lebih daripada 1,500 tugas yang telah disahkan daripada projek sebenar pakar manusia, menyokong pengesahan hasil dalam persekitaran interaksi GUI dan CLI. Ujian pertama merangkumi sistem terkini seperti Fable 5, GPT-5.5, dan Composer 2.5. Menurut perbandingan terkini di laman web rasmi, dalam tugas paling sukar yang memerlukan penalaran berterusan dan pengetahuan mendalam, semua agen yang diuji mencatatkan kadar kejayaan 0%. Fable 5, yang dilancarkan minggu ini, juga gagal sepenuhnya. Ini terutamanya disebabkan oleh pemacuan strategi keselamatan, di mana sekitar 35% tugas Fable 5 dikembalikan dan dijalankan semula menggunakan versi lama Opus 4.8, menyebabkan prestasi keseluruhan jauh lebih rendah berbanding sistem lain. Dari segi kos API per tugas, Fable 5 berada pada kira-kira $15.70, jauh lebih tinggi berbanding $3.80 untuk GPT-5.5 dan $1.33 untuk Composer 2.5, dengan kos yang 4 hingga 12 kali lebih tinggi untuk tugas yang sama. Ujian juga mendapati bahawa sebab kegagalan paling biasa pada agen ialah pengumuman kejayaan terlalu awal—iaitu agen mengakhiri tugas tanpa mengesahkan hasil sebenar, bahkan melupakan fail atau mengira data dengan salah. Untuk agen baris arahan, pasukan penilaian juga melancarkan subset ALE-CLI. Berbanding Terminal-Bench dan SWE-bench-Pro yang sedia ada, ALE-CLI merangkumi 40 subbidang, dengan masa purata manusia untuk setiap tugas mencapai beberapa jam hingga beberapa minggu. Dalam ujian baris arahan, agen terbaik hanya mencapai kadar lulus 25.2%. Pasukan penilaian menekankan bahawa era agen yang mudah digunakan telah tiba, tetapi masih terdapat jalan panjang sebelum agen benar-benar mampu menggantikan manusia dalam pekerjaan profesional.
Fable 5 Gagal Melakukan Tugas Paling Sukar dalam Penilaian Agen AI ALE Baru
MarsBitKongsi
Fable 5 berjuang dalam ujian berita AI + kripto terkini, ALE, yang dibangunkan oleh RDI UC Berkeley dan pakar industri. Bersama GPT-5.5 dan Composer 2.5, Fable 5 mendapat skor 0% pada tugas paling kompleks. Pengembalian 35% ke Opus 4.8 akibat dasar keselamatan merosotkan prestasinya. Fable 5 juga berharga 4–12 kali lebih mahal setiap tugas berbanding pesaingnya. Senarai token baharu tetap menjadi fokus utama bursa, tetapi kemajuan AI menghadapi halangan dunia nyata.
Sumber:Tunjukkan artikel asal
Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini.
Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.