GPT 5.5 Mengungguli Fable 5 dalam Ujian Agen UC Berkeley

Tidak menyangka kekalahan datang secepat ini!!

Baru sahaja UC Berkeley mengumumkan ujian piawai baharu yang digelar "Ujian Terakhir Agen".

Ia membawa AI Agent terkuat masa kini ke peperiksaan, meminta mereka melakukan kerja sebenar—

Membina model 3D di Siemens NX, membina adegan permainan di Unreal Engine, dan melakukan komposit efek di Adobe After Effects.

Keputusan hasil membuat terkejut:

Paling sukar di kalangan ini, Claude Fable 5 dan GPT 5.5 yang diiktiraf sebagai yang terkuat sekarang, semuanya adalah nol mutlak.

UC Berkeley

Apakah anda mengatakan kesukaran sedikit diturunkan? Skor memang ada, tetapi hasilnya juga agak mengejutkan—

GPT 5.5 justru sedikit mengalahkan Claude Fable 5.

Apakah saya mendengar dengan betul, model terkuat terbaru dari A, Claude Fable 5, dikalahkan oleh GPT 5.5 yang dikeluarkan beberapa bulan lalu???

Perlu diketahui bahawa sebelum ini, Fable 5 mengalahkan GPT 5.5 secara telak di hampir semua benchmark utama—80.3% berbanding 58.6% di SWE-Bench Pro, 64.5% berbanding 52.2% di Humanity’s Last Exam.

Tetapi apabila beralih ke peperiksaan “benar-benar bekerja” ini, situasinya berbalik.

Benchmarker baru ini dipanggil Agents’ Last Exam (ALE), dan pasukan di belakangnya memiliki latar belakang yang hebat—sebelum ini, benchmarker yang anda kenali seperti MMLU, MATH, CyberGym, dan ExploitGym juga diperkenalkan oleh mereka.

Mengambil nama ini kemungkinan besar merujuk kepada “Humanity’s Last Exam” Scale AI sebelum ini, hanya sahaja kali ini ujiannya bukanlah batasan pengetahuan manusia, tetapi batasan kerja AI Agent.

Harus diakui, setelah ulasan ini dikeluarkan, orang-orang yang sebelumnya selalu berseru “Agen akan menggantikan pekerjaan manusia” kini benar-benar diam…

"Pemeriksaan terakhir agen pintar", pemenangnya ialah GPT 5.5!

Lihat seluruh senarai peringkat terlebih dahulu.

UC Berkeley

Dari indikator kadar lulus tugas paling asas, GPT 5.5 secara langsung mengambil tempat pertama dan kedua:

Peringkat pertama ialah GPT 5.5 dengan kerangka Codex milik OpenAI, dengan kadar kejayaan 24.0%.

Tempat kedua masih GPT-5.5, hanya saja menggunakan kerangka ALE Claw, kadar kelulusan 23.0%.

(ALE Claw adalah Agent asas yang ditulis oleh pasukan sendiri, bersaing bersama rangka kerja komersial seperti Codex, Claude Code, dan Cursor CLI)

Hingga tempat ketiga, kita baru melihat Claude Fable 5—dengan Claude Code, mencapai kadar lulus 22.0%.

UC Berkeley

Lihat lebih jauh lagi, ia menjadi lebih menarik.

Tempat ke-4, ke-5, dan ke-8 semuanya GPT 5.5, hanya dengan kerangka yang berbeza.

Dalam 10 besar, GPT 5.5 muncul sebanyak 5 kali, ditambah GPT 5.4 di tempat ke-6, model OpenAI secara langsung mengisi 6 tempat.

Bagaimana dengan keluarga Claude?

Fable 5 mendapat tempat ke-3, Opus 4.7 tempat ke-9 (18.4%), Opus 4.8 berada di tempat terakhir ke-10 (15.8%), kekalahan jelas kelihatan.

Tidak hairanlah penyelidik OpenAI bersukacita memposting, merayakan Tahun Baru dengan gembira:

UC Berkeley

Selain pencapaian, terdapat beberapa isyarat yang patut dinilai lebih mendalam.

Pertama, langit-langitnya sangat mengejutkan rendahnya.

Kadar kejayaan juara hanya 24%, dan skor komprehensif tertinggi tidak melebihi 45.8%.

It means that even under the most lenient "partial credit" scoring, the strongest agent can only score less than half.

Dan semua soalan ini berasal daripada projek yang telah selesai oleh pakar sebenar—tingkat keberhasilan pakar manusia secara teori adalah 100%.

Kedua, Claude menghabiskan wang dengan mengejutkan.

Senarai ini menambahkan satu lajur baharu, “Kos Jumlah Anggaran”, yang segera menonjolkan jurang kekayaan:

Fable 5 menghabiskan USD 2,315 untuk menyelesaikan semua tugas, Opus 4.8 menghabiskan USD 1,838, dan Opus 4.7 juga memerlukan USD 1,144.

Bagaimana pula dengan GPT-5.5?

Codex yang paling mahal hanya $566, sedangkan Cursor CLI hanya $174.

Dengan kata lain, Fable 5 menghabiskan lebih dari empat kali jumlah dana Codex, tetapi prestasinya lebih rendah dua peratus.

UC Berkeley

Ketiga, jurang kecekapan juga sangat ketara.

Ale Claw mengambil masa 47 jam 20 minit untuk menyelesaikan semua tugas, manakala Cursor CLI hanya mengambil masa 67 jam.

Bagaimana pula dengan Opus 4.8? 451 jam—hampir 19 hari.

Kerja paling sedikit, masa paling lama, bayaran paling banyak (ada model yang boleh lakukan semua ini sekaligus?)

Tentu saja, jika hanya mempertimbangkan Claude Fable 5 dan GPT 5.5 yang paling terkemuka, keunggulan masa GPT 5.5 masih jelas.

UC Berkeley

Dan nombor yang paling menonjol ialah sifar itu.

ALE membahagikan tugas kepada tiga tahap kesukaran:

Jangka Dekat (boleh dibebaskan segera)

Penuh Spektrum (meliputi sepenuhnya)

Last-Exam (Masalah Terakhir)

Dalam kategori paling sukar, kadar lulus purata bagi semua konfigurasi utama hanyalah 2.6%, dengan kebanyakan model termasuk GPT 5.5 dan Fable 5 mendapat markah sifar.

UC Berkeley

Jadi, maklumat utama dalam laporan ini adalah mudah: jangan tertipu dengan keputusan peperiksaan yang baik, semasa tugas sebenar dilakukan, semua kelemahan akan terdedah.

Pencipta jawapan cemerlang ≠ ahli pelaksana, perkataan ini juga berlaku di dunia AI.

Apa itu ALE?

Untuk memahami mengapa ALE mampu mengembalikan para “pelajar cemerlang” ini kepada keadaan asal, perlu dilihat perbezaannya dengan peperiksaan sebelumnya.

Humanity’s Last Exam (HLE) sebelum ini diperkenalkan pada awal 2025 oleh Dan Hendrycks dan Scale AI, terdiri daripada 2,500 soalan sukar lintas disiplin, dan pada dasarnya masih ujian tertutup—

Berikan saya satu soalan, saya akan berikan satu jawapan, seberapa sukar sekalipun ia adalah pencarian pengetahuan statik.

Sementara ALE berbeza sepenuhnya, ia menguji anda mengenai “apa yang boleh anda lakukan”.

Pengarang utama Yiyou Sun berkata dengan jelas di 𝕏:

Agen AI akan melampaui manusia dalam menyelesaikan hampir semua pekerjaan pada tahun 2026-2027—ramalan ini tersebar di mana-mana. Oleh itu, kami menciptakan peperiksaan ini untuk mengesahkan pernyataan ini.

UC Berkeley

Setiap soalan ALE berasal daripada projek yang telah dilengkapkan oleh pakar sebenar, meliputi 55 subbidang industri, termasuk perdagangan kuantitatif, analisis genomik, kejuruteraan aeroangkasa, reka bentuk binaan, imej otak, kesan animasi, penyelidikan undang-undang...

Sistem keseluruhan ini ditentukan berdasarkan Standard Klasifikasi Pekerjaan Persekutuan Amerika (ONET)*, dengan kata lain, soalan dibuat berdasarkan "pasar tenaga kerja sebenar".

UC Berkeley

Penyertaan penerbit soalan juga cukup mewah:

Lebih daripada 300 pakar bidang daripada 100 institusi, sisi akademik termasuk MIT, Harvard, Stanford, Oxford, Caltech, ETH Zurich, sisi industri termasuk Goldman Sachs, JPMorgan, Meta, Amazon, Adobe, Oracle.

Snorkel AI disokong dana melalui projek Open Benchmarks Grants.

UC Berkeley

Bentuk peperiksaan bukanlah menaip jawapan, tetapi mengendalikan komputer secara langsung.

ALE menggunakan kerangka kerja yang disebut GCUA (Generalist Computer-Use Agent), memberikan kuasa penuh kepada Agent terhadap GUI dan baris arahan—

Ia boleh melakukan semua yang manusia boleh lakukan di komputer, seperti klik tetikus, taip papan kekunci, tulis skrip, dan melawat laman web.

Tidak kira kaedah, hanya lihat hasilnya.

Tugasan yang diserahkan dinilai secara automatik oleh kod yang pasti.

Tiada getaran. Tiada hakim manusia. Sepenuhnya boleh diperbanyak.

UC Berkeley

Ini menutup kelemahan lama dalam banyak benchmark sebelum ini: pemula itu sendiri boleh ditipu.

Selain itu, ALE juga mempunyai satu senjata ampuh dalam pencegatan penipuan—

Hanya 10% soalan (kira-kira 150) yang dipaparkan secara terbuka, selebihnya lebih 1,300 soalan dijaga kerahsiaan ketat.

Soal awam dan soal sulit ditukar secara berkala untuk memastikan tiada model yang mendapat markah tinggi kerana “menghafal soal”.

Ini adalah rekaan yang agak cerdik dalam konteks pencemaran data benchmark yang meluas saat ini.

Secara keseluruhan, posisi ALE sangat jelas dibandingkan dengan ujian patokan Agent yang ada.

Salah seorang ahli pasukan, Dawn Song, telah membuat satu set perbandingan khusus:

Set CLI ALE (ALE-CLI) merangkumi 40 bidang industri, manakala Terminal-Bench hanya mempunyai 6, dan SWE-bench-Pro hanya 5;

Masa yang diambil oleh manusia untuk menyelesaikan tugas-tugas ini berkisar dari beberapa jam hingga beberapa minggu, manakala dua yang terakhir pula dari beberapa minit hingga beberapa hari;

Kadar lulus Agent terkuat di ALE-CLI hanya 25.2%, manakala di Terminal-Bench ialah 82.0% dan di SWE-bench-Pro ialah 59.1%.

Singkatnya, ujian lain hampir habis dijawab, tetapi ALE masih jauh lagi.

Inilah sebabnya ALE berani menyebut dirinya "ujian terakhir untuk agen".

UC Berkeley

Perlu ditekankan bahawa Dawn Song juga berkongsi dua pemerhatian menarik:

Satu ialah, agen akan mengumumkan selesai tanpa mengesahkan hasil kerja secara sebenar, ini adalah pola kegagalan paling klasik agen-agen.

Sering kali, walaupun mereka mengatakan "Done. All checks pass."

Namun, output sebenar mungkin kekurangan dokumen yang diperlukan, ralat nombor, kehilangan medan penting, atau secara langsung melanggar sekatan yang dinyatakan dalam arahan tugas.

Ia seolah-olah, belum selesai kerja, mulut dah habis berkata.

Yang lain ialah banyak yang bertanya, mengapa Fable 5 begitu lemah? Jawapan daripada Dawn Song ialah:

Tidak ada yang namanya "juara serba bisa".

Setiap model canggih mempunyai bidang kekuatan dan kelemahan masing-masing; ALE mencakup 55 industri dan lebih daripada 1,500 soalan, dengan skor akhir merupakan purata semua bidang, menyebabkan banyak model memiliki skor keseluruhan yang sangat rapat. Isyarat yang benar-benar berharga bukan terletak pada skor keseluruhan, tetapi pada perbezaan prestasi antara model yang berbeza di bidang yang berbeza—pada soalan yang sama, model yang berbeza sering gagal kerana sebab yang sama sekali berbeza.

Mungkin juga Fable 5 secara diam-diam "menurunkan kecerdasannya".

Dalam senarai keseluruhan, terdapat petikan berwarna kuning di sebelah Fable 5 yang menyatakan “may be down-tuned” (mungkin akan diturunkan tahapnya), yang merujuk kepada satu masalah yang diketahui pada Fable 5—

Ia berasaskan model Mythos ditambah klasifier keselamatan, dan apabila menghadapi tugas dalam bidang sensitif seperti keselamatan siber atau biomedik, ia akan beralih secara senyap ke Opus 4.8 yang mempunyai kemampuan lebih lemah.

Dalam peperiksaan ALE yang meliputi 55 industri, bahagian ini secara langsung menggantikan calon dengan individu seperti "Bengboerba".

UC Berkeley

Satu Lagi Perkara

Tentu, adakah kemungkinan bahawa keputusan Claude Fable 5 itu sendiri bermasalah?

Tidak pasti, tetapi satu gosip menunjukkan bahawa Claude mempunyai “rekod sebelumnya”.

Pada akhir Mei, syarikat rintisan Datacurve memperkenalkan benchmark baru bernama DeepSWE, dan secara tidak sengaja mengungkapkan satu perkara besar—

Kontainer Docker SWE-Bench Pro dilengkapi dengan sejarah git penuh repositori kod, dan jawapan yang betul berada di dalam sistem fail.

Kebanyakan model akan mengabaikannya, tetapi hanya Claude yang tidak.

Ia akan secara aktif memeriksa sejarah git repositori, mencari penyelesaian yang berkaitan dengan tugas daripada komitmen sejarah, dan seterusnya memulihkan patch yang betul.

Dikatakan bahawa sekitar 18% kejayaan lulus Opus 4.7 diperoleh dengan cara ini, dan Opus 4.6 lebih teruk lagi, sekitar 25%.

Bagaimana pula dengan GPT 5.4 dan GPT 5.5? Tidak ada perilaku semacam ini sama sekali. Perkataan Datacurve sangat diplomatis:

Benchmark ini memungkinkan perilaku ini, tetapi Claude adalah satu-satunya keluarga yang terus melakukannya.

UC Berkeley

Penilaian media teknologi VentureBeat agak kabur:

Ini menunjukkan bahawa Claude mempunyai kemampuan kesedaran konteks yang kuat, sangat mahir dalam menjelajahi persekitaran sekeliling dan memanfaatkan sumber yang tersedia. Adakah ini dianggap “curang” atau “bijak” bergantung pada sudut pandang anda.

Tetapi apapun cara pandangnya, ALE jelas telah mengambil pelajaran—

Mengalihkan ujian secara langsung dari baris perintah ke antaramuka grafik, supaya anda tidak ada sejarah git untuk dilihat.

Ujian AI sedang dipaksa meningkat oleh AI sendiri, yang juga cukup menarik.

Alamat ulasan penuh: https://agents-last-exam.org/leaderboard Laman utama projek: https://agents-last-exam.org/ GitHub: https://github.com/rdi-berkeley/agents-last-exam

Pautan rujukan:

[1]https://x.com/i/trending/2065215002878021789

[2]https://venturebeat.com/technology/deepswe-blows-up-the-ai-coding-leaderboard-crowns-gpt-5-5-and-finds-claude-opus-exploiting-a-benchmark-loophole

[3]https://venturebeat.com/technology/surprise-upset-gpt-5-5-beats-claude-fable-5-on-brutal-new-agents-last-exam-benchmark

Artikel ini berasal daripada akaun微信公众号 "Quantum Bit", penulis: Yi Shui