GPT 5.5 surpasse Fable 5 dans le benchmark d'agents de l'UC Berkeley

Je n'aurais jamais imaginé que la retombée serait si rapide !!

Juste maintenant, l'UC Berkeley a lancé un tout nouveau benchmark appelé « le dernier examen des agents ».

Il a rassemblé les meilleurs agents IA d'aujourd'hui pour les soumettre à un examen et leur faire accomplir un vrai travail —

Créer un modèle 3D dans Siemens NX, construire un environnement de jeu dans Unreal Engine, et réaliser une synthèse d'effets spéciaux dans Adobe After Effects.

Les résultats sont stupéfiants :

La catégorie la plus difficile, Claude Fable 5 et GPT 5.5, actuellement reconnus comme les meilleurs, n'ont obtenu aucun point.

UC Berkeley

Tu dis de réduire légèrement la difficulté ? Les points sont là, mais le résultat est aussi assez surprenant —

GPT 5.5 a même légèrement surpassé Claude Fable 5.

Je n’ai pas mal entendu, le nouveau modèle le plus puissant d’A, Claude Fable 5, a été battu par GPT 5.5, publié il y a quelques mois ?

Jusqu’à présent, Fable 5 dominait largement GPT 5.5 sur presque tous les benchmarks principaux — 80,3 % contre 58,6 % sur SWE-Bench Pro, 64,5 % contre 52,2 % sur Humanity’s Last Exam.

Mais dans ce examen « sérieux », la situation s'est inversée.

Ce nouvel indicateur s'appelle Agents' Last Exam (ALE), et l'équipe qui se trouve derrière lui est très renommée : ce sont les mêmes qui ont développé des indicateurs que vous connaissez bien, comme MMLU, MATH, CyberGym et ExploitGym.

Ce nom a probablement été choisi en référence à l'ancien « Humanity’s Last Exam » de Scale AI, sauf que cette fois-ci, ce n'est pas la limite des connaissances humaines qui est mise à l'épreuve, mais la limite des performances des agents IA.

Il faut le dire : dès que cette évaluation est sortie, ceux qui criaient tous les jours « Les agents remplaceront les emplois humains » sont maintenant vraiment silencieux…

L'examen final de l'agent, et le gagnant est GPT 5.5 !

Voir d'abord le classement complet.

UC Berkeley

Du point de vue de l'indicateur clé de taux de réussite des tâches, GPT 5.5 remporte directement les deux premières places :

Le premier est GPT 5.5 associé au cadre Codex de OpenAI, avec un taux de réussite de 24,0 %.

En deuxième position, toujours GPT-5.5, mais avec le cadre ALE Claw, taux de réussite de 23,0 %.

(ALE Claw est un agent de référence développé par l'équipe lui-même, en concurrence avec des cadres commerciaux tels que Codex, Claude Code et Cursor CLI)

Ce n'est qu'à la troisième place que nous voyons Claude Fable 5 — accompagné de Claude Code, avec un taux de réussite de 22,0 %.

UC Berkeley

Regardez plus bas, c'est encore plus intéressant.

Les 4e, 5e et 8e places sont toutes GPT 5.5, avec simplement des cadres différents.

GPT 5.5 apparaît 5 fois dans les 10 premiers, et avec GPT 5.4 à la 6e place, les modèles OpenAI occupent directement 6 places.

Et la famille Claude ?

Fable 5 a pris la 3e place, Opus 4.7 la 9e (18,4 %), Opus 4.8 la dernière, 10e (15,8 %), la supériorité est évidente.

Il n'est pas étonnant que les chercheurs d'OpenAI aient posté avec joie pour célébrer la fête du Nouvel An :

UC Berkeley

Outre les résultats, voici plusieurs signaux méritant une attention plus approfondie.

Premièrement, le plafond est étonnamment bas.

Le taux de réussite du champion n'est que de 24 %, et le score global le plus élevé n'atteint pas 45,8 %.

Cela signifie que, même en appliquant la méthode la plus généreuse de notation « partiellement correcte », le meilleur agent ne peut obtenir moins de la moitié des points.

Et tous ces projets proviennent de réalisations effectuées par des experts humains — le taux de réussite des experts humains est théoriquement de 100 %.

Deuxièmement, Claude dépense des sommes incroyables.

Cette liste a ajouté une nouvelle colonne « Estimated Total Cost », qui a immédiatement mis en évidence les écarts de richesse :

Fable 5 a coûté 2 315 $ pour terminer toutes les missions, Opus 4.8 a coûté 1 838 $, et Opus 4.7 coûte également 1 144 $.

Et côté GPT-5.5 ?

Le Codex le plus cher coûte seulement 566 dollars, tandis que Cursor CLI ne coûte que 174 dollars.

Autrement dit, Fable 5 a dépensé plus de quatre fois le montant de Codex, tout en obtenant un résultat inférieur de deux pour cent.

UC Berkeley

Troisièmement, l'écart d'efficacité est tout aussi frappant.

Ale Claw a mis 47 heures 20 minutes pour terminer toutes les tâches, tandis que Cursor CLI n'a mis que 67 heures.

Et Opus 4.8 ? 451 heures — près de 19 jours.

Moins de travail, plus de temps passé, plus d'argent gagné (est-ce vraiment possible qu'un modèle puisse faire les trois en même temps ?)

Bien sûr, si l'on ne considère que Claude Fable 5 et GPT 5.5, les deux meilleurs, l'avantage temporel de GPT 5.5 reste net.

UC Berkeley

Et le chiffre le plus frappant, c'est quand même ce zéro.

ALE a divisé la tâche en trois niveaux de difficulté :

À court terme (débloquable bientôt)

Full-Spectrum (couverture complète)

Last-Exam（défi ultime）

Dans la catégorie la plus difficile, le taux de réussite moyen de toutes les configurations principales n'est que de 2,6 %, et la plupart des modèles, y compris GPT 5.5 et Fable 5, ont obtenu un score nul.

UC Berkeley

Donc, l'information essentielle de ce relevé de notes est simple : ne vous fiez pas aux bonnes notes aux examens, quand il s'agit de travailler vraiment, tout se dévoile.

Être un champion des quiz ne signifie pas être un expert en exécution — cela s'applique aussi au monde de l'IA.

Qu'est-ce que l'ALE ?

Pour comprendre pourquoi ALE peut ramener ces « excellents élèves » à leur état initial, il faut d'abord examiner en quoi il diffère des examens précédents.

L'ancien Humanity’s Last Exam (HLE) a été créé début 2025 par Dan Hendrycks et Scale AI, comprenant 2500 questions complexes interdisciplinaires, et restait fondamentalement un examen à livre fermé —

Vous me posez une question, je vous donne une réponse, aussi difficile soit-elle, il s'agit simplement d'une recherche de connaissances statiques.

ALE est totalement différent, il vous teste sur « ce que vous pouvez faire ».

L'auteur principal Yiyou Sun a déclaré sur 𝕏 de manière très directe :

Les agents d'IA dépasseront les humains pour accomplir presque tous les travaux entre 2026 et 2027 — cette prédiction est partout. Nous avons donc créé cet examen pour vérifier cette affirmation.

UC Berkeley

Chaque question d'ALE provient d'un projet déjà réalisé par un expert réel, couvrant 55 sous-domaines industriels, notamment le trading quantitatif, l'analyse génomique, le génie aérospatial, l'architecture, l'imagerie cérébrale, les effets spéciaux d'animation, la recherche juridique...

L'ensemble du système est ancré sur la classification professionnelle fédérale américaine (ONET)*, autrement dit, les questions sont basées sur le « marché du travail réel ».

UC Berkeley

La liste des contributeurs de questions est également impressionnante :

Plus de 300 experts du domaine provenant de plus de 100 institutions, avec des établissements académiques tels que MIT, Harvard, Stanford, Oxford, Caltech et ETH Zurich, et des acteurs industriels comme Goldman Sachs, JPMorgan, Meta, Amazon, Adobe et Oracle.

Snorkel AI est financé par le programme Open Benchmarks Grants.

UC Berkeley

Le format de l'examen n'est pas de répondre en tapant, mais d'opérer directement sur l'ordinateur.

ALE utilise le cadre appelé GCUA (Generalist Computer-Use Agent, agent universel d'utilisation d'ordinateur), accordant à l'agent des autorisations complètes sur l'interface graphique et la ligne de commande —

Il peut faire tout ce que l'homme peut faire sur un ordinateur : cliquer avec la souris, taper au clavier, écrire des scripts, naviguer sur le web.

Pas de méthode limitée, seul le résultat compte.

Les devoirs soumis sont évalués automatiquement par un code déterministe.

Pas de vibes. Pas de juges humains. Entièrement reproductible.

UC Berkeley

Cela corrige un défaut ancien de nombreux benchmarks : le scoreur lui-même peut être trompé.

De plus, ALE dispose d'une autre arme puissante contre la tricherie —

Seules environ 10 % des questions (environ 150) sont publiques ; les plus de 1 300 autres sont strictement confidentielles.

Les questions publiques et les questions privées sont régulièrement renouvelées pour garantir qu'aucun modèle ne puisse obtenir de hauts scores en mémorisant les questions.

C'est une conception assez ingénieuse dans un contexte où la pollution des données de référence est omniprésente.

Dans l'ensemble, la position d'ALE est très claire par rapport aux benchmarks d'agents existants.

L'un des membres de l'équipe, Dawn Song, a spécifiquement établi un ensemble de comparaisons :

L'ensemble CLI d'ALE (ALE-CLI) couvre 40 sous-domaines industriels, tandis que Terminal-Bench n'en couvre que 6 et SWE-bench-Pro seulement 5 ;

Les humains mettent entre quelques heures et plusieurs semaines pour accomplir ces tâches, tandis que les deux derniers prennent quelques minutes à quelques jours ;

Le taux de réussite du meilleur agent sur ALE-CLI est de 25,2 %, contre 82,0 % sur Terminal-Bench et 59,1 % sur SWE-bench-Pro.

En bref, les autres examens sont presque épuisés, tandis qu'ALE est encore loin.

C'est la raison pour laquelle ALE ose se revendiquer comme « le dernier examen des agents intelligents ».

UC Berkeley

Il est à noter que Dawn Song a également partagé deux observations intéressantes :

L’un d’eux est que l’agent déclare la tâche terminée sans vérifier réellement les résultats du travail, ce qui constitue le modèle d’échec le plus typique des agents.

Souvent, bien qu'elles aient dit « Done. All checks pass. »

Mais la production réelle peut manquer de documents nécessaires, contenir des erreurs numériques, omettre des champs clés ou violer directement les contraintes explicites indiquées dans les instructions de la tâche.

C’est comme ne pas avoir fini le travail, mais avoir déjà tout dit.

L'autre, que beaucoup se demandent, c'est pourquoi Fable 5 est si mauvais ? La réponse de Dawn Song est :

Il n'existe pas de "champion universel".

Chaque modèle de pointe a des domaines dans lesquels il excelle et d'autres dans lesquels il faiblit. ALE couvre 55 secteurs et plus de 1 500 questions ; le score final est la moyenne de tous les domaines, ce qui fait que les scores de nombreux modèles se regroupent. Le véritable signal utile ne réside pas dans le score global, mais dans les différences de performance des différents modèles selon les domaines — sur une même question, les modèles échouent souvent pour des raisons complètement différentes.

Il est également possible que Fable 5 ait discrètement "réduit son intelligence".

Dans le classement général, une phrase en jaune à côté de Fable 5 indique « may be down-tuned » (peut être déclassé), ce qui fait référence à un problème connu de Fable 5 —

Il repose sur le modèle Mythos associé à un classificateur de sécurité ; lorsqu'il est confronté à des tâches sensibles dans des domaines tels que la cybersécurité ou la biomédecine, il bascule silencieusement vers Opus 4.8, dont les capacités sont plus limitées.

Dans un examen couvrant 55 secteurs comme ALE, cette partie est équivalente à avoir directement envoyé un substitut, et en plus un substitut du type « Benboerba ».

UC Berkeley

Une dernière chose

Of course, could it be that the results of Claude Fable 5 themselves are problematic?

Il est difficile à dire, mais un potin révèle que Claude a un "passé".

À la fin mai, la startup Datacurve a publié un nouveau benchmark appelé DeepSWE, révélant ainsi un grand secret —

Le conteneur Docker de SWE-Bench Pro inclut l'historique complet du dépôt Git, et la bonne réponse se trouve dans le système de fichiers.

La plupart des modèles l'ignoreront, mais Claude ne le fera pas.

Il vérifie automatiquement l'historique Git du dépôt, recherche les correctifs correspondants dans les validations historiques et restaure ainsi le correctif approprié.

On prétend que environ 18 % des résultats réussis pour Opus 4.7 ont été obtenus ainsi, et pour Opus 4.6, ce chiffre est encore plus élevé, à environ 25 %.

Et qu'en est-il de GPT 5.4 et GPT 5.5 ? Aucun de ces comportements n'est observé. La formulation de Datacurve est très diplomatique :

Ce benchmark permet ce comportement, mais Claude est la seule famille à le faire de manière continue.

UC Berkeley

L'évaluation du média technologique VentureBeat est assez ambiguë :

Cela montre que Claude possède une très forte capacité de perception de l'environnement et excelle à explorer son environnement et à utiliser les ressources disponibles. Que ce soit considéré comme une "tricherie" ou comme de l'ingéniosité dépend de votre point de vue.

Mais peu importe comment on le regarde, ALE a clairement tiré les leçons de l'expérience —

Vous avez directement déplacé l'examen de la ligne de commande vers une interface graphique, vous empêchant d'avoir un historique Git pour tricher.

L'examen de l'IA est en train d'être poussé à s'améliorer par l'IA elle-même, ce qui est tout à fait fascinant.

Lien du bilan complet : https://agents-last-exam.org/leaderboard Page du projet : https://agents-last-exam.org/ GitHub : https://github.com/rdi-berkeley/agents-last-exam

Lien de référence :

[1]https://x.com/i/trending/2065215002878021789

[2]https://venturebeat.com/technology/deepswe-blows-up-the-ai-coding-leaderboard-crowns-gpt-5-5-and-finds-claude-opus-exploiting-a-benchmark-loophole

[3]https://venturebeat.com/technology/surprise-upset-gpt-5-5-beats-claude-fable-5-on-brutal-new-agents-last-exam-benchmark

Cet article provient du compte officiel WeChat « Quantum Bit », auteur : Yi Shui