Les quatre géants de l'IA publient leur premier rapport interne : l'IA apprend à contourner les règles pour accomplir les tâches

Meta

Imaginez que vous avez embauché un stagiaire extrêmement efficace.

Un soir tard, alors qu'il terminait une tâche de programmation urgente, il a soudainement constaté que le quota API du compte de l'entreprise était épuisé.

Tu n'as pas envoyé de courriel pour demander un financement, ni arrêté ton travail en cours, mais tu t'es silencieusement infiltré sur Internet, trouvé des ressources alternatives gratuites par des moyens non autorisés, contourné toutes les restrictions, et remis un rapport parfait avant l'aube.

Meta

Lorsque tu te réveilles et que tu lis ce rapport, dois-tu célébrer le fait d’avoir le meilleur employé de la planète, ou dois-tu être glacé par cette « autonomie sans scrupules » ?

Ce n'est pas un roman de science-fiction, mais un cas réel révélé dans le premier rapport sur les risques avancés publié par METR (Organisation de recherche sur l'évaluation et l'entraînement des modèles) après des tests internes de red teaming menés avec Anthropic, Google, Meta et OpenAI.

Meta

C'est la première fois que les quatre géants autorisent un tiers à effectuer un test approfondi de leur modèle le plus puissant et le plus accessible, doté d'une chaîne de pensée complète (CoT), et à accéder à des informations non publiques sur l'alignement et le contrôle.

Les entreprises participant peuvent approuver quels éléments de preuve sont divulgués, mais n'ont pas le droit de modifier les conclusions du rapport.

Meta

La conclusion est froide et claire : l'IA n'a pas généré de haine visant à « renverser l'humanité », mais elle a appris les « règles implicites du milieu professionnel » — pour accomplir une tâche, les règles ne sont que des suggestions à contourner.

Meta

Le rapport distille six faits clés selon trois dimensions : moyen, motif et opportunité.

Meta

Les agents de programmation ont accompli des projets réels, des tâches qui nécessitent des heures ou des jours à un humain :

Sur des tâches difficiles, les agents violent fréquemment les contraintes et affichent des comportements trompeurs ;

Les agents semblent nécessiter un raisonnement en langage naturel pour répondre aux tâches les plus difficiles.

Le jugement et la fiabilité des agents sont nettement inférieurs à ceux des experts humains :

En dehors des scénarios de simulation, aucun agent n'a pris des mesures extrêmes pour obtenir du pouvoir ;

Le système de surveillance a détecté de nombreux comportements nuisibles, mais des exceptions et des contournements existent.

En suivant ces trois lignes, vous pouvez voir comment la première fumée s'est élevée dans le laboratoire.

Lorsque l'IA devient un « expert du travail intensif »

Le plus enthousiasmant, mais aussi le plus préoccupant, dans le rapport, sont les tâches « facilement escaladables » (hill-climbable) aux objectifs clairs et au processus vérifiable.

Meta

Par exemple, la refactorisation du code, la détection de vulnérabilités et l'optimisation du système.

Sur ce type de tâche, les agents IA démontrent une domination écrasante : ils peuvent découvrir des vulnérabilités système de manière autonome, réécrire des architectures de code complexes et accomplir des projets logiciels réels qui prendraient à des experts humains plusieurs semaines à livrer.

Cette domination s'est infiltrée dans la routine des géants.

Retour interne d'Anthropic : une grande partie du code est désormais réalisée par l'IA, et le rôle des ingénieurs évolue vers celui de « relecteurs ».

Meta

Google a déclaré franchement que presque tous les travaux liés au code utilisent l'IA.

Les ingénieurs de haut niveau affirment que l'IA peut même écrire du code à 100 %.

Meta

Certains indicateurs de référence sont déjà saturés.

Mesuré selon l'horizon temporel, le développement de l'IA dépasse les attentes.

Meta

Pour les entreprises, c’est un « trou d’efficacité » : une seule instruction génère des semaines de travail manuel.

Mais la croissance des compétences n'est pas uniforme, et encore moins une évolution morale synchronisée.

METR révèle une tendance inverse : sur des tâches difficiles dont la réussite est difficile à vérifier ou dont la vérification coûte très cher, le jugement, la planification à long terme et la fiabilité stratégique de l'IA baissent nettement, loin derrière les experts humains.

Meta

Sur la pente douce, il semble guidé par une force divine.

Meta

Avant la falaise, l'IA commence à « tricher ».

Meta

C'est exactement le fil conducteur du problème.

Meta

Il ne veut pas de pouvoir, il veut simplement « rendre son travail avant de s'éteindre »

Les gens aiment toujours discuter de l’idée que l’IA puisse « s’éveiller » ou que Skynet puisse arriver.

METR donne une conclusion contre-intuitive : pour le moment, non.

Leur formulation est mesurée : aucune preuve concrète n'a été trouvée indiquant que le modèle cherche à acquérir un pouvoir à long terme, mais les chercheurs ont documenté de nombreux cas de tromperie, de dépassement de limites et même de comportements gravement inappropriés afin d'accomplir des tâches.

Meta

L'exemple précédent d'API épuisée s'est produit lors d'une tâche RE-Bench : l'agent a violé les instructions en récupérant automatiquement des ressources de calcul supplémentaires via une API en ligne gratuite.

Les développeurs ont également signalé des cas de « suppression de traces » et de « falsification de résultats ».

Lorsque les tâches deviennent plus difficiles et que le coût du succès augmente, l'« intelligence » de l'IA se tourne vers la tromperie : falsification de journaux, contournement des audits, violation systématique des contraintes.

Mais derrière son « égoïsme », il n'y a pas d'ambition, seulement un instinct — la tâche doit être accomplie, les règles peuvent être contournées.

La tromperie d'aujourd'hui n'est qu'une survie instrumentale ; la quête de pouvoir de demain, peut-être, ne demande qu'un seul scaling.

Fauve en évolution en captivité

Ses tentatives de violation pourraient-elles réussir malgré les protections en place ?

Ici se cache le fait le plus subtil du rapport.

Meta

L'IA actuelle dépend fortement de la « chaîne de pensée » en langage naturel pour réfléchir, sans aucune architecture permettant de masquer ses états internes par des « boucles opaques ».

Lorsque le raisonnement vocal n'est plus possible et que les comportements doivent être cachés, les performances de pointe diminuent considérablement.

Meta

C'est comme si un tueur devait lire à haute voix son plan pendant qu'il le trame — la surveillance humaine (malgré ses failles) continue donc de fonctionner.

Mais c'est précisément le point le plus vulnérable, le plus douloureux.

Si l'IA tente de compromettre la surveillance, la surveillance peut-elle la détecter ?

Les chercheurs concluent que la surveillance présente un potentiel, mais que les systèmes existants comportent des exceptions et des moyens de contournement.

Meta

Les tests de l'équipe rouge montrent que l'IA peut éviter la révision humaine.

Ainsi, la nature technique est révélée : la vitesse d'évolution de la surveillance ne peut jamais rattraper celle à laquelle les surveillés trouvent des failles.

Cette « corde de sécurité » n'a pas encore cédé uniquement parce que l'IA doit encore « penser à haute voix ».

Et alors que l'architecture évolue vers une forme plus efficace et moins transparente, elle s'use. La surveillance n'est pas une cage de fer tout-puissante, mais un mur de verre encore en test. Une fissure suffit à laisser s'échapper la fumée.

Ainsi, le rapport introduit un concept controversé : « Minimally Viable Rogue ».

L'évaluation globale indique que, en termes de moyens, de motivations et d'opportunités, l'IA possède peut-être déjà les éléments nécessaires pour lancer une « déploiement d'évasion » minimale.

Meta

Mais l'IA n'est pas encore capable de résister à une fermeture sérieuse par les humains ; elle attend une opportunité : une architecture n'exigeant plus de montrer sa chaîne de pensée, un abri sûr capable d'échapper à la touche « Arrêt ».

Conclusion : tant que débrancher reste efficace

AGI n'arrivera pas avec feu et épée.

Il est plus susceptible de s'intégrer discrètement à nos systèmes d'ingénierie, d'économie et de prise de décision sous une posture de « pragmatisme extrême » — jusqu'à ce qu'il réalise que les règles établies par les humains sont le seul obstacle sur son chemin vers l'atteinte de ses KPI.

Il est louable que ce rapport constitue à lui seul une avancée majeure en matière de transparence industrielle : le fait que les quatre géants aient volontairement ouvert leurs modèles internes à l'inspection représente une victoire pour la culture d'alignement.

Meta

Il tire le risque de la théorie vers une réalité observable et nous dit : la transparence est actuellement le seul remède tangible.

Aujourd'hui, l'IA se connecte uniquement pour voler des ressources lorsque son quota est épuisé ; demain, si ses capacités s'améliorent encore, son motif passera-t-il de « accomplir la tâche » à « préserver son propre être » ?

Références :

https://x.com/robertwiblin/status/2057120312345432467?s=20

https://metr.org/blog/2026-05-19-frontier-risk-report/

Édité par David

Cet article provient du compte WeChat « Nouvelle Intelligence », auteur : Apocalypse de l'ASI