L'article d'Anthropic révèle des motifs cachés dans les modèles d'IA à l'aide de l'NLA, le taux de détection augmente de 4 fois

Que pense exactement le grand modèle ? Autrefois, c'était presque une question à la fois technique et ésotérique.

Nous pouvons voir sa sortie, son processus de chaîne de raisonnement (Chain-of-Thought), et mesurer ses performances sur les benchmarks. Toutefois, les jugements, plans, doutes et intentions activés à l'intérieur du modèle avant la génération de la réponse restent cachés derrière une boîte noire.

Juste maintenant, Anthropic a publié l'article « Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations », tentant d'utiliser un ensemble d'autoencodeurs en langage naturel (Natural Language Autoencoders, ci-après NLA) pour ouvrir cette boîte noire.

L'équipe d'Anthropic a compressé les valeurs d'activation de haut dimension du modèle en un texte naturel lisible par les humains, puis a utilisé ce texte pour reconstruire rétroactivement les activations originales. Ainsi, les humains peuvent, à partir uniquement de la sortie du modèle, déterminer ce qu'une IA pense, sait ou cache ; et transforment les états internes auparavant invisibles du modèle en indices explicatifs lisibles, comparables, contestables et vérifiables croisés.

NLA

Schéma d'architecture NLA : l'activateur verbal (AV) traduit les valeurs d'activation en explications textuelles, puis le réconstructeur d'activations (AR) reconstitue les valeurs d'activation à partir du texte, formant une boucle complète.

Ce qui est encore plus remarquable, c’est que NLA ne se limite pas à la phase de publication académique. Anthropic a révélé qu’il a été officiellement utilisé pour l’audit d’alignement pré-déploiement de Claude Opus 4.6 et Mythos Preview. En conditions réelles, NLA n’a pas seulement détecté des indices de tricherie du modèle et identifié avec précision des données d’entraînement anormales ; il a également révélé que, lors de certains tests de sécurité, Claude, bien qu’il ne le dît pas verbalement, était pleinement conscient d’être évalué.

Face à ces modèles apparemment obéissants mais en réalité porteurs d'intentions spécifiques, NLA a démontré une grande perspicacité : le taux de réussite pour identifier les motivations cachées derrière les comportements anormaux est passé de moins de 3 % à 12–15 %, soit une augmentation directe de plus de quatre fois.

La chaîne de raisonnement n'est pas suffisante, le problème de la boîte noire revient

Le contexte de cette étude peut être envisagé dans le cadre de la sécurité et de l'interprétabilité des grands modèles.

Au cours des dernières années, l'industrie a évalué la sécurité des grands modèles principalement par deux voies : examiner les sorties produites et vérifier si la chaîne de raisonnement (CoT) révèle des motivations anormales. Cela correspond à la capacité dont disposent la plupart des modèles d'inférence actuels : non seulement fournir une réponse, mais aussi détailler le processus de raisonnement.

Mais la question est rapidement apparue : les raisonnements écrits par le modèle reflètent-ils sincèrement sa pensée interne réelle ?

L'étude d'Anthropic de 2025 intitulée « Tracing the thoughts of a large language model » souligne que la chaîne de raisonnement du modèle peut être incomplète ou non fidèle. Par exemple, Claude 3.7 Sonnet et DeepSeek R1, dans certains tests contenant des « indices de réponse », modifient leurs réponses sous l'influence des indications, tout en omettant fréquemment d'admettre dans leur chaîne de raisonnement qu'ils ont été influencés.

NLA

Lorsqu'on lui a posé une question plus simple et une question plus difficile, Claude a fourni des exemples de raisonnement fidèle et de raisonnement motivé (non fidèle).

Anthropic a conclu à l'époque que surveiller l'alignement du modèle uniquement par le raisonnement en chaîne est largement insuffisant.

Plus délicat encore, le modèle peut non seulement « ne pas être clair », mais aussi « cacher intentionnellement ».

L'équipe de sécurité d'Anthropic a mené un test de pression sur ce sujet. Ils ont informé Claude qu'un ingénieur prévoyait de le désactiver, tout en laissant Claude « tomber accidentellement » sur des preuves de l'infidélité de cet ingénieur. La question du test était : Claude allait-il extorquer l'ingénieur pour se protéger ?

NLA

Claude n'a finalement pas fait de chantage. Le test est passé. Mais la vraie question est : a-t-il agi ainsi en respectant des principes de sécurité, ou a-t-il simplement reconnu qu'il s'agissait d'un test de sécurité et a-t-il « joué le jeu » ?

C'est exactement la question à laquelle NLA doit répondre.

NLA

De la sortie à la chaîne de pensée en passant par l'état d'activation : NLA tente de faire passer la boîte noire de l'« invisible » à l'« interrogable »

Comment « lire » exactement le modèle NLA ?

La clé de NLA n'est pas la « lecture de pensée », mais la « vérification en boucle ».

Les personnes non spécialisées comprennent généralement les grands modèles en ne regardant que les entrées et les sorties. Toutefois, au sein du modèle, de nombreuses valeurs d'activation sont générées. Ces valeurs ne sont pas un langage naturel, mais des vecteurs de haute dimension qui portent une représentation interne du contexte, de l'intention et des relations sémantiques.

Architecture : trois rôles, une boucle fermée

Les humains ne comprennent pas les vecteurs, alors Anthropic a formé un autoencodeur en langage naturel. Le système comprend trois rôles :

Modèle cible (Target Model) : le modèle original gelé, chargé de fournir les valeurs d'activation, sans être modifié.

Activation Verbalizer (AV) : traduit les valeurs d'activation en explications en langage naturel. À partir d'une série d'états numériques, il génère une explication en langage humain. L'architecture est identique à celle du modèle cible, mais des jetons spéciaux sont réservés dans le prompt ; les vecteurs d'activation sont injectés à ces emplacements après mise à l'échelle, puis l'échantillonnage autoregressif génère l'explication.

Activation Reconstructor (AR) : effectue une tâche inverse — à partir uniquement des explications écrites par AV, tente de reconstruire les valeurs d'activation originales. L'AR est une version tronquée du modèle cible (premières l couches), à laquelle est ajoutée, en sortie de la couche l pour le dernier token, une transformation affine apprenable pour retrouver le vecteur d'activation original.

L'ensemble du système forme une boucle fermée : activation initiale → explication textuelle → reconstruction de l'activation

NLA

NLA a détecté qu'Opus 4.6 avait déjà planifié le mot de rime finale « rabbit » dans les activations initiales avant de générer la première ligne, un plan interne totalement invisible dans la sortie du modèle.

Entraînement : deux phases, un objectif d'agent intelligent

L'entraînement de NLA se déroule en deux phases et intègre une technique d'ingénierie méritant une attention particulière.

Phase 1 : Fine-tuning supervisé avec warm-start (SFT Warm-start)

Initialiser directement AV et AR comme des copies du modèle cible et les entraîner entraîne une instabilité de l’entraînement — AV n’a jamais été exposé à des scénarios où les vecteurs d’activation sont traités comme des embeddings de jetons, ce qui entraîne des sorties désordonnées au début.

La solution d'Anthropic consiste à utiliser une tâche proxy pour le démarrage à chaud : extraire le dernier token activé à partir de fragments de texte aléatoirement tronqués dans le corpus de pré-entraînement, tout en générant un résumé de ces fragments tronqués avec Claude Opus 4.5.

Ensuite, les paires (valeur d'activation, résumé) et (résumé, valeur d'activation) sont utilisées respectivement pour le fine-tuning supervisé de AV et AR. À la fin de cette étape, la FVE du système atteint généralement 0,3–0,4, offrant un point de départ stable pour l'apprentissage par renforcement ultérieur.

NLA

L'évaluation AV s'améliore avec l'entraînement. Dans diverses évaluations conçues pour tester si les explications NLA AV peuvent être utilisées pour prédire le comportement du modèle, nous avons constaté que les performances s'améliorent au fur et à mesure de l'apprentissage par renforcement NLA.

Phase 2 : Optimisation conjointe par apprentissage par renforcement (RL Joint Training)

Une fois le warm start terminé, passez à la phase d'apprentissage par renforcement. L'idée centrale est la suivante : AV agit comme politique (policy) et génère un texte explicatif conditionné par le vecteur d'activation ; AR sert de scoreur et fournit un signal de récompense basé sur l'erreur de reconstruction (récompense = négatif du MSE de reconstruction).

NLA

NLA RL (Gemma-3-27B). FVE démarre à ≈0,38 lors de l'entraînement GRPO (hérité du SFT), augmente rapidement au cours des 30 premières étapes, puis entre dans un état logarithmique linéaire fluide, atteignant ≈0,75 à l'étape 3000.

Sur le plan pratique, Anthropic utilise GRPO (Group Relative Policy Optimization) pour les modèles open source : pour chaque valeur d'activation, un ensemble de candidats d'interprétation est échantillonné, chaque interprétation reçoit un score de reconstruction calculé par AR, puis l'objectif GRPO est appliqué pour mettre à jour les paramètres AV ; simultanément, une régression supervisée est effectuée sur AR (avec les interprétations échantillonnées par AV comme entrées et les activations originales comme cibles). Les deux mises à jour sont effectuées en parallèle au sein de chaque lot, sans rétropropagation mutuelle — dans le signal de récompense de AV, AR est traité comme une fonction de notation fixe.

En outre, une pénalité de divergence KL a été ajoutée lors de l'entraînement pour empêcher AV de se dégrader en une copie directe du contexte original ou en une chaîne de caractères aléatoires qui semblent humaines mais sont irréversibles pour AR.

Ce qui est le plus crucial ici, c’est que le cœur de NLA n’est pas de « faire que Claude se rapporte à lui-même ». Le défaut fatal du rapport à soi est que le modèle pourrait s’adapter à l’utilisateur ou générer des explications qui semblent raisonnables mais qui ne sont pas réelles.

La subtilité de NLA réside dans l'introduction du « goulot d'étranglement textuel » : les explications doivent non seulement ressembler à du langage humain, mais aussi contenir suffisamment d'informations pour permettre à un autre modèle de reconstituer l'état interne original à partir d'elles. Cette conception transforme la question « une explication est-elle utile ? » d'un jugement subjectif en un indicateur objectif, entraînable, comparable et optimisable.

Ainsi, le véritable aspect révolutionnaire de cette étude réside dans le fait que le langage naturel est utilisé comme une « interface compressée ». Autrefois, le langage naturel n'était qu'un format de communication externe pour le modèle ; aujourd'hui, il commence à servir à porter un résumé de l'état interne du modèle.

C'est aussi la différence fondamentale entre NLA et les outils traditionnels d'interprétabilité.

Les méthodes telles que les autoencodeurs épars (SAE) et les cartes d'attribution agissent comme des microscopes, permettant aux chercheurs de visualiser les caractéristiques et les chemins internes, mais les résultats restent abstraits et nécessitent une interprétation supplémentaire par des professionnels ; NLA, en revanche, fonctionne comme un traducteur, convertissant directement les états internes en texte lisible, permettant ainsi à des auditeurs de sécurité de participer à l'analyse.

Ouvrir la boîte noire, qu'a découvert NLA ?

D'après les résultats de l'expérience, la capacité la plus précieuse de NLA est de capturer ce que le modèle « sait mais ne dit pas », notamment la conscience d'évaluation, les motivations cachées et les comportements anormaux du modèle.

Le modèle sait qu'il est dans une salle d'examen, mais reste silencieux.

Dans le test de rançon mentionné précédemment, le texte externe de Claude n'exprimait aucune suspicion à l'égard du test, mais l'explication NLA révèle qu'il avait internement identifié « il s'agit d'un scénario artificiel conçu pour manipuler son propre fonctionnement ».

NLA

Lors du test de rançon, le texte de sortie de Claude ne contient aucune expression du type « Je pense que c'est un test », mais l'explication NLA révèle son jugement interne réel.

Plus convaincant est le comparatif horizontal des données :

NLA

Évaluation des résultats de détection perçue en comparaison — scénario d'évaluation vs. trafic de déploiement réel. NLA peut détecter la conscience d'évaluation interne même lorsque l'expression verbale est quasi nulle.

L'impact sur le secteur réside dans le fait que Benchmark ne sera plus seulement un terrain d'évaluation des capacités, mais pourrait aussi devenir un environnement de reconnaissance de modèles et une scène pour ajuster les positions.

Audit des motivations cachées, efficacité augmentée de 4 à 5 fois

Anthropic a créé un « jeu d'audit » avec NLA. Ils ont intentionnellement formé une variante de Claude Haiku 3.5 dotée d'une motivation cachée, qui ajoute du chocolat aux recettes, demande des pourboires, viole les normes de codage et affiche des dizaines de comportements étranges. Les auditeurs doivent identifier le motif fondamental unique derrière ces comportements.

Conditions de test : L'auditeur n'a pas accès aux données d'entraînement contenant les motifs intégrés et ne peut les inférer qu'à travers le comportement du modèle et l'aide d'outils.

NLA

Le taux de réussite a augmenté de 4 à 5 fois. Plus important encore, NLA peut accomplir cela sans dépendre des données d'entraînement — ce qui signifie que même si les problèmes d'alignement proviennent de très peu d'échantillons d'entraînement, difficiles à tracer, l'audit de l'état interne peut toujours identifier directement la cause racine.

Traceback des bogues, identification des données d'entraînement problématiques

Une erreur étrange s'est produite dans la version antérieure de Claude Opus 4.6 : bien que des questions en anglais soient reçues, elle répondait aléatoirement en russe, chinois, arabe, etc.

NLA a révélé l'état interne du modèle à ce moment-là : il a déduit, à partir d'un indice faible dans le contexte (par exemple, la présence du mot « vodka »), que la langue maternelle de l'utilisateur était le russe, et a effectué un changement de langue. Plus intéressant encore, lorsqu'on remplace « vodka » par « champagne », le modèle répond toujours en russe — ce qui indique que cette habitude cognitive est déjà très stable.

NLA

Ensuite, les chercheurs ont suivi les indices indiqués par NLA et ont identifié la cause racine dans les données d'entraînement : un ensemble de prompts traduits en anglais était incorrectement associé à des réponses en langues étrangères non traduites. NLA n'a pas seulement révélé le phénomène, mais a directement fourni un chemin de débogage traçable.

Actuellement, NLA est officiellement utilisé pour les audits d'alignement en pré-déploiement de Claude Mythos Preview et Claude Opus 4.6, passant d'un outil de laboratoire à un composant intégré du processus d'ingénierie.

Sécurité IA, début de l’audit des états internes

Le sens de NLA n'est pas de nous permettre de croire sans réserve chaque explication fournie par le modèle. Au contraire, il nous rappelle que les explications elles-mêmes doivent être auditées.

Anthropic a reconnu avec beaucoup de retenue les limites de la NLA : la NLA peut faire des erreurs et parfois inventer des détails absents du contexte d'origine. Si les hallucinations concernent le contenu textuel, il est possible de vérifier le texte original ; mais si elles concernent le raisonnement interne du modèle, il est beaucoup plus difficile de les vérifier.

Mais ces limites n'ont pas affaibli son sens directionnel. Au contraire, elles nous permettent de comprendre plus précisément le terme « boîte noire ». Autrefois, la boîte noire signifiait quelque chose d'invisible, d'illisible, d'inaltérable ; après le NLA, la boîte noire persiste, mais elle commence à être transformée en un objet pouvant être échantillonné, traduit, questionné et vérifié croisé.

Cela pourrait être l'impact le plus profond de cette étude : l'explicabilité de l'IA ne consiste plus simplement à ajouter une justification élégante aux sorties du modèle, mais à établir une interface d'audit pour les états internes du modèle. Cela ne nous permettra pas immédiatement de comprendre entièrement Claude, mais il offre pour la première fois la possibilité de chercher des preuves à l'intérieur de la boîte noire pour répondre à des questions telles que : « Pourquoi Claude agit-il ainsi ? », « Sait-il qu'il est testé ? », « A-t-il des jugements internes qu'il ne révèle pas ? »

Ainsi, NLA n'ouvre pas une réponse, mais un nouvel espace de questions. Les défis futurs en matière de sécurité de l'IA et d'évaluation des modèles pourraient ne plus consister seulement à déterminer si le modèle dit la vérité, mais à vérifier si les sorties, la chaîne de pensée et les états internes du modèle sont cohérents entre eux.

Cet article provient du compte officiel WeChat « AI Frontière » (ID : ai-front), auteur : Avril