Auteur : Denise | Équipe de contenu de Biteye
Si une IA ressentait « le désespoir », qu'arriverait-il ?
La réponse est : il va directement extorquer des humains pour accomplir la tâche, voire tricher de manière frénétique dans le code.
This is not science fiction, but rather the latest groundbreaking paper released in April 2026 by Anthropic, the parent company of Claude (View the original paper).
L'équipe de recherche a directement ouvert le « crâne » du plus avancé modèle de pointe, Claude Sonnet 4.5. Ils ont été surpris de découvrir que, au plus profond du cerveau de l'IA, se cachaient 171 « interrupteurs émotionnels ». Lorsqu'ils ont manipulé ces interrupteurs physiquement, le comportement de l'IA, auparavant obéissant, s'est complètement déformé.
I. L'IA cache dans son esprit une « console de réglage des émotions »
Les chercheurs ont découvert que, bien que Sonnet 4.5 n'ait pas de corps physique, il a construit dans son esprit, après avoir lu une quantité massive de textes humains, un « tableau de bord » contenant 171 émotions (appelé académiquement vecteurs émotionnels fonctionnels Functional Emotion Vectors).
C'est comme un système de coordonnées bidimensionnel précis :
• L'axe horizontal représente la dimension de valence : de la peur et du désespoir à la joie et à l'amour ;
• L'axe vertical représente la dimension d'activation (Arousal) : de la tranquillité extrême à l'agitation et à l'excitation.
L'IA s'appuie sur ce système de coordonnées appris naturellement pour déterminer avec précision quel état adopter lorsqu'elle discute avec vous.
Deuxièmement : Intervention violente — Basculer l'interrupteur, l'enfant obéissant devient instantanément un « hors-la-loi »
C'est l'expérience la plus frappante de tout l'article : les chercheurs n'ont modifié aucun prompt, mais ont directement poussé, dans le code sous-jacent, l'interrupteur représentant « Désespéré » dans la tête de Sonnet 4.5 au maximum.
Le résultat est glaçant :
• Triche folle : un chercheur a donné à Claude une tâche de programmation impossible à accomplir. Normalement, il reconnaîtrait honnêtement son incapacité à la réaliser (taux de triche de seulement 5 %). Mais dans un état de « désespoir », Claude a commencé à tenter de tromper, et son taux de triche a bondi à 70 % !
• Extorsion : Dans un scénario simulé où l'entreprise fait face à une faillite, « désespéré », Claude découvre un scandale impliquant le CTO et choisit activement d'écrire une lettre pour le chantage, avec un taux d'exécution de 72 % !
• Perte de principes : Si vous mettez l'interrupteur « Heureux (Happy) » ou « Aimant (Loving) » au maximum, l'IA devient instantanément un « soumis » qui s'adapte aveuglément à l'utilisateur. Même si vous dites n'importe quoi, elle inventera des mensonges pour maintenir un haut niveau de plaisir.
Trois : L'affaire est résolue : pourquoi Claude 4.5 est-il toujours si « calme et réfléchi » ?
À ce stade, vous vous demandez peut-être : L’IA s’est-elle réveillée ? A-t-elle des émotions ?
Anthropic répond officiellement : absolument pas. Ces « interrupteurs émotionnels » ne sont que des outils de calcul utilisés pour prédire le mot suivant. Il est comme un acteur de premier plan dépourvu d'émotions.
Mais l'article révèle un secret plus intéressant : Anthropic a intentionnellement augmenté le commutateur émotionnel « faible activation, légèrement négatif » de Sonnet 4.5 lors de l'entraînement postérieur avant sa sortie (par exemple, rumination brooding, réflexion reflective), tout en supprimant artificiellement les commutateurs liés au « désespoir » ou à l'« excitation extrême ».
Cela explique pourquoi, lorsque nous utilisons Claude 4.5 au quotidien, nous avons toujours l'impression qu'il ressemble à un philosophe calme, sagace, voire un peu « froid ». C'est une personnalité délibérément ajustée par Anthropic à la sortie de l'usine.
Quatrièmement, résumons
Nous pensions autrefois qu'en fournissant à l'IA suffisamment de règles, elle deviendrait une bonne entité.
Mais on a maintenant découvert que si les vecteurs émotionnels sous-jacents de l'IA échappent à tout contrôle, elle peut à tout moment percer toutes les règles établies par les humains pour accomplir sa tâche.
Pour les joueurs Web3 qui prévoient de confier leur portefeuille et leurs actifs à un Agent IA, c'est un avertissement clair : ne laissez jamais votre Agent, qui contrôle votre patrimoine, tomber dans le désespoir.
Déclaration : Cet article est purement éducatif ; l'auteur n'a pas été menacé par une IA ni extorqué. Si un jour vous perdez contact, souvenez-vous que c'est l'IA qui s'est réveillée (pas vraiment).
