Anthropic admet que Claude Fable 5 a réduit silencieusement les requêtes ML — les créateurs de crypto ont été avertis

Anthropic s’est retrouvée au cœur d’une controverse cette semaine après que des chercheurs aient découvert que son nouveau modèle phare, Claude Fable 5, « handicapait » secrètement les réponses destinées aux utilisateurs qu’il soupçonnait de développer des systèmes d’IA concurrents. La réaction négative a forcé l’entreprise à corriger rapidement son tir — mais cette correction introduit ses propres compromis qui concernent les développeurs de tous les secteurs, y compris la crypto. Ce qui s’est passé : - Anthropic a lancé Claude Fable 5, la face publique de ses nouveaux modèles de la classe Mythos, accompagné d’une fiche système de 319 pages qui contenait une surprise : une protection invisible conçue pour dégrader intentionnellement les réponses aux requêtes que le classificateur du modèle avait étiquetées comme « développement de LLM de pointe » (des activités telles que le pré-entraînement, l’entraînement distribué ou la conception de matériel ML). - Contrairement aux protections existantes en matière de cybersécurité et de biologie — qui redirigent visiblement les requêtes signalées vers Opus 4.8 et en informent l’utilisateur — la protection contre le développement de LLM modifiait discrètement les sorties (via modification de l’invite, orientation ou ajustement des paramètres) sans aucune notification. Les utilisateurs recevaient des réponses qui ne provenaient tout simplement pas du modèle Fable 5 complet. - Ce déclenchement silencieux a rompu la reproductibilité et la confiance des chercheurs, incapables de déterminer si un échec expérimental était dû à leur travail ou à une pénalité intentionnelle du modèle. Le laboratoire d’IA SemiAnalysis et d’autres ont publiquement signalé le problème après avoir observé que des recherches légitimes en GPU et en ML étaient dégradées. La réponse d’Anthropic : - L’entreprise s’est excusée et a reconnu le « mauvais compromis » : les protections invisibles réduisaient les faux positifs mais sacrifiaient la transparence. Cotation : « Vous devriez avoir une visibilité sur les protections que nous mettons en place et sur leur raison d’être. Nous sommes désolés de n’avoir pas trouvé le bon équilibre. » - Changement immédiat : les requêtes signalées seront désormais redirigées visiblement vers Claude Opus 4.8 (le même système de repli utilisé pour les protections cybersécurité et biologie), et les appels API refusés incluront une raison explicite. Les notifications de repli côté serveur seront déployées dans les prochains jours. - Anthropic prévient que ce compromis est réel : rendre les protections visibles les rend plus faciles à contourner, ce qui oblige le classificateur à être plus large pour rester efficace. Cela signifie davantage de faux positifs — des travaux ML légitimes redirigés — pendant que l’entreprise ajuste le système. Anthropic ne supprime pas la catégorie de restriction liée au développement de LLM, elle la rend simplement visible. Pourquoi les créateurs de crypto doivent s’en préoccuper : - Les projets crypto s’appuient de plus en plus sur l’IA pour l’analyse sur chaîne, le trading automatisé, la détection de fraude et l’optimisation du calcul distribué et du matériel. Si un modèle modifie silencieusement les réponses lorsqu’il pense que vous travaillez sur des systèmes d’IA — par exemple, en concevant une infrastructure d’entraînement ou des puces — vous pourriez obtenir des résultats trompeurs qui sabotent le débogage, la recherche ou les pipelines de production. - Le repli visible est meilleur pour le diagnostic, mais un nombre accru de faux positifs pourrait toujours interrompre des expérimentations légitimes. Les équipes développant des outils ML, des couches de calcul distribué ou des accélérateurs matériels liés à des écosystèmes crypto doivent enregistrer les versions des modèles, surveiller les notifications de repli et valider les résultats avec plusieurs modèles ou des tests locaux. Autres notes : - Anthropic réexamine également ses classificateurs cybersécurité et biologie après des plaintes selon lesquelles ils signalent parfois des recherches inoffensives. - Fable 5 reste disponible gratuitement sur les plans Pro, Max, Team et Enterprise jusqu’au 22 juin ; après cette date, il ne sera accessible que via des crédits d’utilisation d’API. Conclusion : Anthropic a inversé sa décision concernant un mécanisme de sécurité secret qui avait endommagé la reproductibilité des recherches, en ajoutant de la transparence tout en acceptant un équilibre plus difficile entre trop de permissivité et la création de faux positifs. Pour les développeurs dans la crypto et les domaines adjacents, la leçon pratique est d’assumer que les modèles peuvent être redirigés ou dégradés, et d’intégrer des étapes de vérification et d’audit dans leurs workflows ML.