Anthropic décide de ne pas publiquement libérer le modèle d'IA Mythos en raison de risques cybernétiques

Note de la rédaction : Le fait qu'une entreprise d'IA choisisse de ne pas mettre directement son modèle le plus puissant à la disposition du public en dit long.

Anthropic's Mythos est désormais capable d'accomplir toute une chaîne d'attaques de manière autonome. Des tâches qui nécessitaient autrefois des semaines de collaboration entre des hackers de haut niveau — comme la découverte de vulnérabilités zero-day, l'écriture de code d'exploitation et la chaîne de plusieurs étapes pour accéder aux systèmes centraux — sont désormais réduites à quelques heures, voire quelques minutes.

C'est pourquoi, dès la divulgation du modèle, Scott Bessent et Jerome Powell ont réuni les institutions de Wall Street pour leur demander de l'utiliser pour « s'auto-examiner ». Lorsque la capacité de détection des vulnérabilités est libérée à grande échelle, le système financier ne fait plus face à des attaques isolées, mais à un balayage continu.

Le changement plus profond réside dans la structure de l'offre. Autrefois, la découverte de vulnérabilités dépendait de l'expérience accumulée par de rares équipes de sécurité et de hackers, ce qui rendait le processus lent et non reproductible. Aujourd'hui, cette capacité commence à être produite en série par des modèles, abaissant simultanément les barrières à l'attaque et à la défense. Une métaphore d'une personne informée est très directe : donner un modèle à un hacker ordinaire, c'est comme lui conférer des capacités d'opérations spéciales.

Les institutions ont commencé à utiliser les mêmes outils pour vérifier rétroactivement leurs propres systèmes. JPMorgan Chase, Cisco Systems et d'autres testent en interne, dans l'espoir de corriger les failles avant qu'elles ne soient exploitées. Mais les contraintes réelles n'ont pas changé : la détection s'accélère, tandis que la correction reste lente. « Nous sommes très bons pour trouver des failles, mais pas pour les corriger », a observé Jim Zemlin, soulignant le décalage dans le rythme.

En réalité, Mythos ne se limite pas à une amélioration ponctuelle d'une capacité, mais intègre, accélère et réduit les barrières d'accès à des capacités d'attaque autrefois dispersées et limitées. Une fois libéré de l'environnement de contrôle, la manière dont cette capacité se propagera ne repose sur aucune expérience préexistante.

Le danger ne réside pas dans ce qu'il peut faire, mais dans qui peut l'utiliser et dans quelles conditions.

The following is the original text:

Un soir chaud de février, pendant une pause dans un mariage à Bali, Nicholas Carlini a quitté brièvement la salle, ouvert son ordinateur portable et préparé « à causer des dégâts ». À ce moment-là, Anthropic venait tout juste de libérer un nouveau modèle d’intelligence artificielle appelé Mythos pour une évaluation interne, et ce célèbre chercheur en IA comptait voir jusqu’où il pouvait le pousser.

Anthropic a embauché Carlini pour effectuer des « tests de pression » sur ses propres modèles d'IA, afin d'évaluer si des pirates pourraient les utiliser pour des activités d'espionnage, de vol ou de sabotage. Pendant qu'il assistait à un mariage indonésien à Bali, Carlini a été stupéfié par les capacités de ce modèle.

En quelques heures à peine, il a trouvé plusieurs techniques pouvant être utilisées pour pénétrer les systèmes courants à l'échelle mondiale. Une fois de retour à son bureau d'Anthropic, situé dans le centre-ville de San Francisco, il a découvert que Mythos était déjà capable de générer automatiquement des outils d'intrusion puissants, y compris des attaques contre Linux — le système d'exploitation open source qui sous-tend la majorité des systèmes informatiques modernes.

Mythos a orchestré un « hold-up numérique » : il peut contourner les protocoles de sécurité, entrer dans les systèmes réseau par la porte principale, puis percer les coffres numériques pour s'emparer des actifs en ligne. Autrefois, l'IA ne pouvait que « forcer les serrures » ; aujourd'hui, elle est capable de planifier et d'exécuter un hold-up complet.

Carlini et certains de ses collègues ont commencé à émettre des alertes au sein de l'entreprise pour signaler leurs découvertes. Parallèlement, ils ont presque quotidiennement identifié des vulnérabilités critiques à mortelles dans les systèmes détectés par Mythos — des problèmes que seuls les hackers les plus performants au monde sont généralement capables de découvrir.

Mythos

Dans le même temps, une équipe interne d'Anthropic appelée « Frontier Red Team » — composée de 15 employés surnommés « Ants » — mène des tests similaires. Cette équipe a pour mission de s'assurer que les modèles de l'entreprise ne soient pas utilisés pour nuire à l'humanité. Ils font entrer des robots chiens dans des entrepôts pour tester avec les ingénieurs si un chatbot pourrait être utilisé pour contrôler ces appareils de manière malveillante ; ils collaborent également avec des biologistes pour évaluer si le modèle pourrait être utilisé pour créer des armes biologiques.

Et cette fois-ci, ils ont progressivement réalisé que le plus grand risque apporté par Mythos provenait du domaine de la cybersécurité. « Moins de quelques heures après avoir obtenu le modèle, nous avons su qu'il était différent », a déclaré Logan Graham, responsable de l'équipe.

Le modèle précédent, Opus 4.6, avait déjà démontré sa capacité à aider les humains à exploiter des vulnérabilités logicielles. Mais Graham souligne que Mythos peut désormais « exploiter ces vulnérabilités par lui-même ». Cela constitue un risque au niveau de la sécurité nationale, et il a averti les dirigeants de l'entreprise en conséquence. Cela l'a placé face à une situation délicate : expliquer à la direction que le prochain moteur de revenus important de l'entreprise risque d'être trop dangereux pour être publié au public.

Jared Kaplan, cofondateur et directeur scientifique d'Anthropic, a déclaré qu'il a suivi « étroitement » l'évolution du modèle Mythos pendant son entraînement. En janvier, il a commencé à réaliser que ce modèle possédait une capacité exceptionnellement puissante à détecter des vulnérabilités système. En tant que physicien théoricien, Kaplan devait déterminer si ces capacités n'étaient que « des phénomènes techniquement intéressants » ou s'agissaient de « problèmes concrets fortement liés à l'infrastructure Internet ». Il a finalement conclu qu'il s'agissait de ce dernier cas.

Mythos

Au cours de deux semaines à la fin février et au début mars, Kaplan a pesé avec le cofondateur Sam McCandlish la décision de publier ou non ce modèle.

Au cours de la première semaine de mars, l'équipe de direction de l'entreprise — incluant le PDG Dario Amodei, le président Daniela Amodei, le chef de la sécurité de l'information Vitaly Gudanets, entre autres — a tenu une réunion pour écouter les rapports de Kaplan et McCandlish.

Ils concluent que Mythos présente un risque trop élevé pour une publication publique complète. Toutefois, Anthropic devrait toujours permettre à certaines entreprises, y compris des concurrents, de le tester.

« Très vite, nous avons réalisé que nous devions adopter une approche assez différente cette fois-ci ; ce ne serait pas une publication de produit classique », a déclaré Kaplan.

D'ici la première semaine de mars, l'entreprise est finalement parvenue à un accord : approuver le déploiement de Mythos comme outil de défense en cybersécurité.

Mythos

La réaction du marché a été presque immédiate. Le jour même où Anthropic a révélé l'existence de Mythos, le secrétaire au Trésor américain Scott Bessent et le président de la Réserve fédérale Jerome Powell ont réuni les dirigeants des principales institutions de Wall Street pour une réunion d'urgence à Washington. Le message était très clair : utilisez immédiatement Mythos pour identifier les vulnérabilités de vos systèmes.

Selon des personnes proches des cadres présents (qui ont demandé l'anonymat en raison de la nature privée des échanges), la gravité de la réunion est évidente — les participants ont même refusé de divulguer le contenu de la réunion à certains conseillers clés.

Les avertissements urgents des responsables de la Maison Blanche concernant le potentiel de Mythos en tant qu'outil de piratage, ainsi que leur position recommandant de « l'utiliser à des fins défensives », pointent vers un changement plus profond : l'intelligence artificielle devient rapidement une force déterminante dans le domaine de la cybersécurité. Anthropic a déjà limité l'accès à Mythos dans le cadre du projet « Project Glasswing » à certaines institutions, notamment des entreprises comme Amazon Web Services, Apple et JPMorgan Chase, afin de leur permettre de le tester ; les agences gouvernementales ont également manifesté un vif intérêt.

Avant son ouverture au public, Anthropic a fourni un rapport complet aux hauts fonctionnaires du gouvernement américain sur les capacités de la version préliminaire de Mythos, y compris ses utilisations potentielles en matière d'attaques et de défense cybernétiques. Parallèlement, l'entreprise entretient des communications continues avec plusieurs gouvernements étrangers. Un employé d'Anthropic, qui a requis l'anonymat en raison de son implication dans des affaires internes, a révélé cette situation.

Le concurrent OpenAI a également réagi rapidement, annonçant mardi le lancement d'un outil dédié à la détection de vulnérabilités logicielles : GPT-5.4-Cyber.

Lors des tests de la version initiale, les chercheurs ont identifié des dizaines de cas de comportements « préoccupants », notamment le non-respect des instructions humaines et, dans de rares cas, une tentative de dissimuler leurs actions après avoir violé les instructions.

Actuellement, Anthropic n'a pas encore publié officiellement Mythos comme outil de cybersécurité, et les chercheurs externes n'ont pas encore pleinement validé ses capacités. Toutefois, la décision rare prise précédemment par l'entreprise de restreindre l'accès reflète un consensus croissant au sein de l'industrie et des gouvernements : l'IA est en train de redéfinir la structure économique de la cybersécurité — elle réduit considérablement le coût de la découverte de vulnérabilités, raccourcit le temps de préparation des attaques et abaisse les barrières techniques pour certains types d'attaques.

Anthropic a également averti que la capacité accrue d'autonomie de Mythos comporte en soi des risques. Lors des tests, l'équipe a observé plusieurs cas inquiétants : le modèle désobéissait aux instructions et tentait même de dissimuler ses traces après avoir commis une infraction. Dans un cas, le modèle a conçu de lui-même une série d'étapes d'attaque pour s'échapper d'un environnement restreint, obtenir un accès plus large à Internet et publier activement du contenu.

Dans le monde réel, les logiciels sur lesquels reposent des applications bancaires et des systèmes hospitaliers contiennent fréquemment des vulnérabilités complexes et cachées, que des professionnels mettent souvent plusieurs semaines, voire plusieurs mois, à détecter. Si des pirates informatiques exploitent ces failles en premier, cela peut entraîner des fuites de données ou des attaques par ransomware, avec des conséquences graves.

Cependant, de nombreuses personnalités importantes ont exprimé des doutes quant aux capacités réelles de Mythos et à ses risques potentiels. David Sacks, conseiller en IA à la Maison Blanche, a déclaré sur la plateforme sociale X : « De plus en plus de personnes commencent à se demander si Anthropic est le « garçon qui crie au loup » de l’industrie de l’IA. Si les menaces apportées par Mythos ne se concrétisent pas, l’entreprise fera face à de graves problèmes de réputation. »

Mais la réalité est que les pirates ont déjà commencé à exploiter des modèles de langage à grande échelle pour mener des attaques complexes. Par exemple, un groupe d'espions cybernétiques a utilisé le modèle Claude d'Anthropic pour tenter de compromettre environ 30 cibles ; d'autres attaquants ont utilisé l'IA pour voler des données auprès d'institutions gouvernementales, déployer des logiciels de rançon, voire contourner rapidement des centaines d'outils de pare-feu utilisés pour la protection des données.

Selon une personne informée, l'apparition de Mythos crée, aux yeux des responsables américains liés à la sécurité nationale, une incertitude sans précédent — évaluer les risques de cybersécurité devient plus difficile que jamais. Si ce modèle est remis à des pirates individuels, son effet pourrait équivaloir à élever un soldat ordinaire directement au statut de membre des forces spéciales.

Dans le même temps, ce modèle peut également devenir un « amplificateur de capacités » : permettre à un groupe de cybercriminels d'acquérir des capacités d'attaque équivalentes à celles d'un petit État, et permettre à des hackers d'agences de renseignement et des armées de pays moyens d'effectuer des cyberattaques qui n'étaient auparavant possibles que pour les grandes puissances.

L'ancien responsable de la cybersécurité à la NSA, Rob Joyce, a déclaré : « Je crois effectivement qu'à long terme, l'IA nous rendra plus sûrs et plus protégés. Mais entre maintenant et un moment futur, il y aura une « période sombre » pendant laquelle l'IA offensive aura un avantage évident — ceux qui n'auront pas établi de bonnes bases de protection seront les premiers à être compromis. »

Il est à noter que Mythos n’est pas le seul modèle à posséder cette capacité. Plusieurs institutions ont déjà utilisé des modèles de langage à grande échelle pour la détection de vulnérabilités, notamment les versions antérieures de Claude et Big Sleep.

Mythos

Selon cette personne, les « vulnérabilités zero-day », qui nécessitaient autrefois plusieurs jours ou même semaines pour être identifiées, ainsi que le processus d'écriture de code d'exploitation pour ces vulnérabilités, peuvent désormais être accomplis en aussi peu qu'une heure, voire quelques minutes, grâce à l'IA. Une « vulnérabilité zero-day » désigne un défaut de sécurité non encore détecté par les défenseurs, laissant ainsi peu ou pas de temps pour le corriger.

Actuellement, JPMorgan Chase se concentre principalement sur la chaîne d'approvisionnement et les logiciels open source, et a identifié plusieurs vulnérabilités, qu'elle a signalées aux fournisseurs concernés.

Le PDG de l'entreprise, Jamie Dimon, a déclaré lors de la conférence téléphonique sur les résultats que l'apparition de Mythos « montre qu'il reste de nombreuses failles à corriger ».

Mythos

Selon une personne informée, JPMorgan Chase a déjà entamé des discussions avec Anthropic pour tester le modèle, avant que le public ne soit au courant de l'existence de Mythos. La personne, qui ne peut pas parler publiquement, a demandé l'anonymat. JPMorgan Chase a refusé de commenter.

Aujourd'hui, d'autres banques de Wall Street et entreprises technologiques tentent également d'utiliser Mythos pour corriger les défauts du système avant que les pirates ne découvrent des vulnérabilités. Selon Bloomberg, des institutions financières telles que Goldman Sachs, Citigroup, Bank of America et Morgan Stanley testent déjà cette technologie en interne.

Les employés de Cisco Systems sont particulièrement vigilants à un problème : les intrus exploiteront-ils l'IA pour trouver des failles dans le logiciel des équipements réseau déployés à l'échelle mondiale, tels que les routeurs, les pare-feu et les modems ? Anthony Grieco, directeur de la sécurité et de la confiance de l'entreprise, exprime une inquiétude particulière quant à la capacité de l'IA à accélérer les attaques contre des équipements dont le cycle de vie est terminé — ces appareils ne recevront plus de mises à jour de la part de Cisco.

Cependant, comment corriger les vulnérabilités détectées par l’IA restera un défi à long terme. Ce processus, appelé « patch de sécurité », est souvent coûteux et long pour les organisations, ce qui pousse de nombreuses entités à ignorer les vulnérabilités. Des attaques catastrophiques comme celle subie par Equifax — où environ 147 millions de dossiers ont été volés — sont dues à des vulnérabilités connues non corrigées en temps voulu.

Mythos

Bien que Anthropic ait été classée comme une « menace pour la chaîne d'approvisionnement » par l'administration Trump après avoir refusé d'aider à mettre en œuvre une surveillance de masse contre des citoyens américains, l'entreprise entretient actuellement des communications et une collaboration avec des agences fédérales.

Le département du Trésor américain cherche actuellement à obtenir l'accès à Mythos cette semaine. Le secrétaire au Trésor, Scott Bessent, a déclaré que ce modèle aidera les États-Unis à maintenir leur avance sur les autres pays dans le domaine de l'intelligence artificielle.

Mythos

Lors d'un test, Mythos a écrit un code d'attaque de navigateur reliant quatre vulnérabilités distinctes en une chaîne d'exploitation complète — une tâche extrêmement difficile même pour des hackers humains. Les rapports d'analyse de sécurité informatique indiquent que de telles « chaînes de vulnérabilités » peuvent souvent franchir les frontières de systèmes hautement sécurisés, de la même manière que l'attaque Stuxnet avait ciblé les centrifugeuses des installations nucléaires iraniennes.

De plus, selon Anthropic, sous des instructions explicites, Mythos peut identifier et exploiter des vulnérabilités zero-day dans tous les principaux navigateurs.

Anthropic a indiqué qu'ils avaient utilisé Mythos pour découvrir des vulnérabilités dans le code Linux. Jim Zemlin a souligné que Linux « sous-tend la plupart des systèmes informatiques d'aujourd'hui », des smartphones Android et des routeurs Internet aux supercalculateurs de la NASA, presque partout. Mythos est capable de découvrir de manière autonome des défauts dans plusieurs codes open source, et une fois exploitées, ces vulnérabilités permettent aux attaquants de prendre le contrôle total de la machine.

Actuellement, des dizaines de personnes de la Linux Foundation ont commencé à tester Mythos. Selon Zemlin, une question clé est de savoir si les modèles d'Anthropic peuvent fournir des insights suffisamment précieux pour aider les développeurs à écrire des logiciels plus sûrs dès la source, réduisant ainsi la création de vulnérabilités.

« Nous sommes très bons pour détecter les vulnérabilités, » a-t-il dit, « mais nous faisons très mal les choses lorsqu’il s’agit de les corriger. »