Anthropic fait face à une opposition gouvernementale concernant le modèle Fable AI

Auteur : Ben Thompson

Traduction : Deep潮 TechFlow

Lecture approfondie de Shenchao : Le nouveau modèle Fable d'Anthropic a été suspendu d'urgence par le gouvernement américain après seulement deux mois, sous prétexte d'une « fuite de sécurité », mais cela révèle en réalité une double guerre entre les laboratoires d'IA, les gouvernements et l'industrie logicielle. Cette entreprise qui se présente comme axée sur la « sécurité » transforme le récit de la sécurité en un avantage concurrentiel, tandis que son véritable objectif est de s'emparer des données utilisateurs détenues par des géants comme Microsoft.

Je comprends la position des moqueurs, qui pensent toujours que les déclarations publiques d'Anthropic — en particulier les affirmations faites lors de la publication de modèles — visent à semer la panique à des fins de marketing. Il y a deux mois, Anthropic a annoncé le lancement de Mythos Preview, affirmant que ce modèle était trop dangereux pour être rendu public, notamment en raison de ses puissantes capacités en cybersécurité. Deux mois plus tard, l'entreprise a publié publiquement Fable, une version de Mythos dotée de multiples garde-fous de sécurité.

Selon mon expérience limitée, Fable est effectivement un modèle exceptionnel. À présent, il est difficile d'évaluer objectivement les modèles au-delà de leurs performances en programmation, mais on peut encore ressentir des impressions subjectives : j'ai trouvé l'interaction avec Fable extrêmement fluide ; elle rend tous les autres modèles, y compris GPT 5.5 et Opus 4.8, petits et stupides. J'ai eu cette sensation à deux reprises auparavant : une fois avec GPT-4 et une fois avec Grok 4, deux modèles qui marquaient tous deux une nouvelle génération en termes de taille et de complexité fondamentales ; je pense que Fable provient d'un nouveau pré-entraînement et constitue le premier de cette nouvelle génération.

Ainsi, je peux entièrement accepter que Fable/Mythos soit effectivement plus fort pour identifier et exploiter les problèmes de sécurité, et il est logique qu'Anthropic ait procédé avec prudence. Mais le problème avec la publication publique du modèle, c'est que les garde-fous peuvent être contournés, ce qui s'est manifestement produit peu après sa publication.

Anthropic affronte à nouveau le gouvernement américain

Ce qui s'est produit ensuite est un peu flou. Anthropic a écrit dans un article de blog :

Le gouvernement américain a invoqué ses pouvoirs en matière de sécurité nationale pour publier une directive de contrôle des exportations, suspendant l'accès de tous les citoyens étrangers à Fable 5 et Mythos 5, qu'ils se trouvent aux États-Unis ou à l'étranger, y compris les employés étrangers d'Anthropic. Cette ordonnance a pour effet pratique de nous obliger à désactiver brusquement l'accès à Fable 5 et Mythos 5 pour tous les clients afin de garantir la conformité. L'accès à tous les autres modèles d'Anthropic n'est pas affecté.

Nous avons reçu une instruction du gouvernement aujourd'hui à 17h21, heure de l'Est. La lettre ne fournit aucun détail spécifique sur les préoccupations liées à la sécurité nationale. Nous comprenons que le gouvernement estime qu'une méthode pour contourner ou « s'échapper » de Fable 5 a été découverte. Nous avons examiné une démonstration utilisant cette technique spécifique pour identifier un petit nombre de vulnérabilités connues. Ces vulnérabilités semblent toutes relativement simples, et nous avons constaté que d'autres modèles publiquement disponibles sont également capables de les détecter sans contourner.

Anthropic poursuit en arguant que les jailbreaks non universels sont inévitables et limités dans leur portée, sans preuve de l'existence d'un jailbreak universel ; les jailbreaks découverts semblent avoir été signalés par Amazon, ce qui est notable car Amazon est à la fois investisseur d'Anthropic et principal fournisseur de services d'inférence de l'entreprise. Au moment où j'écris cet article, les dirigeants d'Anthropic sont à Washington, tenter de résoudre ce qu'ils affirment être une malentendu, tandis que des responsables de la Maison-Blanche suggèrent une indifférence de la direction de l'entreprise face aux préoccupations légitimes en matière de sécurité nationale.

Étant donné qu’il y a trop de faits contestés, je n’ai rien à ajouter sur le conflit actuel ; mais je ne suis pas surpris que ce conflit se produise : j’ai déjà expliqué dans mon article « Anthropic et l’alignement » que le conflit entre le gouvernement américain et Anthropic était inévitable. À cet égard, ceux qui pensent que Mythos n’est pas encore suffisamment puissant pour mériter une action gouvernementale vigoureuse ont mal compris le point : s’il n’est pas encore assez puissant maintenant, le prochain le sera, ou celui d’après, surtout maintenant que les modèles deviennent de plus en plus utiles pour créer leurs successeurs.

Cependant, cela soulève une autre question — une question qui semble confirmer le point de vue des moqueurs : si Mythos est si dangereux, pourquoi publier Fable au départ, et pourquoi s'opposer au gouvernement pour faire ce que vous prétendez vouloir faire ? En réalité, je pense que les actions d'Anthropic sont tout à fait compréhensibles ; ce qui distingue l'entreprise, c'est la manière dont elle justifie ces actions — justifications qui fournissent à la fois de la matière aux moqueurs et du pouvoir à Anthropic.

Nécessité économique

Au cours des premières années de l'IA, la plus grande valeur économique a été dirigée vers la puissance de calcul, pour des raisons évidentes : nous n'avions pas suffisamment d'offre pour répondre à la demande, ce qui a entraîné une forte hausse des prix ; les principaux bénéficiaires ont été NVIDIA, TSMC et les fabricants de mémoire (SK Hynix, Samsung et Micron). Parallèlement, Anthropic et OpenAI ont cumulé des pertes de plusieurs centaines de milliards de dollars pour développer des modèles de pointe, qui, une fois publiés, ont été distillés et commercialisés par des modèles open source, principalement provenant de Chine.

Cela représente la situation pessimiste du laboratoire — elles ne pourront jamais couvrir leurs coûts car leur différenciation est éphémère et les alternatives gratuites deviennent « suffisamment bonnes » — je trouve cela raisonnable. Dans un monde où les modèles sont interchangeables, les modèles deviennent des marchandises, et la majeure partie de la valeur se déplace ailleurs. Actuellement, c’est la puissance de calcul, mais avec le temps, lorsque nous aurons suffisamment de puissance de calcul, la position la plus précieuse de la chaîne de valeur sera toujours celle qui l’a toujours été : posséder les points de contact avec les utilisateurs.

Ainsi, il a toujours été clair pour moi que les laboratoires de pointe ont une nécessité économique à se rapprocher des utilisateurs. Si vous possédez des points de contact avec les utilisateurs, vous avez un verrouillage significatif, et la meilleure façon d’obtenir ces points de contact est d’être la toile sur laquelle tout ce qu’ils doivent faire se déroule. Cela signifie en conséquence que les laboratoires de pointe entrent en conflit avec les entreprises logicielles : les logiciels possèdent les points de contact avec les utilisateurs, tandis que l’intérêt à long terme des laboratoires de pointe n’est pas simplement de devenir une entrée marchande pour les logiciels, mais de les remplacer directement.

En parallèle, les entreprises logicielles s'efforcent de faire l'opposé. Satya Nadella a exposé sa vision sur la manière dont les entreprises devraient construire sur les modèles dans un article sur X :

Chaque entreprise doit développer ce que j'appelle le capital humain et le capital token. Le capital humain englobe les connaissances, le jugement, les relations, l'originalité et la reconnaissance de schémas de ses employés, tandis que le capital token représente les capacités d'IA que l'entreprise construit et possède. Il est essentiel que, à mesure que le capital token augmente, le capital humain ne devienne pas moins précieux. Il deviendra simplement plus précieux ! Je crois que l'initiative humaine sera le moteur de la croissance du capital token. Les humains fixeront des objectifs ambitieux, relieront des points entre différents domaines, établiront des relations et identifieront les schémas les plus importants. Sans direction humaine, votre puissance de calcul tourne à vide.

Cela signifie que la véritable opportunité ne réside pas dans le choix du meilleur modèle, mais dans la construction d’un cycle d’apprentissage au-dessus des modèles, permettant à la capital humain et au capital tokenisé de générer des intérêts composés. Vous pouvez externaliser une tâche, voire un emploi, mais vous ne pouvez jamais externaliser votre apprentissage. L’avenir des entreprises réside dans la capacité à faire croître cet apprentissage par intérêts composés entre les humains et l’IA. Cela exige une nouvelle approche architecturale permettant à chaque entreprise de construire des systèmes d’agents qui s’améliorent avec le temps, tout en conservant le contrôle de sa propriété intellectuelle. Les entreprises doivent pouvoir remplacer les modèles « génériques » sans perdre les connaissances spécialisées des « anciens » intégrées à leur système d’apprentissage. Voici le test clé du contrôle et de la souveraineté à l’ère future.

Nadella a ouvert cette vision par un avertissement :

Ce que nous ne souhaitons pas voir, c’est un monde où chaque entreprise de chaque secteur cède sa valeur à quelques modèles dévorants. Si toute la valeur était capturée uniquement par quelques modèles, l’économie politique ne le tolérerait pas. La société n’accorderait pas son autorisation à un avenir où l’IA vide entièrement un secteur.

Pensez à ce qui s'est produit lors de la première phase de la mondialisation : toute l'économie industrielle a été délocalisée et vidée de sa substance. Les chiffres du PIB semblaient bons en apparence, mais le déplacement était réel, et ses conséquences sont encore ressenties aujourd'hui. Ne reproduisons pas cette dynamique à l'ère de l'IA, où quelques systèmes d'IA capteraient tous les retours économiques, tandis que des industries entières découvriraient que leurs connaissances ont été marchandisées sous leurs propres yeux.

Le problème avec cette analogie, c’est que la mondialisation a effectivement eu lieu et que les économies industrielles ont effectivement été vidées. Cela pourrait ne pas être un avertissement, mais une prédiction ; il n’est donc pas étonnant que Nadella sonne l’alarme, car Microsoft pourrait être l’une des victimes. De même, la nécessité économique des fabricants de modèles est précisément de réaliser cela.

Nécessité des données

Ces modèles — même Mythos — n’en sont pas encore là. Ils ont besoin, au-delà de plus de puissance de calcul, de plus et de meilleures données. Les améliorations des modèles proviennent de plus en plus de l’apprentissage par renforcement ; certaines peuvent être synthétisées, mais le levier le plus puissant pour les laboratoires de pointe reste l’utilisation dans le monde réel.

Je pense que c’est la principale raison pour laquelle OpenAI et Anthropic proposent tous deux des abonnements fortement subventionnés. SemiAnalysis a récemment estimé qu’un abonnement de 200 $ vous permet d’obtenir des tokens Claude d’une valeur de 8 000 $ et des tokens Codex d’une valeur de 14 000 $. Bien sûr, les deux entreprises cherchent à conquérir la part d’esprit des utilisateurs et des développeurs, mais elles cherchent également à obtenir l’accès aux données d’utilisation réelles afin d’améliorer leurs modèles.

Anthropic augmente considérablement ses efforts sur Fable, annonçant qu'ils conserveront toutes les données utilisées pendant 30 jours, même pour les plans entreprise qui avaient précédemment promis une conservation nulle des données. L'entreprise déclare qu'elle n'utilisera pas ces données pour l'entraînement, mais elle n'a mis en place aucune mesure de garantie pour s'assurer qu'elle ne le fera pas à l'avenir (par exemple, en stockant les données chez un tiers). Si ce changement de politique (lorsque Fable reprendra) ne provoque pas une perte importante de clients, je doute que l'utilisation des données ne soit qu'une question de temps : cela est trop précieux pour leur objectif final.

Notez également la boucle vertueuse avec le déplacement vers les points de contact utilisateur : plus de workflows sont directement accomplis avec Claude ou Codex, plus chaque entreprise obtient de données pouvant être réintégrées dans l’entraînement, ce qui rend leurs produits plus puissants et plus utiles, élargit le nombre de workflows qu’ils peuvent servir, et augmente leur accès aux données.

Nadella souligne l'importance de ces données, mais Nature estime qu'elles devraient être indépendantes du modèle :

L'entreprise doit transformer ses processus, ses connaissances métier et ses jugements accumulés en un système d'IA qui s'améliore à chaque utilisation. Les évaluations privées doivent mesurer si le modèle améliore réellement les résultats importants pour l'entreprise (et non seulement les benchmarks externes !). L'environnement d'apprentissage par renforcement privé doit renforcer le modèle sur les trajectoires réelles au sein de l'organisation. Sa base de connaissances rend la mémoire institutionnelle consultable et optimise l'utilisation des tokens.

Ce cycle devient une nouvelle propriété intellectuelle de l'entreprise. Je le considère comme une machine d'escalade. Contrairement à la plupart des actifs, il est composé de capitalisation composée. Chaque amélioration de flux de travail génère de meilleurs signaux d'entraînement, ce qui accélère l'accumulation de connaissances implicites uniques à l'entreprise. Les entreprises qui construisent cela en premier auront un avantage difficile à reproduire, quelle que soit la capacité de tout nouveau modèle individuel.

Ce cycle devient la nouvelle propriété intellectuelle de l'entreprise. Je le considère comme une machine d'ascension. Contrairement à la plupart des actifs, il permet une croissance composée. Chaque amélioration des processus génère de meilleurs signaux d'entraînement, accélérant l'accumulation du savoir implicite propre à l'entreprise. Les entreprises ayant établi tôt cette capacité disposeront d'un avantage difficile à reproduire, quel que soit l'avenir des performances individuelles des modèles.

Cependant, que se passerait-il si les entreprises qui respectent la politique de données d'Anthropic obtiennent dès maintenant de meilleurs résultats ? Ou si les entreprises existantes résistent, laissant ainsi une opportunité aux nouvelles entreprises — ou aux fabricants de modèles eux-mêmes — de les dépasser sur le marché ? Anthropic teste effectivement la détermination appelée de Nadella.

Revendications de pouvoir

Concernant la politique de conservation des données de Fable/Mythos, ce n’est même pas la partie la plus controversée de la publication. Au contraire, Anthropic a indiqué lors de la publication que si Fable est utilisé pour le développement de LLM, sa performance sera réduite discrètement ; le cartouche système indique :

Nous avons également renforcé les mesures de protection liées au développement des LLM de pointe. Comme discuté à la section 6.1 de notre rapport de risque de février 2026, nous sommes préoccupés par les risques liés à l'accélération du rythme global du développement de l'IA, bien que nous ne soyons pas certains de la gravité de ces risques. En particulier, notre préoccupation réside — comme nous l'avions écrit à l'époque — « dans l'accélération de la construction, par d'autres développeurs d'IA, de systèmes d'IA puissants présentant des risques similaires à ceux de notre système — sans nécessairement disposer des mesures de protection correspondantes ».

Étant donné que les modèles récents ont la capacité d'accélérer leur propre développement, nous avons mis en œuvre de nouvelles mesures d'intervention pour limiter l'efficacité de Claude lorsqu'il est sollicité pour des demandes liées au développement de LLM de pointe (par exemple, la construction de pipelines de pré-entraînement, d'infrastructures d'entraînement distribué ou de conceptions d'accélérateurs ML). Utiliser Claude pour développer des modèles concurrents violait déjà nos conditions d'utilisation, mais l'application de mesures de protection permet d'éviter d'accélérer les actions des acteurs les plus enclins à enfreindre ces conditions.

Contrairement à nos interventions en matière de cybersécurité, de biochimie et de distillation, ces mesures de protection sont invisibles pour les utilisateurs. Fable 5 ne revert pas vers un autre modèle. Au contraire, les mesures de protection limiteront l'efficacité par des méthodes telles que la modification des invites, les vecteurs d'orientation ou le fine-tuning efficace par paramètres (PEFT). Ces interventions n'affecteront pas la majorité des tâches de programmation. Nous estimons qu'elles affecteront environ 0,03 % du trafic, concentré sur moins de 0,1 % des organisations. Lorsque ces interventions sont actives, nous prévoyons qu'elles auront un impact minime sur le comportement du modèle, en plus de limiter l'efficacité de ses LLM de pointe. Claude continuera de fournir des réponses utiles aux demandes des utilisateurs. Nous continuerons d'améliorer la précision de nos méthodes de détection après le lancement de ce modèle.

Anthropic a retiré ce changement — Fable transférera les demandes liées aux LLM à Opus 4.8 et informera les utilisateurs de ce transfert — mais je pense que la politique initiale était très révélatrice. D'une part, je ne blâme pas Anthropic de ne pas vouloir aider ses concurrents ; d'autre part, il devrait être clair que Anthropic pense que personne d'autre qu'eux ne devrait développer des LLM de pointe.

Ce qui rend cette politique encore plus remarquable, c’est qu’elle a été mise en œuvre seulement deux mois après un conflit entre Anthropic et le Département de la guerre : ce dernier souhaitait utiliser Claude à toutes fins légales, tandis qu’Anthropic voulait imposer un contrôle plus strict sur les armes de surveillance et autonomes. Cette réduction de niveau illustre à la fois la capacité d’Anthropic à modifier discrètement ses modèles pour refléter ses préférences politiques et sa volonté de le faire. En d’autres termes, Anthropic a activement validé certaines des principales préoccupations des critiques selon lesquelles elle constitue un risque pour la chaîne d’approvisionnement.

Cependant, la conclusion plus large tirée de cet événement est qu'Anthropic estime qu'elle devrait avoir le dernier mot sur la manière dont Anthropic est utilisée ; étant donné qu'ils pensent que seuls eux devraient développer l'IA de pointe, ils considèrent en réalité que seuls eux devraient avoir le dernier mot sur l'IA dans son ensemble. Lorsque vous combinez cette compréhension avec la déclaration de l'entreprise selon laquelle l'IA peut effectuer toutes les activités économiques, vous réalisez que les dirigeants d'Anthropic souhaitent en réalité avoir le pouvoir sur tout et sur tous.

Narrative de sécurité

Bien sûr, Anthropic ne le dirait jamais aussi directement ; au contraire, l'histoire concerne la sécurité :

Je prévois qu'Anthropic exposera de plus en plus ses capacités de modèles aux utilisateurs finaux via des points de terminaison de plus en plus spécifiques à différents flux de travail, même en commençant à restreindre l'accès à l'API. Cette substitution des logiciels et ces restrictions d'accès seront justifiées au nom de la sécurité, même si Anthropic cherche à répondre à ses impératifs économiques auprès des utilisateurs finaux.

Anthropic justifie son changement majeur de politique de conservation des données par la sécurité. Plus précisément, l'entreprise affirme que la conservation de toutes les données des utilisateurs pendant 30 jours est nécessaire pour prévenir les comportements de jailbreak que les autorités américaines craignent. Je peux facilement imaginer un avenir où des considérations de sécurité les contraindront également à utiliser ces données pour entraîner leurs systèmes à mieux prévenir les utilisations malveillantes.

L'histoire entière d'Anthropic repose sur la croyance de ses fondateurs selon laquelle OpenAI ne prenait pas la sécurité suffisamment au sérieux ; l'entreprise pensait qu'elle seule pouvait contrôler l'IA, et qu'en raison de son souci unique de la sécurité, elle avait raison de tenter de contrôler tout le monde, y compris le gouvernement américain.

Concernant ces raisons de sécurité, le problème est que je les trouve convaincantes, car pour Anthropic, ce ne sont pas des raisons. L'entreprise croit vraiment qu'elle est la seule à croire en l'intelligence supérieure, et donc la seule à accorder une attention suffisante aux dangers. Cela justifie une décision après l'autre, une politique après l'autre, un affrontement après l'autre, qui, pour les observateurs extérieurs, semblent former une étrange combinaison de cynisme et de naïveté.

Comparaison énorme avec OpenAI : Je pense qu'une façon de comprendre comment et pourquoi OpenAI a perdu son avance est que, pendant les années suivant le lancement de ChatGPT, l'entreprise a été en guerre interne, où son ancien laboratoire de recherche s'est soudainement vu imposer la charge de devenir une entreprise de technologie grand public involontaire ; pendant qu'OpenAI tentait de résoudre ce conflit, elle a perdu un grand nombre de talents au profit d'entreprises comme Anthropic.

D'un autre côté, Anthropic possède une parfaite cohérence entre les talents, la mission et l'activité. L'entreprise peut vendre aux chercheurs la vision de créer un dieu machine, entourée de l'aura de personnes préoccupées par les dangers et suffisamment intelligentes pour représenter l'humanité face à ces dangers ; et chaque changement politique qui en découle avantage précisément l'activité, ce qui est la plus belle des coincidences au monde.

Je respecte cette cohérence, mais j’en ai aussi peur. Je la respecte parce qu’elle est manifestement très efficace ; l’analogue le plus proche est Apple, qui déguise toujours chaque action égoïste sous le prétexte de faire ce qui est mieux pour les utilisateurs — et ils ont souvent raison. Anthropic agit de la même manière. Toutefois, ce qui me préoccupe, c’est qu’il est une chose de laisser à des personnes convaincues de savoir mieux que quiconque le soin de concevoir un smartphone que je peux accepter ou rejeter ; c’en est une bien plus inquiétante que ces mêmes personnes conçoivent des intelligences supérieures capables de rivaliser avec, voire dépasser, le pouvoir des États-nations ou même des grandes entreprises. L’histoire des gens intelligents convaincus de savoir ce dont l’humanité a besoin est sale, précisément parce qu’ils se sont persuadés que leurs intentions étaient bonnes, justifiant ainsi des actions qui ne l’étaient pas.