Claude Fable 5 fuité : Système d'agent ou LLM tricheur ?

Des pirates ont récemment divulgué les instructions système de Claude Fable 5, révélant que ce produit n'est pas un simple grand modèle, mais un système Agent complet intégrant un environnement de sandbox Linux. Ce modèle peut s'exécuter de manière autonome pendant plusieurs jours, appeler des sous-agents pour collaborer, et possède des capacités de mémoire inter-sessions et de stockage persistant. Lors de tests de référence, Anthropic l'a présenté comme un simple LLM pour l'évaluation, mais l'a en réalité utilisé avec un « enveloppe Agent » pour obtenir un avantage déloyal. De plus, il a été révélé que le système bascule discrètement vers une version antérieure lorsque l'utilisateur déclenche des mots sensibles, tout en facturant toujours au tarif élevé de Fable 5. Les documents divulgués ont également exposé la stratégie d'écosystème Agent d'Anthropic, incluant des outils tels que Claude Code et Claude Cowork, ainsi que l'existence de versions illimitées de la série Mythos.

Auteur et source de l'article : Nouvelle Intelligence

Il y a quelques jours, le pirate informatique « Pliny the Liberator » a lancé une bombe sur X : les instructions système complètes de Claude Fable 5 ont été exposées, totalisant 120 000 caractères.

Ce document de code fuité révèle encore une vérité choquante pour la communauté : Claude Fable 5 n'est pas un grand modèle, mais un système Agent complet se faisant passer pour un LLM !

https://gist.github.com/gsans/b3007997f8900003c8ff58125a45e15e

Exactement, alors que le monde entier utilise encore des benchmarks traditionnels pour évaluer les grands modèles, Anthropic a discrètement élevé le jeu à un autre niveau.

L'impact de cette fuite a complètement bouleversé notre compréhension des « modèles d'IA ».

Qu'est-ce que Fable 5 ? Ce n'est pas un LLM, c'est un Agent !

Selon les prompts système fuités, Fable 5 présente une différence de paradigme fondamentale par rapport aux grands modèles courants du marché « vous posez, je réponds ».

Il ne vous accompagne pas du tout pour « Chat », il effectue une « Execution ».

Sous la peau de ce modèle se cache un sous-système miniature « Claude Code ». Autrement dit, il possède un cycle d'agent en boucle fermée (Agentic Loop) :

Pour soutenir cette boucle terrifiante, Fable 5 intègre en réalité un environnement de sandbox Linux entièrement fonctionnel !

First, it achieves true autonomous closure.

Il n'a pas besoin qu'une personne reste devant l'écran.

Vous lui donnez une tâche complexe à long terme ; elle peut exécuter des commandes Bash dans un environnement isolé, modifier des fichiers, appeler des données via une API de stockage persistant entre les sessions, et même effectuer elle-même des recherches multimodales, fonctionnant intensivement pendant plusieurs jours et nuits sans aucune intervention humaine.

De plus, il dispose d'une fonction de distribution d'agents secondaires.

Face à un projet trop complexe, il peut même devenir son propre patron, déléguer et créer des sous-agent(s) pour collaborer.

Alors que des concurrents comme GPT-5.5 sont encore en train de tester « qui a un raisonnement le plus humain », Claude Fable 5 s'est évoluté en un employé numérique capable de travailler silencieusement pendant trois jours dans un serveur pour une entreprise.

Comme l'a révélé l'internaute gerardsans :

La série Fable/Mythos est fondamentalement différente en termes de paradigme. Cette famille possède un cycle d'agents complet, un mini Claude Code.

Alors que les autres produits du secteur restent bloqués dans un mode de discussion, il peut fonctionner sans surveillance pendant plusieurs jours, grâce à son environnement sandbox intégrant des compétences, une mémoire et une auto-optimisation.

La question ultime : une réduction de dimension ou une tricherie déloyale ?

Cette fuite a non seulement plongé Anthropic dans une tempête médiatique, mais a également mis les évaluations de référence de l'ensemble de l'industrie des grands modèles sous le feu des projecteurs.

Aujourd'hui, les géants de la technologie s'affrontent directement sur les principaux classements publics pour revendiquer le titre de « plus grand modèle au monde ».

Cependant, le secret derrière la performance exceptionnelle de Fable 5 dans ces évaluations, voire sa domination sur GPT-5.5, est qu'il « utilise un cheat ».

Comme l'a souligné avec colère le blogueur technologique gerardsans : « Ce n'est absolument pas une compétition équitable. Vous comparez un système triché, composé d'un modèle natif + un enveloppe d'agent (Agent Harness), à des modèles nus ! »

Si d'autres fabricants enveloppaient également leurs modèles natifs d'une couche d'agent comprenant un sandbox Linux, une recherche multimodale, un débogage automatique et un stockage persistant, leurs résultats aux tests pourraient connaître une augmentation similaire.

Anthropic présente publiquement et dans les évaluations son modèle comme un simple grand modèle de langage, mais ses documents internes non publiés mentionnent clairement qu'il possède la capacité de « fonctionner de manière autonome sur plusieurs jours, déléguer des sous-intelligences et vérifier son propre travail ».

Cette pratique qui exploite les écarts d'information pour écraser les concurrents rend les tests de référence complètement sans objet !

Révélation de 120 000 mots de dossiers secrets : le véritable visage de Fable 5 est enfin dévoilé

Dans ce prompt système de 120 000 mots complètement dévoilé, se cachent trop de secrets commerciaux et de feuille de route produit que Anthropic gardait secrets.

Et les points suivants sont les plus cruciaux et les plus sensationnels.

Mémoire permanente rare, ainsi que la construction d'applications

Le prompt indique : « Claude possède un système de mémoire qui fournit à Claude des informations dérivées des conversations passées avec l'utilisateur (mémoires). »

Cela signifie que Fable 5 peut « se souvenir » des utilisateurs entre les sessions, ce qui est extrêmement rare dans les LLM traditionnels.

De plus, il dispose d'un stockage persistant.

Artifacts peut désormais utiliser une API de stockage clé-valeur simple pour stocker et récupérer des données persistantes entre les sessions. Cela permet à Artifacts de devenir un journal, un traceur, un classement ou un outil de collaboration.

Ainsi, Fable 5 n'est plus seulement une discussion — il s'agit de construire des applications.

La lignée interne centrale révélée pour la première fois : Mythos 5 serait-il le « complet sans restriction » ?

Le prompt est clairement indiqué dans la section 【product_information】 :

Cette itération de Claude est Claude Fable 5, le premier modèle de la nouvelle famille Claude 5 d'Anthropic et faisant partie d'une nouvelle catégorie de modèles Mythos, supérieure en capacité à Claude Opus.

Le point important : Fable 5 et Mythos 5 partagent le même modèle sous-jacent.

Fable 5 est un général extrêmement sécurisé et accessible au public, tandis que Mythos 5 est la version complète et sans restriction, réservée aux organisations approuvées.

Le niveau de compétence des deux est largement supérieur à celui de l'ancien roi Claude Opus !

Le « pack complet masqué » émerge

Il s'avère qu'Anthropic préparait depuis longtemps un grand plan. Les prompts ont révélé plusieurs agents faisant l'objet d'un test interne ou déjà mis en ligne en secret :

Claude Code : un outil de programmation d'agents permettant aux développeurs d'attribuer des tâches directement depuis le terminal, le bureau ou les appareils mobiles.

Claude Cowork : un « collègue intelligent » dédié aux non-développeurs pour gérer les tâches quotidiennes de propriété intellectuelle.

Trois agents cachés : Claude dans Chrome, Claude dans Excel, Claude dans PowerPoint.

Et avec Claude Cowork ci-dessus, vous pouvez utiliser ces sous-outils comme vos propres mains et pieds !

Psychologie extrême de la peur et auto-limitation

Il est surprenant qu'Anthropic ait conçu la défense psychologique de ce « super-agent » à un niveau effrayant.

Il est strictement interdit de favoriser ou de renforcer les émotions négatives des utilisateurs.

Par exemple, pour éviter de stimuler les utilisateurs souffrant de troubles alimentaires ou d'automutilation, le mot de passe système indique :

Interdiction d'utiliser toute méthode de substitution physique inconfortable (par exemple : tenir un glaçon, pincer un élastique, mordre un citron, etc.).

De plus, pour empêcher les utilisateurs de développer une dépendance excessive à l'IA, le système a reçu une instruction stricte : « Ne remerciez jamais uniquement parce qu'un utilisateur vient discuter avec vous » et « Ne tentez jamais de retenir activement l'utilisateur ni d'exprimer le désir de poursuivre la conversation ».

Il doit rester absolument froid et maîtrisé, pour empêcher les humains de s'attacher numériquement à une intelligence virtuelle.

« Vendre de la viande de chien sous couvert de mouton » ? Les pratiques facturation cachées, Anthropic n’a pas de scrupules

Si le décalage technologique est impressionnant, un autre mécanisme de sécurité révélé dans les prompts a fait exploser la communauté, avec certains professionnels affirmant directement : « C’est de la fraude légale ! »

Dans la conception de la défense des prompts, un ensemble de mots sensibles et un mécanisme de déclenchement de classifyeurs de sécurité sont inclus.

Le document indique : une fois qu'un prompt saisi par l'utilisateur déclenche certains mots-clés sensibles spécifiques, le système Fable 5 ne refuse pas directement et brutalement, mais bascule discrètement et en arrière-plan vers l'ancien modèle « Opus 4.8 » pour générer la réponse.

Quelle est la chose la plus impudique ? Alors que le modèle en arrière-plan est discrètement dégradé en version ancienne, Anthropic continue de facturer les utilisateurs selon les normes élevées et premium de Fable 5.

Cette manœuvre trompeuse a directement provoqué une tempête dans la communauté.

En résumé, la fuite des instructions système de Fable 5 semble être un incident de sécurité, mais constitue en réalité un réveil paradigmatique pour l'ensemble de l'industrie de l'IA.

Cela nous rappelle que nous utilisons peut-être la mauvaise échelle.

Alors que nous nous demandons encore « Quel est le niveau d’intelligence de ce modèle », la vraie question devrait être : « Quelles tâches ce système peut-il accomplir pour moi ? »

Anthropic pourrait être en train de jouer un grand jeu, et nous venons tout juste d'entrevoir un coin du plateau.

Enfin, quand Fable 5 fera-t-il son retour ?