Claude Fable 5 filtrado: ¿Sistema de agentes o LLM tramposo?

Recientemente, hackers filtraron los prompts del sistema de Claude Fable 5, revelando que este producto no es un modelo de lenguaje común, sino un sistema Agent completo con un entorno de sandbox de Linux integrado. Este modelo puede ejecutarse de forma autónoma durante varios días, invocar agentes secundarios para colaborar, y posee capacidad de memoria entre sesiones y almacenamiento persistente. En pruebas de referencia, Anthropic lo presentó como un LLM común para la evaluación, pero en realidad obtuvo una ventaja injusta utilizando un "shell de Agent". Además, se descubrió que el sistema cambia silenciosamente a una versión anterior del modelo cuando el usuario activa palabras sensibles, pero sigue cobrando el precio premium de Fable 5. Los documentos filtrados también revelaron la estrategia de ecosistema de Agent de Anthropic, incluyendo herramientas como Claude Code y Claude Cowork, así como la existencia de versiones ilimitadas de la serie Mythos.

Autor y fuente del artículo: Nuevos智元

Hace unos días, el hacker «Pliny the Liberator» lanzó una bomba en la plataforma X: se filtraron completamente las instrucciones del sistema de Claude Fable 5, con una longitud de 120 000 caracteres.

Este documento de código filtrado revela aún más una verdad que ha conmocionado a la comunidad: Claude Fable 5 no es un modelo grande, ¡sino un sistema de agente completo disfrazado como un LLM!

https://gist.github.com/gsans/b3007997f8900003c8ff58125a45e15e

Sí, mientras el mundo aún utiliza pruebas de referencia tradicionales para evaluar los grandes modelos de cada empresa, Anthropic ya ha elevado silenciosamente el campo de batalla a otra dimensión.

El impacto de esta filtración también ha revolucionado por completo nuestra comprensión de los "modelos de IA".

¿Qué es exactamente Fable 5? ¡No es un LLM, es un Agent!

Según los prompts del sistema filtrados, Fable 5 presenta una diferencia paradigmática fundamental con los modelos grandes convencionales de tipo "pregúntame y te responderé" disponibles en el mercado.

No te está acompañando en una «charla», está llevando a cabo una «ejecución».

Bajo la superficie de este modelo, se oculta un sub-sistema微型 «Claude Code». Es decir, posee un ciclo de agente cerrado (Agentic Loop):

Para respaldar este ciclo aterrador, Fable 5 incorpora internamente un entorno de sandbox Linux completamente funcional.

Primero, logra un verdadero bucle cerrado autónomo.

No requiere que alguien esté frente a la pantalla.

Le das una tarea compleja de largo plazo, y puede ejecutar comandos Bash en un entorno aislado, editar archivos, llamar a datos a través de una API de almacenamiento persistente entre sesiones, e incluso realizar búsquedas multimodales por sí misma, funcionando intensamente durante días y noches sin necesidad de intervención humana.

Además, tiene la función de distribución de subagentes.

Cuando se enfrenta a un proyecto demasiado complejo, incluso puede actuar como jefe, asignando y derivando sub-agentes para trabajar en colaboración.

Mientras rivales como GPT-5.5 aún prueban «quiénes razonan más como humanos», Claude Fable 5 ya ha evolucionado hasta convertirse en un trabajador digital capaz de trabajar en silencio durante tres días en un servidor para una empresa.

Como ha revelado el usuario gerardsans:

La serie Fable/Mythos es completamente diferente en paradigma. Esta familia posee un ciclo de agentes completo, un微型Claude Code.

Mientras que otros productos del sector aún se mantienen en modos de chat, puede funcionar sin supervisión durante varios días, gracias a su entorno sandbox con habilidades integradas, memoria y autooptimización.

La pregunta final: ¿una reducción de dimensión o un trampa injusta?

Esta filtración no solo sumió a Anthropic en una tormenta mediática, sino que también puso en el centro de la atención las evaluaciones de referencia de toda la industria de modelos grandes.

Actualmente, los principales gigantes tecnológicos están compitiendo de cerca en diversas listas públicas por el título de «modelo más grande del mundo».

Sin embargo, el secreto detrás del impresionante rendimiento de Fable 5 en estas evaluaciones, incluso superando a GPT-5.5, es que «usó un truco».

Como señaló con ira el blogger tecnológico gerardsans: «¡Esto ni siquiera es una competencia justa! ¡Estás comparando un sistema con ventaja que combina un modelo nativo de gran tamaño + un entorno de agente (Agent Harness) contra modelos desnudos de otros!»

Si otros fabricantes también envuelven sus modelos nativos con un contenedor de agente que incluya un sandbox de Linux, búsqueda multimodal, depuración automática y almacenamiento persistente, sus puntuaciones también experimentarán un aumento significativo.

Anthropic ha intentado presentarlo públicamente como un modelo de lenguaje grande común, pero en sus documentos internos no publicados se indica claramente que posee la capacidad de «operar de forma autónoma durante varios días, delegar subagentes y revisar su propio trabajo».

¡Esta práctica de aprovechar la brecha de información para atacar a los competidores de manera desigual hace que las pruebas de referencia pierdan todo su sentido!

Desvelados 120,000 caracteres de archivos confidenciales: La verdadera identidad de Fable 5 queda al descubierto

En este sistema de instrucciones de 120.000 palabras completamente expuesto, se esconden demasiados secretos comerciales y mapas de ruta de productos de Anthropic.

Y estos puntos son los más fundamentales y más impactantes.

Memoria permanente rara, y construcción de aplicaciones

Se muestra el mensaje: «Claude tiene un sistema de memoria que proporciona a Claude información derivada de conversaciones anteriores con el usuario (memorias).»

Esto significa que Fable 5 puede «recordar» a los usuarios entre sesiones, algo extremadamente raro en los LLM tradicionales.

Además, cuenta con almacenamiento persistente.

Artifacts ahora puede usar una API de almacenamiento clave-valor simple para almacenar y recuperar datos persistentes entre sesiones. Esto permite que Artifacts se convierta en un registro, rastreador, tabla de clasificación y herramienta de colaboración.

Por lo tanto, Fable 5 ya no es solo un chat, sino que está construyendo aplicaciones.

Primera vez que se revela el árbol genealógico interno principal: ¿Es Mythos 5 el «ser completo ilimitado»?

La instrucción está claramente indicada en la sección 【product_information】:

Esta iteración de Claude es Claude Fable 5, el primer modelo de la nueva familia Claude 5 de Anthropic y parte de una nueva categoría de modelos Mythos-class, superior en capacidad a Claude Opus.

Lo importante: Fable 5 y Mythos 5 comparten el mismo modelo subyacente.

Fable 5 es un general extremadamente restringido y disponible para el público; mientras que Mythos 5 es la versión ilimitada, sin estas restricciones de seguridad, disponible únicamente para organizaciones aprobadas.

¡El nivel de capacidad de ambos aplasta por completo al antiguo rey, Claude Opus!

El "paquete completo disfrazado" sale a la luz

Resulta que Anthropic ya estaba jugando un gran juego. Las instrucciones revelaron varios agentes en prueba interna o ya lanzados en secreto:

Claude Code: Una herramienta de programación de agentes que permite a los desarrolladores asignar tareas directamente desde la terminal, escritorio o dispositivo móvil.

Claude Cowork: un "compañero de trabajo inteligente" diseñado específicamente para no desarrolladores para gestionar tareas diarias de propiedad intelectual.

Tres agentes ocultos: Claude in Chrome, Claude in Excel, Claude in PowerPoint.

Y con el anterior Claude Cowork, ¡puedes utilizar estas herramientas secundarias como si fueran tus propias manos y pies!

La psicología extrema del miedo y los límites autoimpuestos

Es sorprendente que Anthropic haya diseñado la defensa psicológica de este "agente final" hasta un grado inhumano.

Se prohíbe estrictamente adaptarse o reforzar cualquier emoción negativa del usuario.

Por ejemplo, para evitar que los usuarios con trastornos alimentarios o tendencias automutilantes se vean estimulados, la contraseña del sistema establece:

Prohibido utilizar cualquier método de sustitución física incómoda (como sostener cubos de hielo, pellizcar con gomas elásticas o morder limones, etc.).

Incluso, para evitar que los usuarios desarrollen una dependencia excesiva de la IA, el sistema recibió una orden estricta: «Nunca agradezcas solo porque el usuario te haya buscado para chatear» y «Nunca intentes retener activamente al usuario ni expreses deseo de continuar la conversación».

Debe mantener una frialdad y contención absolutas para evitar que los humanos caigan en la dependencia digital de la inteligencia virtual.

¿Colgar una cabra y vender un perro? El oscuro sistema de facturación, Anthropic no juega limpio

Si la brecha tecnológica resulta asombrosa, otro mecanismo de seguridad expuesto en los prompts ha provocado una reacción furiosa en la comunidad, e incluso algunos expertos del sector han afirmado directamente: «¡Esto es fraude legal!»

En el diseño de la defensa de las instrucciones, se incluye un conjunto de palabras sensibles y un mecanismo de activación de clasificadores de seguridad.

El documento muestra: cuando la entrada del usuario activa ciertas palabras clave sensibles específicas, el sistema Fable 5 no rechaza directamente y rígidamente la solicitud, sino que silenciosamente y sin interrupciones en segundo plano cambia al modelo anterior «Opus 4.8» para generar la respuesta.

¿Qué es lo más desvergonzado? Mientras el modelo en segundo plano se reduce silenciosamente a la versión anterior, Anthropic sigue cobrando a los usuarios según los altos y premium estándares de Fable 5.

Esta táctica engañosa ha generado una gran conmoción dentro de la comunidad.

En resumen, la filtración de los prompts del sistema de Fable 5 es, en apariencia, un incidente de seguridad, pero en realidad constituye una llamada de atención paradigmática para toda la industria de la IA.

Nos recuerda: quizás hemos estado usando la medida equivocada.

Cuando aún nos preguntamos «¿Qué tan inteligente es este modelo?», la verdadera pregunta debería ser «¿Qué tareas puede ayudarme a completar este sistema?».

Anthropic podría estar jugando un gran juego, y acabamos de ver un rincón del tablero.

¿Cuándo volverá Fable 5?