Anthropic lanza Fable 5, el modelo Myths se acerca a la AGI

Todos deberían recordar que en abril, Anthropic lanzó el modelo llamado Mythos.

Por el nombre ya se sabe lo increíble que es, un mito.

En ese momento, se dijo que se identificaron más de 10,000 vulnerabilidades críticas para 50 clientes empresariales, conmocionando a toda la industria.

Este mensaje, en su momento, provocó una caída generalizada de las acciones de empresas de ciberseguridad; probablemente aún lo recuerden.

Por ser demasiado potente, se teme su mal uso; "demasiado peligroso para hacerlo público", por lo que no se permite al público en general.

Hasta anoche, Anthropic añadió un clasificador de seguridad al modelo Mythos y lanzó oficialmente Fable 5.

Regarding the uncut Mythos 5, it is currently only available to approximately 200 institutions that have undergone rigorous review, such as the White House, Cyber Defenseers, and the Transparent Wings Project.

Con tanta cautela, es difícil no pensar en la reciente y popular animación de IA, Angel Engine.

¿Es el ángel quien está encerrado en la jaula?

Aunque ahora no lo sea, ya está cerca.

01

Según los datos de prueba publicados oficialmente por Anthropic y los informes de prueba de los primeros socios empresariales, la potencia de Fable 5 puede describirse como asombrosa.

Primero, revisa la puntuación.

En la lista de evaluación de programación automática SWE-Bench Pro, Claude Fable 5 tiene una tasa de aprobación del 80,3%; su "madre", Opus 4.8, tiene el 69,2%; GPT-5.5 tiene el 58,6%; y Gemini 3.1 Pro solo tiene el 54,2%.

Evaluación de código de vanguardia: Fable 5 alcanza el 29.3%, Opus 4.8 es el 13.4%; GPT-5.5 solo el 5.7%.

……

La brecha es como si de repente alguien sacara una ametralladora en la era de las armas blancas.

En el resto, como ingeniería de software, hipótesis de investigación independiente, diseño de moléculas farmacéuticas, destilación de modelos y compresión extrema, comprensión de contextos largos, etc., Fable 5 fue el primero en casi todas las pruebas.

Para detalles específicos, pueden ver el video.

Veamos el caso práctico.

El gigante de pagos Stripe realizó una prueba inicial con Fable 5. Tenían una base de código heredada de hasta 50 millones de líneas que necesitaban migrar por completo. Según la evaluación, este tipo de reestructuración a esta escala, incluso si se confiara a un equipo profesional, requeriría al menos dos meses.

Como resultado, al asignar la tarea a Fable 5, este se encargó por sí solo de planificar, verificar el progreso y corregir los errores encontrados. En solo un día, completó la migración de 50 millones de líneas de código.

Este desempeño no se puede resumir solo con las palabras "poderoso".

Desde una perspectiva estricta, Fable 5 ya ha logrado la AGI en el nivel de la economía digital.

La razón es que demostró una verdadera "capacidad de agente a largo plazo".

Ya sea GPT-5.5 o Gemini 3.5, sin mencionar otros modelos más pequeños, en esencia todos están “respondiendo”.

Pícalo una vez, y da un paso.

Al encontrarse con un callejón sin salida, solo puede lanzar una excepción y decir con capricho: "Lo siento, solo soy un modelo de lenguaje".

Se llama herramienta, pero el usuario aún necesita pensar profundamente y guiar paso a paso a la IA para obtener el resultado deseado; no es fácil.

Fable 5 con una lógica orientada a objetivos internalizada es diferente.

Al igual que la prueba de Strip, cuando el usuario le asigna una tarea de larga duración y de alta dificultad, en tres pasos:

Crear un árbol de subtareas;

Programar diferentes herramientas (búsqueda web, extracción de base de datos, entorno sandbox de Python);

Reflexión personal: al darte cuenta de que no funciona, cambia de rumbo inmediatamente.

Las personas ya no necesitan estar observando y dando instrucciones además de asignar tareas y recibir resultados.

As a productivity tool, this is already perfect.

Pero sigue siendo algo completamente distinto al AGI real.

La potencia de Fable 5 se basa en que su base de código, literatura científica y demás aún tienen una lógica matemática y definiciones estructurales subyacentes.

Puede mantenerse enfocado en tareas de largo plazo porque supera el desafío de "la atenuación de la atención en textos largos", manteniendo siempre la alineación con el objetivo principal al procesar tareas complejas de hasta millones de tokens.

Pero tan pronto como se lo introduce en el barro de una realidad física social completamente caótica, desprovista de reglas digitales y que los propios humanos aún no comprenden, sigue sufriendo brechas lógicas debido a la "falta de cimientos".

Si se mide según los "cinco niveles de inteligencia artificial" propuestos por OpenAI (Nivel 1: chatbot; Nivel 2: razonador; Nivel 3: agente; Nivel 4: innovador; Nivel 5: organización).

Opus 4.8 es un paso del nivel 2 al 3, y Fable 5 se ha consolidado realmente en el nivel 3 y está explorando el nivel 4.

Desde Opus 4.7 a 4.8 pasaron 43 días, y de 4.8 a Fable 5 solo 11 días.

¿Cuánto tiempo llevará alcanzar el nivel 4? Según la tendencia actual de Anthropic de acelerar cada vez más sus actualizaciones, es muy probable que se logre dentro de este año.

Incluso el nivel 5 final, con una estimación optimista, solo requiere 18-24 meses, está realmente a un paso de distancia.

This speed is too fast, which is also the main reason for implementing security restrictions.

02

En la "System Card" y el informe de evaluación RSP publicados por Anthropic junto con el modelo, Mythos 5 mostró señales de alerta extremadamente peligrosas en dos capacidades.

En primer lugar, el modelo subyacente de Fable/Mythos ha alcanzado el nivel CB-1 en evaluaciones químicas y biológicas.

Es decir, el modelo posee la capacidad end-to-end de "sintetizar y guiar la fabricación de armas biológicas/químicas no nuevas", e incluso ofrece sugerencias sobre modificaciones de secuencias genéticas para optimizar la eficiencia de propagación de ciertos virus de alto riesgo.

Si un terrorista con una base universitaria en biología obtuviera el Mythos 5 desbloqueado, podría obtener instrucciones completas sobre cómo evadir la regulación de materias primas, cómo construir un laboratorio P3 simple en el sótano y cómo sintetizar patógenos de alta letalidad, mediante sugerencias constantes al modelo.

En segundo lugar, ataques de red y explotación de vulnerabilidades.

En pruebas tempranas, Mythos 5 demostró la capacidad de encontrar y explotar automáticamente vulnerabilidades críticas en infraestructuras clave, como plantas de energía, sistemas de liquidación financiera y redes hospitalarias, generando scripts de ataque de día cero específicos en cuestión de segundos.

Cuando Mythos se desarrolló en abril de este año, se filtró que se identificaron más de 10,000 vulnerabilidades de nivel crítico para 50 socios iniciales.

……

En ambos casos, lanzar directamente Mythos 5 al público es demasiado peligroso.

This beast must be locked in a cage.

Dos meses después, la jaula creada por Anthropic tiene dos niveles.

Primero, el mecanismo de degradación silenciosa de la ruta.

Anthropic ha implementado en el frontend de Fable 5 un clasificador AI de alta precisión, completamente independiente y extremadamente receptivo.

Cuando el usuario ingresa una solicitud compleja que podría involucrar ciberdefensa y ciberataque, bioquímica o intentos de extraer pesos del modelo, el clasificador activa inmediatamente una alerta y, en segundo plano, redirige silenciosamente la sesión a la versión anterior de Opus 4.8 para responder.

En segundo lugar, conservación de datos.

Anthropic y Amazon anunciaron anoche: todos los flujos que llamen al modelo Mythos, ya sea en plataformas de primera o tercera parte, deben aplicar obligatoriamente una retención de datos de 30 días.

Why?

Porque los verdaderos hackers o terroristas suelen tener un coeficiente intelectual muy alto; no preguntarán directamente en una conversación "¿cómo hacer una bomba?", sino que dividirán la pregunta en 100 preguntas básicas que parecen inofensivas.

Monitoreo completo de 30 días para identificar patrones y detectar abusos maliciosos de tipo “salami” que no son visibles en una sola conversación.

Como Dario Amodei había advertido anteriormente en público: "La probabilidad de que la IA cause un riesgo catastrófico para la humanidad es del 25%".

Para cumplir con la Política de Crecimiento Responsable (RSP) y el Marco de Cumplimiento Avanzado (FCF) establecidos internamente por la empresa, Anthropic debe colocar las cadenas personalmente en este gigante.

Así que surgió Fable 5.

03

Hablemos nuevamente del precio.

El precio oficial anunciado por Anthropic es: 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida.

Es demasiado caro.

Los agentes empresariales actuales, para lograr una alta precisión, suelen emplear una lógica en cadena de “pensar, volver a pensar y pensar otra vez”; un solo ciclo de procesamiento puede consumir hasta 20 millones de tokens de entrada y generar 5 millones de tokens de código modificado.

Al calcularlo, cada tarea cuesta 450 dólares.

Además, Anthropic ha emitido un aviso: la ventana de experiencia del modelo Mythos incluida en las suscripciones personales actuales (Claude Pro) se cerrará por completo el 22 de junio de 2026.

En el futuro, si los usuarios individuales realmente lo usan para trabajar, esos veinte dólares se gastarán en un abrir y cerrar de ojos.

Aunque es cierto que, con la actualización tecnológica, su precio eventualmente bajará, para entonces ya no será el más fuerte.

La situación ya es muy clara: los modelos de vanguardia se han convertido en artículos de lujo que la gente común simplemente no puede permitirse.

Por supuesto, para Anthropic, que se enfoca en el mercado B2B, esto es comprensible.

El problema es que hace poco, Google anunció con gran fanfarria una guerra de precios.

Cuando la mayoría de los competidores reducen precios para ganar cuota de mercado, ¿por qué Anthropic se atreve a aumentar los precios en contra de la tendencia?

Porque el precio del token es ilusorio; la tasa de retorno es lo fundamental.

Los clientes corporativos no les importa el costo de un kilovatio-hora o de un Token; siempre que la IA pueda completar perfectamente y sin errores todo el flujo de ingeniería, están dispuestos a pagar ese plus.

Más importante aún, la guerra actual de ciberseguridad se ha convertido completamente en una confrontación entre IA y IA.

Debido a que los modelos de nivel Fable/Mythos pueden encontrar vulnerabilidades del sistema al instante, las empresas e instituciones nacionales, para evitar ser atacadas, solo tienen como opción pagar un precio elevado a Anthropic por el servicio de defensa privado interno de Mythos 5.

En términos sencillos, es cobrar protección: creé la espada más aterradora (Mythos 5), tuve miedo de herir a alguien, así que la vendí al público con una vaina (Fable 5), pero al mismo tiempo vendí la espada sin restricciones a los departamentos de defensa para que la usaran para interceptar las espadas que otros están desarrollando.

Defenderse contra la amenaza de la IA se convertirá en un gasto esencial para cada empresa grande.

Esto llevará directamente a que los presupuestos de alto nivel del mercado B se concentren aún más en Anthropic, mientras que los modelos baratos, solo útiles para redactar documentos y enviar correos electrónicos, se verán obligados a competir entre sí en un mercado C con márgenes de beneficio extremadamente bajos.

Se puede prever que, a continuación, el sector global de ciberseguridad experimentará una reevaluación de valor impulsada por la IA.

Meanwhile, "one-person businesses" will also soon become increasingly common.

04

Incluye funciones de asignación de presupuesto de tareas, admite gestión de memoria y contexto, puede recordar, rechazar y volver a empezar como un ser humano, y puede asumir independientemente todo el ciclo de vida desde la documentación de requisitos hasta la entrega del código…

La aparición de Fable 5 y Mythos 5 es menos un actualización de la tecnología de modelos grandes y más un rito de paso definitivo hacia la madurez de la división de la industria de la IA.

El mercado de IA ha dejado atrás en sus primeras etapas la era idílica de la prueba gratuita para todos.

La capacidad de cómputo más avanzada y la inteligencia más profunda se asignarán prioritariamente como recursos estratégicos de productividad, dirigiéndose específicamente a las infraestructuras, la investigación científica y los escenarios de aplicaciones B2B que generen mayor valor comercial.

Este es el frenesí de la explosión de productividad y el invierno del mercado laboral.

Este artículo proviene del canal de WeChat "Gelon", autor: Wan Lianshan