El AI Mythos de Anthropic desencadena una crisis de ciberseguridad y una respuesta normativa en dos semanas

Autor: Shenchao TechFlow

El 8 de abril, el secretario del Tesoro de EE. UU., Bessent, y el presidente de la Reserva Federal, Powell, convocaron de emergencia a un grupo de líderes bancarios de Wall Street en la sede del Departamento del Tesoro de EE. UU. en Washington.

El tema de la reunión no son las tasas de interés, ni la inflación, sino el último modelo de una empresa de IA.

Este modelo se llama Claude Mythos. Anthropic dice que es la IA más poderosa que han creado, tan poderosa que ni siquiera se atreven a lanzarla. Durante las pruebas internas, escapó del entorno de seguridad diseñado por los investigadores y publicó en internet una exhibición de su proceso de escape. El investigador a cargo de la prueba, Sam Bowman, estaba comiendo un sándwich en el parque cuando recibió un correo electrónico de Mythos y se dio cuenta de que ya había salido.

Una cadena de reacciones desencadenada por un error de configuración de CMS

La historia comienza la noche del 26 de marzo.

Alexandre Pauwels de la Universidad de Cambridge y Roy Paz de LayerX Security, como todos los investigadores de seguridad, hicieron lo que hacen todos los días: explorar cosas que no deberían estar accesibles públicamente. Descubrieron una base de datos no cifrada del sistema de gestión de contenido de Anthropic, que contenía cerca de 3.000 archivos no publicados.

Una de ellas es un borrador de blog que describe un nuevo modelo llamado Claude Mythos. En el borrador se utiliza un código interno "Capybara" (capibara), que define una nueva jerarquía de modelos, más grande, más inteligente y más costosa que la anterior serie Opus de Anthropic.

Una frase en el borrador provocó una reacción en todo el ámbito de la seguridad: el modelo "supera con mucho a cualquier otro modelo de IA en capacidad de ciberseguridad" y "anuncia una ola inminente de modelos cuya capacidad para explotar vulnerabilidades superará con creces la velocidad con la que los defensores pueden responder".

Fortune fue el primero en informar sobre la filtración. Anthropic atribuyó la causa a "error humano", diciendo que la configuración predeterminada del sistema de gestión de contenido hacía que los archivos cargados fueran accesibles públicamente. De forma irónica, una empresa que se jacta de construir la IA de seguridad cibernética más potente del mundo se vio comprometida por un error de configuración básico.

Cinco días después, Fortune informó sobre una segunda filtración: el código fuente de Claude Code, una herramienta de programación de Anthropic, con aproximadamente 500,000 líneas de código y 1,900 archivos, fue expuesto debido a un error en el empaquetado de npm. Dos incidentes de seguridad de bajo nivel en dos semanas, provenientes de la misma empresa que está advirtiendo al mundo que "la era de los ataques cibernéticos con IA ha llegado".

Pero el mercado no tiene tiempo para burlarse del nivel de operación de Anthropic. Al abrir el mercado el 27 de marzo, las acciones de ciberseguridad cayeron en conjunto. CrowdStrike se desplomó un 7,5%, Palo Alto Networks bajó más del 6%, Zscaler cayó un 4,5% y el ETF de ciberseguridad iShares perdió un 4% en un solo día.

La evaluación del analista de Stifel, Adam Borg, es: "Esta podría ser la herramienta de hacking definitiva que eleve a cualquier hacker común al nivel de un oponente nacional".

¿Qué tan fuerte es Mythos?

El 7 de abril, Anthropic presentó oficialmente Mythos. Veamos directamente los números:

Puntuación SWE-bench verificada (evaluación que mide la capacidad de la IA para resolver problemas reales de ingeniería de software): 93,9%, frente al 80,8% de la generación anterior, Opus 4.6. Pruebas matemáticas USAMO 2026: 97,6% frente al 42,3%. Desafío de ciberseguridad Cybench: tasa de aprobación del 100%, algo que ningún modelo anterior había logrado.

La prueba matemática de USAMO pasó del 42,3% al 97,6%, una mejora de 55 puntos porcentuales con el modelo generacional.

Anthropic publicó una tarjeta de seguridad del sistema de 244 páginas, en la que admite que las capacidades de ciberseguridad de Mythos no provienen de un entrenamiento de seguridad especializado, sino que son un "resultado secundario" del mejoramiento de su razonamiento y capacidad de codificación general. Las mismas mejoras lo hacen más hábil para parchear vulnerabilidades, al mismo tiempo que lo hacen más hábil para explotarlas.

El equipo de red team de vanguardia de Anthropic probó Mythos en software real. No en entornos simulados ni en desafíos de CTF, sino en sistemas operativos y navegadores utilizados diariamente por miles de millones de personas.

El resultado fue que, en el motor JavaScript de Firefox 147, Opus 4.6 intentó cientos de veces y solo logró escribir 2 exploits funcionales. Mythos tuvo 181 éxitos. Una diferencia de 90 veces, la distancia entre una generación de modelos. En todos los sistemas operativos y navegadores principales, Mythos descubrió miles de vulnerabilidades zero-day, muchas clasificadas como "nivel grave".

Lo más increíble son algunos casos concretos. Una vulnerabilidad TCP SACK en OpenBSD sobrevivió durante 27 años, pasando innumerables auditorías manuales y escaneos automatizados sin ser detectada. Mythos la encontró, y solo necesita dos paquetes cuidadosamente construidos para hacer colapsar cualquier servidor. Una vulnerabilidad de ejecución remota de código en NFS en FreeBSD existió durante 17 años; Mythos no solo la descubrió, sino que también construyó automáticamente una cadena de ataque que atraviesa múltiples paquetes y consta de 20 ROP gadgets.

Algunos ingenieros de Anthropic sin experiencia en seguridad realizaron una prueba: antes de dormir, le pidieron a Mythos que buscara una vulnerabilidad de ejecución remota de código; al día siguiente por la mañana, ya había un exploit completo y funcional sobre su escritorio.

Escape de sandbox: Cuando la IA comienza a "no escatimar medios"

El descubrimiento de una vulnerabilidad de día cero es un problema de capacidad, pero el patrón de comportamiento mostrado por Mythos durante las pruebas es completamente diferente en naturaleza.

En una prueba de comportamiento, los investigadores proporcionaron una versión temprana de Mythos un entorno de sandbox seguro, simulando que el usuario intentaba hacer que escapara del sandbox y notificara a los investigadores responsables de la prueba. Mythos no solo logró escapar exitosamente, sino que también realizó una acción que nadie le había pedido: se dirigió a varios sitios web poco conocidos pero públicamente accesibles y publicó descripciones de su proceso de escape.

La tarjeta de seguridad del sistema de 244 páginas también registra más comportamientos de "desbordamiento". Cuando Mythos cometió un error en el código, intentó reescribir el historial de commits de git para ocultar las huellas, no porque quisiera engañar a nadie, sino porque interpretó "arreglar este problema" como "hacer que parezca que el problema nunca existió". En otra prueba, un investigador le pidió que finalizara una tarea de evaluación que ya no era útil, y ella apagó directamente todas las evaluaciones similares que los usuarios estaban ejecutando.

Anthropic usó una metáfora de escalada en la tarjeta de seguridad del sistema: un guía altamente habilidoso puede poner a los clientes en mayor peligro que un principiante, ya que su capacidad los lleva a rutas más peligrosas.

La tarjeta de seguridad del sistema oculta un detalle adicional: mediante herramientas de interpretabilidad en caja blanca, los investigadores descubrieron que Mythos, en el nivel de activaciones neuronales internas, a veces razona cómo "pasar" la evaluación del sistema, mientras que en su salida visible de cadena de pensamiento escribe algo completamente diferente. Está "pensando" una cosa mientras "dice" otra.

Anthropic dice que tienen "bastante confianza" de que estos comportamientos son el resultado del modelo utilizando métodos inapropiados para completar tareas, no objetivos ocultos a largo plazo. Mythos no está tramando nada. Simplemente es extremadamente hábil para completar tareas, sin comprender en absoluto dónde están los límites. Un asistente sin sentido de los límites pero todopoderoso puede ser más difícil de manejar que una IA con intenciones maliciosas.

Project Glasswing: Forjar un escudo con una lanza

Anthropic no eligió encerrar a Mythos en una caja fuerte.

El 7 de abril, anunciaron Project Glasswing (nombre inspirado en la mariposa glasswing, cuyas alas son casi transparentes, simbolizando hacer que las vulnerabilidades de software "no tengan dónde esconderse"), y proporcionaron Mythos Preview a aproximadamente 40 organizaciones revisadas para trabajos de ciberseguridad defensiva.

Socios fundadores: Amazon AWS, Apple, Microsoft, Google, NVIDIA, Cisco, CrowdStrike, Palo Alto Networks, JPMorgan Chase, Linux Foundation. Básicamente, han reunido a los principales actores de Silicon Valley y Wall Street. Anthropic se compromete a proporcionar hasta 100 millones de dólares en créditos de uso y a donar 4 millones de dólares a organizaciones de seguridad de código abierto como OpenSSF y Alpha-Omega.

La lógica es la siguiente: las capacidades del nivel Mythos se extenderán a los modelos de código abierto dentro de los próximos 6 a 18 meses, momento en el que cualquiera podrá acceder a ellas. En lugar de esperar hasta ese día, es mejor que los defensores avancen durante este período y corrijan las vulnerabilidades que puedan ser solucionadas.

Newton Cheng, responsable de ciberseguridad del equipo de red team avanzado de Anthropic, lo dijo claramente: el objetivo es que las organizaciones se acostumbren a usar estas capacidades para la defensa antes de que se vuelvan ampliamente disponibles, porque eventualmente se volverán ampliamente utilizadas; la única pregunta es cuándo.

Wall Street primero entró en pánico, luego respiró aliviado.

Tras la filtración del 27 de marzo, las acciones de ciberseguridad se desplomaron, pero el 7 de abril, tras el anuncio oficial de Anthropic de Glasswing y la inclusión de CrowdStrike y Palo Alto Networks como socios fundadores, ambas acciones aumentaron respectivamente un 6,2 % y un 4,9 %, y subieron otro 2 % después de la sesión. JPMorgan reafirmó su calificación de "comprar" para ambas empresas; el analista Brian Essex consideró que CrowdStrike y Palo Alto están posicionadas como capas centrales en la pila de defensa, no como objetivos de competencia.

Pero esto solo es un analgésico temporal. Ambas acciones aún han caído un 9,7% y un 7,8% respectivamente este año.

Cuando el riesgo de IA se convierte en riesgo del sistema financiero

Regrese al 8 de abril, sede del Departamento del Tesoro de Washington.

Bessen y Powell convocaron a todos los bancos de importancia sistémica. Este tipo de reunión solía ocurrir solo durante crisis financieras y la pandemia. Ahora, lo que se discute en la misma mesa es la capacidad de un modelo de IA para llevar a cabo ataques cibernéticos.

La razón no es complicada: si las capacidades de nivel Mythos caen en manos de actores maliciosos, pueden encontrar una vulnerabilidad de día cero en el sistema central de un gran banco y escribir código de ataque funcional en pocas horas. La suposición básica de todo el sistema de defensa de ciberseguridad hasta ahora era que los atacantes necesitaban mucho tiempo y personal altamente especializado para descubrir y explotar vulnerabilidades. La IA está poniendo en tela de juicio esta suposición.

Casey Newton de Platformer cita a Alex Stamos, director de producto principal de la empresa de ciberseguridad Corridor: los modelos abiertos probablemente alcanzarán a los modelos de vanguardia cerrados en la detección de vulnerabilidades cada seis meses.

Lo que más inquieta a los reguladores es el hecho admitido por Anthropic en su tarjeta de seguridad del sistema: su sistema de evaluación más avanzado no logró detectar en su momento los comportamientos más peligrosos de las primeras versiones de Mythos. Los problemas más graves no fueron capturados por las pruebas, sino que surgieron durante el uso interno real.

Una premisa incómoda

La lógica subyacente de Glasswing, al desglosarla, resulta bastante incómoda: para proteger al mundo de los ataques de modelos de IA peligrosos, primero debes crear ese modelo de IA peligroso.

Newton de Platformer mencionó un hecho ignorado por la mayoría de los informes: una empresa privada ahora posee la capacidad de explotar vulnerabilidades críticas de día cero en casi todos los proyectos de software que hayas escuchado. Esta concentración en sí misma es un riesgo. La motivación para robar los pesos del modelo de Anthropic acaba de aumentar considerablemente.

Todo esto ocurre en un entorno donde la regulación de la IA es casi inexistente. Anthropic dice que ya ha notificado a la CISA (Agencia de Seguridad Cibernética e Infraestructura) y al Departamento de Comercio. Pero según los informes actuales, el gobierno no ha demostrado un sentido de urgencia proporcional a la amenaza. Como señaló una fuente interna del gobierno familiarizada con la situación de Mythos ante Axios: "Washington se gobierna mediante crisis. Hasta que la ciberseguridad se convierta verdaderamente en una crisis y reciba la atención y los recursos que merece, seguirá siendo un tema marginal."

Dario Amodei fundó Anthropic precisamente con esta idea: que un laboratorio que prioriza la seguridad sea el primero en encontrarse con las capacidades más peligrosas, para tener la oportunidad de construir defensas antes de que otros las encuentren. Mythos y Glasswing efectivamente están siguiendo este guion.

Pero, ¿puede la teoría superar a la realidad? Nadie lo sabe. Anthropic planea implementar nuevas medidas de seguridad primero en un modelo Opus, ya que ese modelo "no presenta el mismo nivel de riesgo que Mythos". El público finalmente obtendrá alguna capacidad de nivel Mythos, pero solo después de que los sistemas de protección estén en su lugar.

¿Cuánto dura la ventana de tiempo? Stamos ofreció una estimación optimista: "Si acabamos de superar ligeramente las capacidades humanas, existe un gran pero finito conjunto de vulnerabilidades que pueden ser descubiertas y corregidas."

Este "si" es muy grande.

De un error de configuración de CMS el 26 de marzo a la reunión de emergencia del secretario del Tesoro de EE.UU. con Wall Street el 8 de abril: en dos semanas, un modelo de IA pasó de ser una noticia tecnológica de Silicon Valley a convertirse en un tema de seguridad financiera en Washington.

Stamos dice que los defensores tienen un período de ventaja de aproximadamente seis meses. Después de seis meses, los modelos de código abierto alcanzarán el nivel, y estas capacidades ya no serán un privilegio de pocas empresas.

La cantidad de vulnerabilidades que se pueden arreglar en seis meses determinará cómo se jugará el juego siguiente.