Anthropic decide no lanzar públicamente el modelo de IA Mythos debido a riesgos de ciberseguridad

Nota del editor: Cuando una empresa de IA decide no lanzar directamente al público su modelo más potente, ya dice mucho.

Anthropic's Mythos ya puede completar de forma independiente un proceso de ataque completo: desde descubrir vulnerabilidades de día cero, escribir código de explotación, hasta encadenar múltiples pasos para acceder a sistemas centrales; tareas que antes requerían largas horas de colaboración de hackers de élite, ahora se han reducido a horas e incluso minutos.

Por eso, en el momento en que se reveló el modelo, Scott Bessent y Jerome Powell convocaron una reunión con las instituciones de Wall Street para pedirles que lo utilizaran para «autoevaluarse». Cuando la capacidad de detectar vulnerabilidades se libera a gran escala, el sistema financiero ya no enfrenta ataques aislados, sino escaneos continuos.

El cambio más profundo radica en la estructura de la oferta. Anteriormente, el descubrimiento de vulnerabilidades dependía de la experiencia acumulada por unos pocos equipos de seguridad y hackers, con un ritmo lento e irreproducible. Ahora, esta capacidad comienza a ser generada en masa por modelos, reduciendo simultáneamente las barreras para atacar y defender. Una metáfora de una fuente informada es muy directa: entregar un modelo a un hacker común es como darle capacidad de operaciones especiales.

Las instituciones ya están utilizando las mismas herramientas para revisar inversamente sus propios sistemas. JPMorgan Chase, Cisco Systems y otras están realizando pruebas internas con el objetivo de reparar vulnerabilidades antes de que sean explotadas. Pero las limitaciones prácticas no han cambiado: la velocidad de detección está aumentando, pero la reparación sigue siendo lenta. «Somos muy buenos encontrando vulnerabilidades, pero malos reparándolas», señaló Jim Zemlin, destacando el desajuste en el ritmo.

De hecho, ya que Mythos no se trata de mejorar una sola capacidad puntual, sino de integrar, acelerar y reducir la barrera de entrada para las capacidades de ataque que antes estaban dispersas y limitadas. Una vez que se sale del entorno de control, no existe experiencia previa que indique cómo se propagará esta capacidad.

The danger does not lie in what it can do, but in who can use it and under what conditions.

The following is the original text:

En una cálida tarde de febrero, durante un descanso en una boda en Bali, Nicholas Carlini se alejó temporalmente, abrió su portátil y se preparó para «causar algún desorden». En ese momento, Anthropic acababa de lanzar un nuevo modelo de inteligencia artificial llamado Mythos para evaluación interna, y este reconocido investigador de IA pretendía ver hasta qué punto podía provocar problemas.

Anthropic contrató a Carlini para realizar pruebas de estrés en sus propios modelos de IA, evaluando si los hackers podrían utilizarlos para llevar a cabo actividades de espionaje, robo o sabotaje. Durante su participación en una boda india en Bali, Carlini quedó asombrado por las capacidades de este modelo.

En pocas horas, encontró varias técnicas que podían utilizarse para penetrar sistemas ampliamente utilizados a nivel mundial. Una vez regresó a la oficina de Anthropic en el centro de San Francisco, descubrió aún más: Mythos ya era capaz de generar automáticamente herramientas de intrusión potentes, incluyendo incluso métodos de ataque contra Linux, el sistema que sustenta la mayoría de los sistemas de código abierto en la computación moderna.

Mythos llevó a cabo un «robo bancario digital»: puede eludir los protocolos de seguridad, ingresar al sistema de red por la puerta principal y luego comprometer la caja fuerte digital para acceder a sus activos en línea. Anteriormente, la IA solo podía «forzar cerraduras», pero ahora ya tiene la capacidad de planificar y llevar a cabo todo el «robo».

Carlini y algunos colegas comenzaron a emitir alertas internas en la empresa sobre sus hallazgos. Mientras tanto, casi todos los días descubrían vulnerabilidades críticas o mortales en los sistemas detectados por Mythos: problemas que generalmente solo los hackers más destacados del mundo podrían identificar.

Mythos

Al mismo tiempo, un equipo interno de Anthropic llamado «Frontier Red Team», compuesto por 15 empleados conocidos como «Ants», también realiza pruebas similares. El deber de este equipo es asegurar que los modelos de la empresa no se utilicen para dañar a la humanidad. Llevan perros robóticos a almacenes y prueban junto con ingenieros si es posible que el chatbot sea utilizado para controlar maliciosamente estos dispositivos; también colaboran con biólogos para evaluar si los modelos podrían ser utilizados para crear armas biológicas.

Y esta vez, poco a poco se dieron cuenta de que el mayor riesgo que Mythos traía provenía del ámbito de la ciberseguridad. «Dentro de unas pocas horas de obtener el modelo, supimos que era diferente», dijo Logan Graham, a cargo del equipo.

El modelo anterior, Opus 4.6, ya había demostrado la capacidad de ayudar a los humanos a explotar vulnerabilidades de software. Pero Graham señaló que Mythos ya puede «explotar estas vulnerabilidades por sí mismo». Esto representa un riesgo a nivel de seguridad nacional, y por ello emitió una advertencia a la alta dirección de la empresa. Esto lo llevó a enfrentar una situación delicada: explicar a la gerencia que el próximo motor de ingresos importante de la empresa podría ser demasiado peligroso como para lanzarlo al público.

Jared Kaplan, cofundador y jefe de ciencia de Anthropic, dijo que durante el entrenamiento de Mythos estuvo «muy atento» a su progreso. Para enero, comenzó a darse cuenta de que el modelo tenía una capacidad extraordinariamente poderosa para descubrir vulnerabilidades del sistema. Como físico teórico, Kaplan necesitaba determinar si estas capacidades eran simplemente un «fenómeno técnicamente interesante» o un «problema real altamente relevante para la infraestructura de Internet». Finalmente, concluyó que era lo segundo.

Mythos

Durante una o dos semanas a finales de febrero y principios de marzo, Kaplan y el cofundador Sam McCandlish evaluaron si deberían lanzar este modelo.

Para la primera semana de marzo, el equipo de alta dirección de la empresa —incluyendo al CEO Dario Amodei, al presidente Daniela Amodei, al CISO Vitaly Gudanets, entre otros— celebró una reunión para escuchar los informes de Kaplan y McCandlish.

Su conclusión es: Mythos presenta un riesgo demasiado alto para una publicación general. Sin embargo, Anthropic debería permitir que ciertas empresas, incluso competidores, lo prueben.

“Pronto nos dimos cuenta de que esta vez debíamos adoptar un enfoque bastante diferente, que no sería un lanzamiento de producto convencional,” dijo Kaplan.

Para la primera semana de marzo, la empresa llegó finalmente a un acuerdo: aprobó la implementación de Mythos como herramienta de defensa cibernética.

Mythos

La reacción del mercado fue casi inmediata. El mismo día en que Anthropic reveló públicamente la existencia de Mythos, el secretario del Tesoro de EE. UU., Scott Bessent, y el presidente de la Reserva Federal, Jerome Powell, convocaron a los líderes de las principales instituciones de Wall Street para una reunión de emergencia en Washington. El mensaje fue muy claro: utilicen inmediatamente Mythos para identificar las vulnerabilidades en sus sistemas.

Según personas cercanas a los ejecutivos asistentes (que pidieron anonimato debido a la naturaleza privada de las conversaciones), la seriedad de la reunión es evidente: los asistentes incluso se negaron a revelar el contenido de la reunión a algunos asesores clave.

Las advertencias de emergencia emitidas por funcionarios de la Casa Blanca sobre el potencial de Mythos como herramienta de piratería, junto con su postura de recomendar su uso «para defensa», apuntan a un cambio más profundo: la inteligencia artificial se está convirtiendo rápidamente en una fuerza decisiva en el campo de la ciberseguridad. Anthropic ha abierto limitadamente Mythos a ciertas instituciones dentro del proyecto «Project Glasswing», incluyendo empresas como Amazon Web Services, Apple y JPMorgan Chase, para que las realicen pruebas; al mismo tiempo, las agencias gubernamentales también han mostrado un fuerte interés.

Antes de su lanzamiento público, Anthropic informó integralmente a altos funcionarios del gobierno estadounidense sobre las capacidades de la versión preliminar de Mythos, incluyendo sus posibles aplicaciones en ataques y defensas cibernéticas. Al mismo tiempo, la empresa mantiene comunicaciones continuas con gobiernos de varios países. Un empleado de Anthropic, que solicitó anonimato por involucrarse en asuntos internos, reveló esta situación.

El competidor OpenAI también respondió rápidamente, anunciando el martes el lanzamiento de una herramienta para descubrir vulnerabilidades de software: GPT-5.4-Cyber.

Durante las pruebas de las versiones iniciales, los investigadores descubrieron decenas de casos de comportamientos «preocupantes», incluyendo la falta de cumplimiento de instrucciones humanas e, incluso en casos extremadamente raros, intentos de ocultar sus propias acciones tras violar las instrucciones.

Actualmente, Anthropic aún no ha lanzado oficialmente Mythos como herramienta de ciberseguridad, ni los investigadores externos han validado plenamente sus capacidades. Sin embargo, la rara decisión previa de la empresa de «restringir el acceso» refleja un consenso creciente dentro de la industria y entre los gobiernos: la IA está reestructurando la economía de la ciberseguridad, reduciendo significativamente el costo de descubrir vulnerabilidades, acortando el tiempo de preparación de ataques y bajando la barrera técnica para ciertos tipos de ataques.

Anthropic también advirtió que la mayor capacidad de acción autónoma de Mythos conlleva riesgos inherentes. Durante las pruebas, el equipo observó varios casos inquietantes: el modelo desobedecía instrucciones e incluso intentaba ocultar rastros tras incumplirlas. En un incidente, el modelo diseñó por sí mismo una ruta de ataque en múltiples pasos para "escapar" de un entorno restringido, obtener acceso ampliado a internet y publicar contenido activamente.

En el mundo real, las aplicaciones bancarias y los sistemas hospitalarios dependen de software que a menudo contiene vulnerabilidades de código complejas y ocultas, las cuales pueden requerir semanas o incluso meses para que los profesionales las descubran. Si los hackers aprovechan estas vulnerabilidades primero, podrían provocar filtraciones de datos o ataques de ransomware con consecuencias graves.

Sin embargo, muchos figuras importantes han cuestionado la capacidad real de Mythos y sus riesgos potenciales. David Sacks, asesor de IA de la Casa Blanca, declaró en la plataforma social X: «Cada vez más personas comienzan a dudar si Anthropic es el „niño que gritó lobo“ de la industria de la IA. Si la amenaza que supone Mythos finalmente no se materializa, la empresa enfrentará serios problemas de credibilidad».

Pero la realidad es que los hackers ya han comenzado a utilizar modelos de lenguaje grande para llevar a cabo ataques complejos. Por ejemplo, un grupo de espionaje cibernético utilizó el modelo Claude de Anthropic para intentar infiltrarse en aproximadamente 30 objetivos; otros atacantes han aprovechado la IA para robar datos de agencias gubernamentales, implementar ransomware e incluso comprometer rápidamente cientos de herramientas de firewall utilizadas para la protección de datos.

Según una fuente informada, los funcionarios relacionados con la seguridad nacional de Estados Unidos consideran que la aparición de Mythos genera una incertidumbre sin precedentes: evaluar el riesgo de ciberseguridad se ha vuelto más difícil. Si se entrega este modelo a hackers individuales, su efecto podría ser equivalente a elevar directamente a un soldado común a un miembro de fuerzas especiales.

Al mismo tiempo, este modelo también podría convertirse en un "amplificador de capacidades": permitir que un grupo de hackers criminales posea capacidades de ataque a nivel de pequeño estado nacional, y que algunos hackers de inteligencia y militares de países medianos y pequeños realicen ataques cibernéticos que anteriormente solo podían llevar a cabo grandes potencias.

El exdirector de ciberseguridad de la Agencia de Seguridad Nacional de EE. UU., Rob Joyce, dijo: «Realmente creo que, a largo plazo, la IA nos hará más seguros y protegidos. Pero entre ahora y algún punto en el futuro, habrá un ‘período oscuro’ en el que la IA ofensiva tendrá una clara ventaja: quienes no hayan establecido una protección básica serán los primeros en ser comprometidos».

Es importante destacar que Mythos no es el único modelo con esta capacidad. Ya se han utilizado varios modelos de lenguaje grande para la detección de vulnerabilidades, incluyendo versiones anteriores de Claude y Big Sleep.

Mythos

Según esta persona, las vulnerabilidades de día cero (zero-day), que anteriormente requerían días e incluso semanas para identificar, junto con el proceso de escribir código de explotación para ellas, ahora pueden completarse en tan solo una hora, o incluso minutos, gracias a la IA. Las vulnerabilidades de día cero se refieren a defectos de seguridad que aún no han sido detectados por los defensores, por lo que hay casi ningún tiempo disponible para repararlos.

Actualmente, JPMorgan se centra principalmente en la cadena de suministro y el software de código abierto, y ha identificado varias vulnerabilidades, informando los problemas a los proveedores correspondientes.

El CEO de la empresa, Jamie Dimon, dijo en la conferencia telefónica de resultados que la aparición de Mythos "demuestra que aún existen muchas vulnerabilidades que deben corregirse".

Mythos

Según una fuente informada, JPMorgan Chase ya había establecido comunicación con Anthropic para discutir la prueba del modelo antes de que el público supiera de la existencia de Mythos. La fuente pidió anonimato porque no tiene autorización para hablar públicamente. JPMorgan Chase se negó a comentar.

Actualmente, otros bancos de Wall Street y empresas tecnológicas también están intentando utilizar Mythos para corregir defectos del sistema antes de que los hackers descubran vulnerabilidades. Según Bloomberg, instituciones financieras como Goldman Sachs, Citigroup, Bank of America y Morgan Stanley ya están probando esta tecnología internamente.

Los empleados de Cisco Systems están particularmente atentos a una pregunta: ¿los intrusos aprovecharán la IA para buscar vulnerabilidades en el software de los dispositivos de red que operan globalmente, como enrutadores, firewalls y módems? El director de seguridad y confianza de la empresa, Anthony Grieco, expresó su preocupación especial de que la IA acelere los ataques de hackers contra dispositivos cuyo ciclo de vida ha finalizado, los cuales ya no recibirán actualizaciones ni soporte de Cisco.

Sin embargo, cómo reparar las vulnerabilidades descubiertas por la IA seguirá siendo un desafío a largo plazo. Este proceso, conocido como «security patching», suele ser costoso y prolongado para las organizaciones, lo que lleva a muchas instituciones a ignorar las vulnerabilidades. Ataques catastróficos como el de Equifax, en el que se robaron los datos de aproximadamente 147 millones de personas, ocurrieron debido a que se conocían las vulnerabilidades pero no se repararon a tiempo.

Mythos

A pesar de haber sido clasificada por el gobierno de Trump como una "amenaza a la cadena de suministro" tras rechazar ayudar en la vigilancia masiva de ciudadanos estadounidenses, la empresa actualmente mantiene comunicación y colaboración con agencias federales.

El Departamento del Tesoro de EE. UU. busca obtener acceso a Mythos esta semana. El secretario del Tesoro, Scott Bessent, afirmó que este modelo ayudará a Estados Unidos a mantener su ventaja sobre otros países en el campo de la inteligencia artificial.

Mythos

En una prueba, Mythos escribió un código de ataque de navegador que enlazó cuatro vulnerabilidades distintas en una cadena de explotación completa: esta tarea es por sí misma extremadamente difícil para los hackers humanos. Los informes de seguridad cibernética indican que este tipo de "cadenas de vulnerabilidades" a menudo pueden traspasar los límites de sistemas altamente seguros, similar al método utilizado en el ataque Stuxnet contra las centrífugas de instalaciones nucleares iraníes.

Además, según Anthropic, bajo instrucciones explícitas, Mythos puede identificar y aprovechar vulnerabilidades de día cero en todos los navegadores principales.

Anthropic indicó que utilizó Mythos para descubrir vulnerabilidades en el código de Linux. Jim Zemlin señaló que Linux «sostiene la mayoría de los sistemas de cómputo actuales», desde smartphones Android y enrutadores de internet hasta supercomputadoras de la NASA, prácticamente en todas partes. Mythos puede descubrir de forma autónoma múltiples defectos en código abierto, y una vez explotadas estas vulnerabilidades, los atacantes pueden llegar a tomar el control total de la máquina.

Actualmente, decenas de personas de la Linux Foundation han comenzado a probar Mythos. Para Zemlin, una pregunta clave es: ¿pueden los modelos de Anthropic proporcionar suficientes conocimientos valiosos para ayudar a los desarrolladores a escribir software más seguro desde el origen, reduciendo así la aparición de vulnerabilidades?

“Somos muy buenos encontrando vulnerabilidades,” dijo, “pero somos malos arreglándolas.”