Anthropic revela una tasa de secuestro del 31,5% para el agente de navegador Opus 4.8 antes de las medidas de seguridad

Casi uno de cada tres intentos de secuestrar el agente de navegador más reciente de Anthropic tuvo éxito antes de que se activaran las medidas de seguridad. Eso no es un rumor de un canal de Slack de un equipo rojo. Es un número que Anthropic publicó en su propia ficha del sistema.

La empresa lanzó la ficha del sistema Claude Opus 4.8 el 28 de mayo, que abarca 244 páginas y cubre cuatro superficies agentes. La tasa de secuestro previa a las salvaguardias para el agente de navegador alcanzó el 31,5%. Para expresarlo en términos sencillos: si un actor malicioso dirigía un ataque de inyección de indicaciones al modelo mientras navegaba por la web, el ataque tenía éxito aproximadamente un tercio de las veces, asumiendo que no estaban activas capas defensivas.

La brecha de transparencia en los laboratorios fronterizos

Aquí está la cuestión. Ese 31.5% parece malo si se mira por separado. Pero Anthropic es el único laboratorio de vanguardia que realmente proporcionó a los profesionales de seguridad un número concreto con qué trabajar esta primavera.

OpenAI publicó una divulgación sobre inyección de indicaciones que cubrió solo una superficie: conectores. Google trasladó todo el tema fuera de su tarjeta de modelo y hacia un documento de marco de seguridad más amplio, diluyendo efectivamente la especificidad. Meta no lanzó ninguna tarjeta de modelo cerrado en absoluto.

Anuncio

Qué hacen realmente las medidas de seguridad

La cifra del 31,5% es una medición previa a las medidas de protección, lo cual es un contexto importante. Representa la superficie de vulnerabilidad bruta del modelo antes de que los sistemas de defensa en capas de Anthropic entren en acción.

Las pruebas posteriores a la protección en un modelo relacionado, Opus 4.5, mostraron que las tasas de éxito de los ataques disminuyeron a aproximadamente el 1%. Esto representa una reducción de aproximadamente el 97% respecto a la línea base sin protección.

La inyección de prompts sigue siendo el principal desafío de seguridad para los sistemas de IA con capacidades agentes. Cuando un modelo puede navegar por sitios web, completar formularios o ejecutar tareas de múltiples pasos en nombre de un usuario, una inyección exitosa puede redirigir toda esa agencia hacia los objetivos de un atacante.

Las versiones anteriores de las fichas del sistema de Anthropic, incluido el informe Opus 4.7, también incluían métricas cuantificadas de resistencia a inyecciones. La empresa ha estado construyendo un historial de publicación consistente de estos números, lo que hace que los datos sean más útiles con el tiempo como una línea de tendencia en lugar de una sola instantánea.

Por qué esto es importante para las plataformas integradas de cripto y IA

La industria cripto está hasta el cuello en integraciones de agentes de IA. Bots de trading autónomos, gestores de cartera impulsados por IA, analizadores de datos en cadena y agentes DeFi que ejecutan transacciones basadas en instrucciones en lenguaje natural están ya en funcionamiento o en desarrollo en docenas de protocolos.

Una tasa de secuestro previa a la protección del 31,5% debería hacer que cada equipo que desarrolla estos productos se detenga. Si su agente de IA navega por fuentes de datos externas, analiza contenido en cadena proveniente de contratos inteligentes potencialmente adversarios o lee contenido generado por usuarios en foros y plataformas sociales, la inyección de indicaciones no es un riesgo teórico. Es un riesgo medido.

La mejora post-protección hasta aproximadamente el 1% es alentadora, pero lleva una advertencia. Ese número proviene del entorno de pruebas propio de Anthropic. Las condiciones de implementación en el mundo real, donde los agentes interactúan con contenido web caótico y no controlado, y los adversarios tienen incentivos financieros medidos en millones, someterán esas defensas a pruebas diferentes a las de un ejercicio de red-team.

Para los inversores que evalúan proyectos criptográficos relacionados con la IA, la brecha de transparencia entre los laboratorios es en sí misma una señal. Los protocolos que se construyen sobre modelos de Claude pueden al menos referirse a datos de seguridad publicados y explicar sus estrategias de mitigación. Los proyectos que dependen de modelos de laboratorios que no han publicado datos comparables están pidiendo a los usuarios que confíen en una caja negra.