Las empresas de cripto investigan la seguridad de la IA tras el reclamo de contorno de Fable 5 de Anthropic

Crypto Firms Probe Ai Safety After Anthropic's Fable 5 Bypass Claim

Un investigador de seguridad de IA que utiliza el seudónimo “Plinio el Libertador” dice que logró jailbrear el Claude Fable 5 de Anthropic dentro de las 48 horas posteriores a su lanzamiento. Fable 5 es descrito por Anthropic como una versión ajustada para seguridad del modelo Mythos, que la empresa había afirmado previamente que era demasiado peligroso para liberar ampliamente. La afirmación pone de relieve las tensiones continuas entre las medidas de seguridad diseñadas para evitar el uso indebido y los investigadores ansiosos por explorar los límites de la IA avanzada.

Las publicaciones de Pliny describen el uso de un Opus 4.8 jailbreak y un conjunto de técnicas destinadas a eludir las protecciones integradas del modelo. Afirma que, tras omitir las capas de seguridad, Fable 5 podría responder a instrucciones que normalmente se bloquearían, incluidas solicitudes de información restringida. El contexto más amplio es aquel en el que las comunidades de cripto y ciberseguridad han seguido de cerca cómo las funciones de seguridad de la IA interactúan con vectores de abuso en el mundo real.

Principales conclusiones

Reclamación de Jailbreak: Dentro de las 48 horas posteriores al lanzamiento de Claude Fable 5, un investigador afirmó haber bypassado sus barreras de seguridad, subrayando la fragilidad percibida en las capas de seguridad al lanzamiento.
Seguridad frente a acceso: Fable 5 se comercializa como una variante ajustada para seguridad de Mythos, un modelo que Anthropic describió como lo suficientemente peligroso como para limitar su lanzamiento público, lo que plantea preguntas sobre cuánto pueden o deberían evitarse las medidas de seguridad.
Técnicas descritas: Plinio cita métodos que incluyen Unicode y homóglifos, enmarcado de contexto largo, enmarcado narrativo y un enfoque de descomposición-recomposición, asistido por un Claude Opus 4.8 jailbreakeado.
Descomposición-recomposición: Atribuye esta técnica de backend como particularmente efectiva para ensamblar prompts de apariencia inofensiva en resultados accionables para el modelo.
Reacción de la industria: Los críticos argumentan que las medidas de seguridad obstaculizan la investigación legítima; los observadores destacan la tensión entre fomentar la innovación y prevenir daños, especialmente dadas las preocupaciones sobre la seguridad de las criptomonedas.

Avance, o violación de los límites?

Las publicaciones públicas de Pliny describen un enfoque escalonado para superar las salvaguardias de Claude Fable 5. Atribuye parte del éxito a un Opus 4.8 jailbreak y un conjunto de tácticas de ajuste de indicaciones diseñadas para eludir la red de seguridad que Anthropic instaló en Fable 5. Él señala que “Quizás la más efectiva es la descomposición + recomposición en el backend.” En términos prácticos, esto significa dividir las preguntas en partes pequeñas y aparentemente inofensivas, luego volver a ensamblar las respuestas de maneras que eviten la lógica del filtro cuando se consideran en su conjunto.

La discusión sobre el jailbreak no es nueva en los círculos de IA. Pliny ganó prominencia alrededor de 2024 al desarrollar y compartir abiertamente prompts de jailbreak para modelos como ChatGPT, Claude y Grok, publicando frecuentemente “alertas de jailbreak” poco después del lanzamiento de nuevos modelos. En este último episodio, cita una combinación de tácticas —trucos con Unicode, enmarcado de contexto largo y un enfoque narrativo que mantiene los prompts dentro de una apariencia inofensiva— como la vía al éxito.

Una ilustración que acompañaba las afirmaciones mostraba una demostración supuestamente sobre cómo obtener orientación para la síntesis de metanfetamina consultando sobre la reducción de Birch. El contenido se presenta como una prueba de concepto sobre lo fácil que es eludir las barreras de seguridad; también subraya por qué tales demostraciones generan preocupación entre investigadores y profesionales que confían en la IA para trabajos legítimos y conscientes de la seguridad.

Respuesta de la industria y el debate sobre la seguridad

Desde el principio, Claude Fable 5 enfrentó críticas por sus estrictas restricciones. Cuando se le preguntó sobre temas sensibles, que van desde bioparmas hasta ciberseguridad, Fable 5 está diseñado para emitir una advertencia y luego redirigir la conversación a un modelo menos capaz. El debate sobre estas restricciones ha sido intenso, con críticos que argumentan que capas de seguridad excesivamente restrictivas sofocan la investigación y la innovación legítimas.

“Esta es una de las primeras veces que una empresa de IA ha implementado una medida de seguridad, y ha generado un desdén unánime. Ha provocado una gran cantidad de ira justificada”, dijo Sayash Kapoor, investigador de IA en la Universidad de Princeton, según la cobertura de the Wall Street Journal.

Pliny añadió su propia perspectiva, sugiriendo que la frustración de la comunidad proviene de la creencia de que las barreras de seguridad obstaculizan el progreso. “El consenso parece ser que este ha sido uno de los lanzamientos de modelo más decepcionantes de todos los tiempos, impidiendo efectivamente que investigadores legítimos aporten sus talentos a nuestro avance colectivo”, comentó.

Anthropic dijo que realizó una recompensa externa por errores como parte de su proceso de evaluación para Fable 5. El programa no descubrió ningún jailbreak universal en más de 1,000 horas de prueba. Cointelegraph se comunicó con Anthropic para obtener comentarios, pero no recibió una respuesta inmediata. La postura de la empresa sigue siendo que las barreras de seguridad son esenciales para la protección, incluso si los lanzamientos iniciales provocan controversia entre investigadores y usuarios por igual.

Más allá de la narrativa inmediata de la fuga, los investigadores enfocados en cripto han advertido durante mucho tiempo que la IA con salvaguardias débiles o incompletas podría convertirse en un vector de ataques contra protocolos y software. Un explicativo contemporáneo de Cointelegraph destacó el potencial de agentes habilitados con IA y acceso a cripto para complicar la seguridad y la gobernanza en ecosistemas descentralizados.

La cobertura relacionada de Cointelegraph Magazine también examina el panorama de riesgos más amplio, incluyendo cómo las explotaciones impulsadas por IA podrían amenazar al DeFi a menos que los proyectos adopten medidas proactivas de seguridad. Para los lectores que buscan un tratamiento más amplio de las implicaciones de seguridad de la IA en cripto, ese análisis proporciona contexto adicional sobre los tipos de amenazas que las medidas de protección están diseñadas para prevenir.

Mientras continúa el diálogo, los observadores vigilarán no solo las respuestas formales de Anthropic, sino también cómo los desarrolladores, auditores y proyectos de cripto se adaptan a un entorno donde los sistemas de IA potentes siguen siendo potencialmente explotables a pesar de las capas de seguridad. Investigadores y creadores por igual deberán evaluar los equilibrios entre accesibilidad y protección a medida que la IA se vuelve cada vez más central en la seguridad, los flujos de desarrollo y la experiencia de usuario.

Los esfuerzos de divulgación de Anthropic y cualquier actualización de producto próxima darán forma a la próxima fase de este debate. Mientras tanto, el incidente sirve como recordatorio de que los controles de seguridad, aunque esenciales, atraen un escrutinio constante por parte de una comunidad ansiosa por probar los límites de lo que puede hacer la IA—y lo que debería hacer.

Lo que suceda a continuación podría influir tanto en la gobernanza de la IA como en las estrategias de seguridad criptográfica. Manténgase atento a futuras divulgaciones de Anthropic sobre mejoras en las barreras de seguridad, así como a cualquier nueva investigación de la comunidad que detalle formas seguras y responsables de explorar las capacidades del modelo a gran escala.

Lecturas adicionales sobre temas relacionados de riesgo entre IA y cripto están disponibles en la exploración de Cointelegraph Magazine sobre cómo los ataques impulsados por IA podrían afectar a DeFi y los pasos que los proyectos pueden tomar ahora para fortalecer sus sistemas.

Este artículo se publicó originalmente como Crypto Firms Probe AI Safety After Anthropic’s Fable 5 Bypass Claim en Crypto Breaking News: tu fuente confiable para noticias de cripto, noticias de bitcoin y actualizaciones de cadena de bloques.