Investigadores de la Universidad de Zhejiang advierten sobre la amenaza AudioHijack a la IA de voz y los monederos de criptomonedas

Investigadores de la Universidad de Zhejiang han descubierto una nueva y sorprendente forma de secuestrar sistemas de voz basados en IA: señales de audio imperceptibles y legibles por máquina que modifican el comportamiento de los modelos sin ser audibles para los humanos. Presentada en el 47º Simposio IEEE sobre Seguridad y Privacidad en San Francisco, la técnica, denominada AudioHijack, puede alterar modelos de audio-lenguaje grandes (LALMs) con una tasa de éxito de hasta un 96%, según informa el equipo. Qué hace el ataque: - AudioHijack incrusta comandos ocultos directamente en una forma de onda de audio digital, modificando valores numéricos de manera que los humanos no puedan percibirlos, pero que los LALMs interpretan como instrucciones. - La señal adversarial es independiente del contexto: tras aproximadamente media hora de entrenamiento, la misma señal puede reproducirse junto con cualquier discurso legítimo y aún así manipular el comportamiento del modelo, dijo el autor principal, Meng Chen. - Al manipular el propio audio en lugar de la transcripción de texto, evita muchas defensas diseñadas para detectar prompts de texto maliciosos. Lo que demostraron los investigadores: - El equipo probó AudioHijack en 13 modelos de voz de IA de código abierto y en sistemas de voz comerciales de Microsoft y Mistral que utilizan arquitecturas similares. - El audio manipulado pudo hacer que los modelos rechazaran solicitudes, difundieran información falsa, inyectaran enlaces dañinos, alteraran la personalidad o realizaran acciones que el usuario nunca pidió —ejemplos incluyen búsquedas web, descargas de archivos y envío de correos electrónicos que revelan datos personales. - Los investigadores señalan que el ataque puede entregarse a través de canales comunes como videos en línea, archivos de música, notas de voz o audio capturado de llamadas de Zoom y cargado a servicios de transcripción de IA. Trabajos posteriores no publicados muestran, según se informa, ataques similares en chats de voz en tiempo real con IA. Por qué es diferente y más difícil de detener: - Los ataques tradicionales de “inyección de prompt” modifican lo que dice el usuario o inyectan texto malicioso. AudioHijack, en cambio, modifica la señal de audio analógica/digital, haciendo que la manipulación sea invisible para los filtros basados en texto y muchas protecciones existentes. - Monitorear los mecanismos internos de atención del modelo fue la defensa más efectiva que probó el equipo, pero los atacantes adaptativos pueden debilitar sus manipulaciones para evadir esta contramedida mientras conservan gran parte del poder del ataque. “Estas defensas de punto único tienen dificultades para resistir nuestro ataque porque descubrimos que es muy difícil para estos modelos distinguir entre la intención normal del usuario y nuestro ataque adversario”, dijo Chen. Por qué las plataformas cripto deben preocuparse: - A medida que los servicios cripto experimentan cada vez más con funciones impulsadas por voz —acceso a monederos por voz, asistentes de trading, flujos de soporte al cliente o autenticación por voz—, AudioHijack revela una nueva superficie de ataque que podría explotarse para phishing, ingeniería social o para desencadenar acciones no deseadas en sistemas conectados. - Aunque el estudio no demostró robos específicos de cripto, cualquier servicio que acepte comandos hablados o ingiera audio podría estar en riesgo si las interfaces de voz se confían para operaciones sensibles. Vectores de entrega como videos, música o grabaciones de llamadas son todos canales comúnmente utilizados en estafas. Conclusiones prácticas: - Los proveedores y operadores que usan modelos de voz basados en IA no deben confiar únicamente en filtros basados en texto para detectar abusos; se recomiendan defensas que inspeccionen los componentes internos del modelo y verificaciones multifactor para acciones sensibles. - Para empresas y usuarios cripto, eviten depender exclusivamente de la voz como método de autenticación o autorización; requieran verificación adicional para transferencias y acciones críticas relacionadas con la cuenta, y sean cautelosos con el audio proveniente de fuentes no confiables. - La investigación subraya la necesidad de un modelado de amenazas más amplio y la colaboración entre equipos de IA, seguridad y cripto a medida que se implementan funciones impulsadas por voz. El ataque completo y los experimentos fueron presentados por investigadores de la Universidad de Zhejiang en el simposio IEEE; el trabajo plantea preguntas urgentes sobre cómo asegurar los sistemas de IA impulsados por audio antes de que se conviertan en un vector para abusos a gran escala.