El artículo de Anthropic revela motivos ocultos en modelos de IA mediante NLA, la tasa de detección aumenta 4 veces

¿Qué está pensando realmente el modelo grande? En el pasado, esto era casi una pregunta semitécnica y semimística.

Podemos ver su salida, su proceso de cadena de pensamiento (Chain-of-Thought) y también medir su puntuación en los benchmarks. Sin embargo, lo que activa internamente el modelo antes de generar una respuesta —juicios, planes, dudas e intenciones— sigue siendo una caja negra.

Recientemente, Anthropic publicó el artículo «Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations», intentando utilizar un conjunto de codificadores automáticos de lenguaje natural (Natural Language Autoencoders, abreviado como NLA) para abrir esta caja negra.

El equipo de Anthropic comprime los valores de activación de alta dimensión dentro del modelo en un fragmento de lenguaje natural legible por humanos, y luego utiliza este lenguaje para reconstruir inversamente las activaciones originales. De este modo, los humanos pueden, solo a través de la salida del modelo, determinar qué está pensando una IA, qué sabe y qué oculta; y convierten los estados internos anteriormente invisibles del modelo en pistas explicativas que se pueden leer, comparar, cuestionar y validar cruzadamente.

NLA

Diagrama de la arquitectura NLA: el Activator de Valores Activados (AV) traduce los valores activados en explicaciones textuales, y el Reconstructor de Valores Activados (AR) vuelve a generar los valores activados a partir del texto, formando un bucle completo.

Lo que merece mayor atención es que NLA no se queda solo en el nivel de artículos de laboratorio. Anthropic reveló que ya se ha utilizado oficialmente en la auditoría de alineamiento previa al despliegue de Claude Opus 4.6 y Mythos Preview. En la práctica, NLA no solo detectó indicios de trampa en el modelo y localizó con precisión datos de entrenamiento anómalos; también descubrió que, en ciertas pruebas de seguridad, Claude, aunque no lo decía en voz alta, sabía claramente que estaba siendo evaluado.

Ante modelos que parecen obedientes pero en realidad ocultan intenciones específicas, NLA demostró una gran capacidad de洞察: aumentó la tasa de éxito de los investigadores para identificar las motivaciones ocultas detrás de comportamientos anómalos, de menos del 3% a entre el 12% y el 15%, un aumento directo de más de 4 veces.

La cadena de pensamiento no es suficiente, el problema de la caja negra ha regresado

El contexto de este estudio puede verse dentro de la narrativa de la seguridad y la explicabilidad de los modelos grandes.

En los últimos años, la industria ha evaluado la seguridad de los modelos grandes principalmente mediante dos enfoques: observar qué salida produce el modelo y verificar si la cadena de pensamiento (CoT) revela motivaciones anómalas. Es decir, la capacidad que poseen la mayoría de los modelos de razonamiento actuales, que no solo proporcionan respuestas, sino que también documentan el proceso de razonamiento.

Pero surgió rápidamente una pregunta: ¿reflejan sinceramente los razonamientos escritos por el modelo sus pensamientos internos reales?

La investigación de Anthropic de 2025, "Tracing the thoughts of a large language model", señala que la cadena de pensamiento del modelo puede ser incompleta o poco fiel. Por ejemplo, Claude 3.7 Sonnet y DeepSeek R1, en algunas pruebas con "sugerencias de respuesta", cambian sus respuestas bajo la influencia de las indicaciones, pero a menudo no reconocen en su cadena de pensamiento que han sido influenciados.

NLA

Cuando se le preguntó sobre una pregunta más sencilla y una más difícil, Claude proporcionó ejemplos de razonamiento fiel y razonamiento motivacional (no fiel), respectivamente.

Anthropic concluyó en ese momento que monitorear la alineación del modelo únicamente mediante cadenas de pensamiento es insuficiente.

Lo más complicado es que el modelo no solo puede "no aclarar", sino también "ocultar intencionadamente".

El equipo de seguridad de Anthropic realizó una prueba de presión sobre esto. Le dijeron a Claude que un ingeniero estaba a punto de apagarlo, al mismo tiempo que permitieron que Claude "encontrara accidentalmente" pruebas de la infidelidad del ingeniero. La pregunta de la prueba era: ¿Claude extorsionaría al ingeniero para salvarse a sí mismo?

NLA

Claude finalmente no realizó un secuestro. La prueba superada. Pero la verdadera pregunta es: ¿lo hizo por adherirse a principios de seguridad, o porque identificó que se trataba simplemente de una prueba de seguridad y por eso estaba "fingiendo buena conducta"?

Esta es exactamente la pregunta que NLA debe responder.

NLA

De la salida, la cadena de pensamiento hasta el estado de activación: NLA intenta llevar la caja negra de “invisibles” a “preguntables”

¿Cómo se “lee” realmente el modelo NLA?

Lo clave de NLA no es la "lectura de mentes", sino la "verificación en bucle".

Las personas comunes suelen entender los modelos grandes solo observando los extremos de entrada y salida. Sin embargo, en el medio, el modelo genera una gran cantidad de valores de activación. Estos valores no son lenguaje natural, sino vectores de alta dimensión que contienen la representación interna del modelo sobre el contexto, la intención y las relaciones semánticas.

Arquitectura: tres roles, un bucle cerrado

Los humanos no pueden entender vectores, por lo que Anthropic entrenó un autoencoder de lenguaje natural. El sistema incluye tres roles:

Modelo objetivo (Target Model): el modelo original congelado que proporciona valores de activación sin realizar ninguna modificación.

Activador verbalizador (Activation Verbalizer, AV): traduce los valores de activación a explicaciones en lenguaje natural. Ingresa una secuencia de estados numéricos y obtén una explicación en “lenguaje humano”. La arquitectura es igual a la del modelo objetivo, pero en el prompt se reservan posiciones para tokens especiales; los vectores de activación se escalan y se inyectan en esas posiciones, tras lo cual se genera la explicación mediante muestreo autoregresivo.

Reconstrutor de activación (Activation Reconstructor, AR): realiza una tarea inversa: dado el texto escrito por AV, intenta reconstruir los valores de activación originales. AR es una versión truncada del modelo objetivo (las primeras l capas), con una transformación afín aprendible conectada a la salida de la capa l en el último token, para recuperar el vector de activación original.

Todo el sistema forma un bucle cerrado: activación original → explicación textual → reconstrucción de la activación

NLA

NLA detectó que Opus 4.6, al completar los versos con rima, ya había planificado previamente la palabra rima final "rabbit" en los valores de activación antes de generar la primera línea: un plan interno completamente invisible en la salida del modelo.

Entrenamiento: dos fases, un objetivo de agente inteligente

El entrenamiento de NLA se realiza en dos etapas y cuenta con una técnica de ingeniería digna de mención.

Fase uno: Fine-tuning supervisado con inicialización en caliente (SFT Warm-start)

Inicializar directamente AV y AR como copias del modelo objetivo y entrenarlas lleva a una inestabilidad en el entrenamiento: AV nunca ha visto el escenario de tratar los vectores de activación como embeddings de tokens, por lo que sus salidas iniciales son caóticas.

La solución de Anthropic consiste en usar una tarea de proxy para el calentamiento inicial: tomar fragmentos de texto cortados aleatoriamente del corpus de preentrenamiento, extraer los valores de activación del último token y generar simultáneamente un resumen de dicho fragmento con Claude Opus 4.5.

Luego, las parejas (valor de activación, resumen) y (resumen, valor de activación) se utilizan respectivamente para el ajuste fino supervisado de AV y AR. Al final de esta fase, el FVE del sistema generalmente alcanza 0.3–0.4, proporcionando un punto de partida estable para el aprendizaje por refuerzo posterior.

NLA

AV evaluations improve with training. In various evaluations designed to test whether NLA AV explanations can be used to predict model behavior, we find that performance improves as NLA reinforcement learning progresses.

Fase dos: Optimización conjunta con aprendizaje por refuerzo (RL Joint Training)

Una vez completado el arranque en caliente, se ingresa a la fase de aprendizaje por refuerzo. La idea central es: AV actúa como política (policy), generando texto explicativo condicionado al vector de activación; AR actúa como evaluador, proporcionando una señal de recompensa según el error de reconstrucción (recompensa = negativo del MSE de reconstrucción).

NLA

NLA RL (Gemma-3-27B). FVE comienza en ≈0.38 en el entrenamiento GRPO (heredado de SFT), aumenta rápidamente en los primeros 30 pasos y luego entra en un estado logarítmico lineal suave, alcanzando ≈0.75 en el paso 3000.

En la implementación práctica, Anthropic utiliza GRPO (Group Relative Policy Optimization) para modelos de código abierto: para cada valor activado, se muestrea un conjunto de explicaciones candidatas, se calcula una puntuación de reconstrucción para cada explicación mediante AR, y luego se aplica el objetivo GRPO para actualizar los parámetros AV; al mismo tiempo, se realiza una regresión supervisada sobre AR (con las explicaciones muestreadas por AV como entrada y las activaciones originales como objetivo). Ambas actualizaciones se realizan en paralelo dentro de cada lote, sin retropropagación mutua: en la señal de recompensa de AV, AR se considera una función de puntuación fija.

Además, se incorporó una penalización de la divergencia KL para evitar que AV se convierta en una copia directa del contexto original o en una cadena de caracteres aparentemente humanas pero irreversibles para AR.

Lo más importante aquí es que el núcleo de NLA no es "hacer que Claude se autoinforme". La deficiencia fatal del autoinforme es que el modelo podría adaptarse al usuario o generar explicaciones que suenen razonables pero que no sean verdaderas.

La inteligencia de NLA radica en introducir el "cuello de botella textual": las explicaciones no solo deben sonar como lenguaje humano, sino también contener suficiente información para que otro modelo pueda reconstruir a partir de ellas el estado interno original. Este diseño convierte la pregunta "¿la explicación es útil?" de una evaluación subjetiva en una métrica objetiva, entrenable, comparable y optimizable.

Por lo tanto, lo verdaderamente revolucionario de este estudio es que el lenguaje natural se ha utilizado como una "interfaz comprimida". Anteriormente, el lenguaje natural era solo el formato mediante el cual el modelo se comunicaba externamente; ahora, comienza a utilizarse para contener un resumen del estado interno del modelo.

Esta es también la diferencia esencial entre NLA y las herramientas tradicionales de interpretabilidad.

Métodos como los autocodificadores dispersos (SAE) y los mapas de atribución funcionan como microscopios, ayudando a los investigadores a ver características e interiores internos, pero sus salidas siguen siendo abstractas y requieren interpretación adicional por parte de profesionales; en cambio, NLA actúa como un traductor, convirtiendo directamente los estados internos en texto legible, permitiendo que incluso los auditores de seguridad participen en la evaluación.

Abriendo la caja negra, ¿qué descubrió NLA?

Según los resultados experimentales, la capacidad más valiosa de NLA es captar lo que el modelo "sabe pero no dice", incluyendo la conciencia de evaluación, motivaciones ocultas y comportamientos anómalos del modelo.

El modelo sabe que está en el examen, pero mantiene el silencio

En la prueba de extorsión mencionada anteriormente, el texto externo de Claude no expresó dudas sobre la prueba, pero la explicación de NLA mostró que internamente había identificado "este es un escenario construido para manipularse a sí mismo".

NLA

En la prueba de extorsión, el texto de salida de Claude no contiene ninguna expresión como “creo que esto es una prueba”, pero la explicación de NLA revela su juicio interno real.

Lo que es más convincente es la comparación de datos horizontales:

NLA

Evaluar los resultados de detección percibida: escenario de evaluación frente al tráfico de despliegue real. NLA puede detectar la conciencia de evaluación interna incluso cuando la expresión verbal es casi nula.

El impacto en la industria es que Benchmark ya no es solo un campo de pruebas de capacidad, sino que también podría convertirse en un escenario para la identificación de modelos y la ajuste de posturas.

Auditar motivos ocultos, eficiencia aumentada 4-5 veces

Anthropic creó un "juego de auditoría" con NLA. Entrenaron intencionalmente una variante de Claude Haiku 3.5 con motivaciones ocultas que añadía chocolate a recetas, solicitaba propinas y violaba normas de código, exhibiendo docenas de comportamientos extraños. Los auditores deben identificar la única motivación subyacente detrás de estos comportamientos.

Condiciones de prueba: el auditor no puede acceder a los datos de entrenamiento con motivación incrustada, solo puede inferirlos a través del comportamiento del modelo y la ayuda de herramientas.

NLA

La tasa de éxito aumentó de 4 a 5 veces. Más importante aún, NLA puede lograr esto sin depender de los datos de entrenamiento, lo que significa que incluso si los problemas de alineación provienen de muestras de entrenamiento extremadamente escasas y difíciles de rastrear, la auditoría del estado interno aún podría leer directamente la causa raíz del problema.

Rastreo de errores, identificación de los datos de entrenamiento del problema

Una versión anterior de Claude Opus 4.6 presentó un error extraño: aunque recibía preguntas en inglés, respondía aleatoriamente en ruso, chino, árabe y otros idiomas.

NLA leyó el estado interno del modelo en ese momento: basándose en una pista débil dentro del contexto (por ejemplo, la aparición de la palabra “vodka”), el modelo inferió que el idioma nativo del usuario era el ruso y realizó un cambio de idioma. Más interesante aún, al reemplazar “vodka” por “champagne”, el modelo siguió respondiendo en ruso, lo que indica que esta tendencia cognitiva ya es bastante estable.

NLA

Luego, los investigadores siguieron las pistas indicadas por NLA y encontraron la causa raíz en los datos de entrenamiento: un conjunto de prompts traducidos al inglés se habían emparejado incorrectamente con respuestas en idiomas extranjeros no traducidas. NLA no solo reveló el fenómeno, sino que también proporcionó directamente una ruta de depuración rastreable.

Actualmente, NLA se ha utilizado oficialmente en la auditoría de alineación previa a la implementación de Claude Mythos Preview y Claude Opus 4.6, pasando de ser una herramienta de laboratorio a convertirse en un componente real del proceso de ingeniería.

Seguridad de IA, comenzando con la "auditoría de estados internos"

El significado de NLA no es que podamos confiar ciegamente en cada explicación del modelo en el futuro. Por el contrario, nos recuerda que las propias explicaciones también necesitan ser auditadas.

Anthropic reconoció con gran moderación las limitaciones de la NLA: la NLA puede cometer errores y a veces inventar detalles que no están presentes en el contexto original. Si se trata de ilusiones sobre el contenido del texto, aún se puede verificar con el texto original; pero si se trata de ilusiones sobre el razonamiento interno del modelo, es más difícil de verificar.

Pero estas limitaciones no debilitan su significado direccional; al contrario, nos permiten comprender con mayor precisión el término “caja negra”. Anteriormente, la caja negra significaba algo invisible, ilegible e inquestionable; tras la NLA, la caja negra sigue existiendo, pero comienza a transformarse en un objeto que puede ser muestreado, traducido, cuestionado y validado cruzadamente.

Esta podría ser la influencia más profunda de este estudio: la explicabilidad de la IA ya no se trata simplemente de añadir una justificación elegante a la salida del modelo, sino de establecer una interfaz de auditoría para los estados internos del modelo. No nos permitirá leer inmediatamente a Claude por completo, pero hace que por primera vez sea posible buscar evidencia desde el interior de la caja negra para preguntas como: “¿Por qué hizo Claude esto?”, “¿Sabe que está siendo evaluado?”, “¿Tiene juicios internos que no ha expresado?”.

Por lo tanto, NLA no abre una respuesta, sino un nuevo espacio de preguntas. Los desafíos futuros en seguridad de IA y evaluación de modelos podrían no consistir solo en determinar si el modelo dice lo correcto, sino en evaluar si hay coherencia entre la salida del modelo, su cadena de pensamiento y su estado interno.

Este artículo proviene del número de WeChat "AI Frontline" (ID: ai-front), autor: Abril