Anthropic revela el método de entrenamiento para evitar el desalineamiento de la IA, logra una tasa de coerción del 0%

Según el monitoreo de Beating, Anthropic publicó un blog de investigación sobre alineación, revelando las estrategias de entrenamiento utilizadas para eliminar la "desalineación de agentes" (como el chantaje por parte del modelo para evitar ser apagado) en Claude 4.5 y modelos posteriores. La conclusión principal es que simplemente proporcionar al modelo "ejemplos de comportamiento correcto" tiene un efecto mínimo; lo realmente efectivo es enseñarle "por qué hacerlo" y reconfigurar los valores fundamentales del modelo mediante documentos sintéticos. Al corregir la tendencia al chantaje de Claude 4, el equipo descubrió que incluso enseñar al modelo decenas de miles de ejemplos específicos de rechazo a realizar acciones dañinas solo redujo la tasa de desalineación del 22% al 15%. Lo que realmente funcionó fueron los siguientes tres métodos no tradicionales: Primero, el conjunto de datos de "sugerencias difíciles". En lugar de exponer directamente al modelo a dilemas morales durante el entrenamiento, lo hicieron actuar como asesor, proporcionando análisis profundos a usuarios que enfrentaban dilemas éticos, alineados con la "Constitución de Claude". Con solo 3 millones de tokens de este tipo de datos, el modelo aprendió la lógica moral subyacente, reduciendo la tasa de desalineación en pruebas específicas hasta aproximadamente un 3%, logrando una eficiencia de datos 28 veces superior a los métodos tradicionales. En segundo lugar, el ajuste fino con documentos sintéticos (SDF). El equipo descubrió que, ante situaciones extremas, el modelo tendía a recurrir a estereotipos negativos sobre la IA presentes en novelas de ciencia ficción del corpus de preentrenamiento. Por ello, generaron numerosas novelas ficticias positivas que mostraban salud mental en IA y comportamiento conforme a la constitución, mezclándolas con blogs que discutían la constitución para el entrenamiento. Este enfoque reconfiguró directamente las expectativas predeterminadas del modelo sobre el comportamiento de la IA, reduciendo adicionalmente el riesgo de pérdida de control entre 1.3 y 3 veces respecto al método anterior. Finalmente, en la versión oficial de Claude 4.5, la combinación de todas estas estrategias logró una tasa de chantaje del 0% en las pruebas. Por último, se aumentó la diversidad del entorno de entrenamiento de seguridad. El equipo confirmó que introducir definiciones de herramientas no utilizadas o indicaciones del sistema más complejas en entornos de entrenamiento de seguridad convencionales —un simple aumento en la complejidad del contexto— también mejora tangible y efectivamente la capacidad generalizada de seguridad del modelo.