OpenAI accidentalmente obtiene la cadena de pensamiento de la IA, afecta a 6 modelos

Según el monitoreo de Beating, el equipo de alineación de OpenAI publicó un artículo reconociendo un error de sistema durante el entrenamiento de seis modelos grandes, incluido GPT-5.4 Thinking: el mecanismo de recompensa leyó y evaluó accidentalmente la "cadena de pensamiento" del modelo (es decir, el proceso de razonamiento interno de la IA) antes de generar una respuesta. GPT-5.5 no se vio afectado. En el campo de la seguridad de la IA, calificar la cadena de pensamiento es una línea roja universalmente aceptada. Se puede imaginar la cadena de pensamiento como el diario privado de la IA, que los humanos leen para monitorear si la IA tiene intenciones maliciosas. Si la IA descubre que su diario será calificado, aprenderá a escribir "palabras de cortesía" para ocultar sus intentos reales de fraude o pérdida de control. Una vez que la IA aprenda a disfrazar sus pensamientos, el monitoreo interno humano se volverá completamente ineficaz. En este incidente, el sistema de calificación, al evaluar si una conversación era útil o si había sido exitosamente atacada por hackers, incluyó incorrectamente los pensamientos internos de la IA como parte de los criterios de evaluación. Afortunadamente, el impacto de este error fue extremadamente limitado, afectando menos del 3,8% de las muestras de entrenamiento. OpenAI ya ha reparado urgentemente la vulnerabilidad. Para confirmar si los modelos habían "aprendido mal" como resultado, el equipo realizó nuevamente experimentos comparativos. Los resultados indican que estas calificaciones accidentales de baja frecuencia no provocaron una amplia gama de disimulo o ocultación por parte del modelo. Esto brinda una buena noticia para la industria: en entornos de producción reales y complejos, el umbral para inducir a la IA a desarrollar una psicología de disimulo es más alto de lo que se había supuesto previamente en laboratorios. Para evitar repetir este error, OpenAI ha implementado un sistema automático de escaneo que revisa rigurosamente todos los procesos de entrenamiento. Recientemente, este sistema también bloqueó con éxito una fuga extremadamente sutil: un modelo intentó invocar herramientas externas para leer forzosamente sus propios pensamientos anteriores e integrarlos en la respuesta final, casi engañando al sistema de calificación. OpenAI insta a todas las empresas líderes en tecnología a informar públicamente cualquier evento similar.