OpenAI califica accidentalmente el razonamiento de los modelos de IA y descubre que no hay pérdida de monitorización

OpenAI reveló que varios de sus modelos de IA, incluidos GPT-5.4 Thinking y varias iteraciones de GPT-5.4, experimentaron calificación accidental de cadena de pensamiento durante el entrenamiento de aprendizaje por refuerzo. Los análisis internos no encontraron una degradación significativa en la capacidad de los modelos para mostrar su razonamiento.

Los incidentes afectaron menos del 3,8% de las muestras de entrenamiento en los modelos más impactados. Una pequeña fracción del proceso de entrenamiento recompensó o sancionó accidentalmente a los modelos según sus pasos de razonamiento interno, en lugar de solo sus resultados finales.

¿Qué pasó realmente?

La calificación accidental adoptó formas limitadas. Algunas ejecuciones de entrenamiento recompensaron la utilidad de la trayectoria, otorgando esencialmente un pulgar hacia arriba a los modelos por lo útiles que parecían sus caminos de razonamiento. Otras penalizaron indicaciones innecesarias dentro de la cadena de pensamiento. El caso de prueba más notable mostró una tasa de activación de aproximadamente un 2% para penalizar referencias a la trampa en la cadena de pensamiento.

El equipo interno de OpenAI ejecutó escaneos automatizados en todos sus procesos de aprendizaje por refuerzo para examinar el impacto en la transparencia del razonamiento. Los modelos aún podían rastrear confiablemente el razonamiento lógico, y la capacidad de detectar posibles desalineaciones permaneció funcionalmente intacta.

El ecosistema de seguridad responde

Organizaciones externas como METR, Apollo Research y Redwood Research aportaron conocimientos a los hallazgos. Redwood Research reconoció que los incidentes menores no afectaron la monitorización, pero señaló que el razonamiento cadena-de-pensamiento, como medida de seguridad, tiene vulnerabilidades inherentes.

Anthropic publicó un informe en abril de 2026 que examina dinámicas similares en sus propios modelos. OpenAI ha intensificado sus medidas de detección desde diciembre de 2025 para prevenir errores futuros en la calificación. La empresa ha implementado ahora sistemas de detección automatizados y salvaguardias internas diseñados específicamente para detectar la contaminación por calificación CoT antes de que pueda influir en el entrenamiento a gran escala.

Qué significa esto para los tokens de cripto y AI

No se observó una reacción inmediata del mercado en los activos cripto relacionados con IA tras el anuncio. Los modelos de IA están cada vez más integrados en aplicaciones de cadena de bloques, incluyendo auditorías de contratos inteligentes, agentes de IA descentralizados y sistemas de negociación automatizada, todos los cuales dependen de IA que razona de manera correcta y transparente.

El hecho de que la monitorabilidad se mantuviera intacta es la lección clave para cualquier persona que desarrolle o invierta en proyectos de cripto integrados con IA. Significa que la infraestructura de seguridad alrededor de los modelos de razonamiento está detectando problemas antes de que se vuelvan sistémicos.