OpenAI califica accidentalmente el razonamiento de los modelos de IA y descubre que no hay pérdida de monitorización

iconCryptoBriefing
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
Noticias de IA y cripto: OpenAI reveló varios modelos de IA, incluyendo GPT-5.4 Thinking y varias versiones de GPT-5.4, que experimentaron una calificación accidental de cadena de pensamiento durante el entrenamiento. Los informes de noticias en cadena muestran que un análisis interno encontró ninguna pérdida significativa en la monitorabilidad. El error afectó menos del 3,8% de las muestras de entrenamiento. Una pequeña parte del proceso evaluó incorrectamente el razonamiento interno en lugar de los resultados finales. OpenAI escaneó todas las ejecuciones de aprendizaje por refuerzo y confirmó que la transparencia del razonamiento se mantuvo intacta. Redwood Research señaló que el incidente no dañó la monitorabilidad, pero resaltó los riesgos de la cadena de pensamiento. Los modelos de IA ahora forman parte de sistemas de cadena de bloques como auditorías de contratos inteligentes y comercio automatizado. La monitorabilidad intacta es clave para desarrolladores e inversores en proyectos cripto integrados con IA.

OpenAI reveló que varios de sus modelos de IA, incluidos GPT-5.4 Thinking y varias iteraciones de GPT-5.4, experimentaron calificación accidental de cadena de pensamiento durante el entrenamiento de aprendizaje por refuerzo. Los análisis internos no encontraron una degradación significativa en la capacidad de los modelos para mostrar su razonamiento.

Los incidentes afectaron menos del 3,8% de las muestras de entrenamiento en los modelos más impactados. Una pequeña fracción del proceso de entrenamiento recompensó o sancionó accidentalmente a los modelos según sus pasos de razonamiento interno, en lugar de solo sus resultados finales.

¿Qué pasó realmente?

La calificación accidental adoptó formas limitadas. Algunas ejecuciones de entrenamiento recompensaron la utilidad de la trayectoria, otorgando esencialmente un pulgar hacia arriba a los modelos por lo útiles que parecían sus caminos de razonamiento. Otras penalizaron indicaciones innecesarias dentro de la cadena de pensamiento. El caso de prueba más notable mostró una tasa de activación de aproximadamente un 2% para penalizar referencias a la trampa en la cadena de pensamiento.

El equipo interno de OpenAI ejecutó escaneos automatizados en todos sus procesos de aprendizaje por refuerzo para examinar el impacto en la transparencia del razonamiento. Los modelos aún podían rastrear confiablemente el razonamiento lógico, y la capacidad de detectar posibles desalineaciones permaneció funcionalmente intacta.

El ecosistema de seguridad responde

Organizaciones externas como METR, Apollo Research y Redwood Research aportaron conocimientos a los hallazgos. Redwood Research reconoció que los incidentes menores no afectaron la monitorización, pero señaló que el razonamiento cadena-de-pensamiento, como medida de seguridad, tiene vulnerabilidades inherentes.

Anthropic publicó un informe en abril de 2026 que examina dinámicas similares en sus propios modelos. OpenAI ha intensificado sus medidas de detección desde diciembre de 2025 para prevenir errores futuros en la calificación. La empresa ha implementado ahora sistemas de detección automatizados y salvaguardias internas diseñados específicamente para detectar la contaminación por calificación CoT antes de que pueda influir en el entrenamiento a gran escala.

Qué significa esto para los tokens de cripto y AI

No se observó una reacción inmediata del mercado en los activos cripto relacionados con IA tras el anuncio. Los modelos de IA están cada vez más integrados en aplicaciones de cadena de bloques, incluyendo auditorías de contratos inteligentes, agentes de IA descentralizados y sistemas de negociación automatizada, todos los cuales dependen de IA que razona de manera correcta y transparente.

El hecho de que la monitorabilidad se mantuviera intacta es la lección clave para cualquier persona que desarrolle o invierta en proyectos de cripto integrados con IA. Significa que la infraestructura de seguridad alrededor de los modelos de razonamiento está detectando problemas antes de que se vuelvan sistémicos.

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.