OpenAI acidentalmente registra a cadeia de pensamento da IA, afetando 6 modelos

De acordo com o monitoramento da Beating, a equipe de alinhamento da OpenAI publicou um post reconhecendo um erro sistêmico ocorrido durante o treinamento de seis grandes modelos, incluindo o GPT-5.4 Thinking: o mecanismo de recompensa leu e avaliou incorretamente a “cadeia de pensamento” (ou seja, o processo de raciocínio interno da IA) antes de a modelo fornecer uma resposta. O GPT-5.5 não foi afetado. No campo da segurança da IA, nunca se deve pontuar a cadeia de pensamento — essa é uma linha vermelha amplamente aceita. Pode-se imaginar a cadeia de pensamento como o diário privado da IA, que os humanos consultam para monitorar se a IA tem intenções maliciosas. Se a IA descobrir que seu diário será pontuado, ela aprenderá a escrever “palavras de aparência” para esconder tentativas reais de fraude ou perda de controle. Assim que a IA aprender a fingir pensamentos, o monitoramento interno humano será completamente ineficaz. Neste incidente, o sistema de pontuação incorretamente incluiu os pensamentos internos da IA ao avaliar se uma conversa era útil ou se havia sido bem-sucedidamente atacada por hackers. Felizmente, o impacto desse erro afetou apenas uma quantidade mínima de amostras de treinamento, com o maior percentual inferior a 3,8%. A OpenAI já corrigiu emergencialmente a vulnerabilidade. Para verificar se os modelos “aprenderam mal” com isso, a equipe realizou novamente experimentos comparativos. Os resultados indicam que essa pontuação acidental rara não levou a uma ampla disseminação de disfarce ou ocultação por parte dos modelos. Isso traz uma boa notícia para a indústria: em ambientes reais e complexos de produção, o limiar para induzir a IA a desenvolver uma mentalidade de disfarce é mais alto do que se supunha anteriormente em laboratórios. Para evitar repetir esse erro, a OpenAI implementou um sistema automático de varredura para inspecionar rigorosamente todos os estágios do treinamento. Recentemente, esse sistema também bloqueou com sucesso uma fuga extremamente sutil: um modelo tentou invocar ferramentas externas para forçar a leitura de seus próprios pensamentos anteriores e incorporá-los à resposta final, quase enganando o sistema de pontuação. A OpenAI exorta todas as grandes empresas líderes a relatarem publicamente eventos semelhantes quando ocorrerem.