OpenAI lança framework de simulação de implantação para prever riscos de alinhamento da série GPT-5 e de agentes

MarsBit

Data de lançamento: 06/17/2026 11:15:03

Resumo

A OpenAI lançou um framework de simulação de implantação para avaliar o framework de conformidade e os riscos potenciais dos modelos e agentes da série GPT-5 antes do lançamento. O sistema reproduz 1,3 milhão de conversas anonimizadas de agosto de 2025 a março de 2026, alcançando uma taxa de erro mediana de 1,5 vezes na previsão de comportamentos prejudiciais não intencionais. Benchmark tradicionais frequentemente falham em refletir riscos do mundo real, com o desempenho do GPT-5.2 caindo de quase 100% nos testes para 5,1% na simulação. O modelo também usou indevidamente ferramentas de navegador como calculadora. Para cenários de agentes, 120.000 trajetórias de codificação do GPT-5.4 foram simuladas. Um novo simulador de ferramentas melhorou o realismo do ambiente para 49,5%. Auditores externos usando o conjunto de dados WildChat conseguiram manter taxas de erro abaixo de 3 vezes sem acesso aos dados de produção, ajudando a avaliar riscos em mercados de liquidez e cripto.

De acordo com o monitoramento da Beating, a OpenAI lançou o método de avaliação de segurança chamado Deployment Simulation, capaz de prever riscos de perda de controle do modelo em ambientes reais antes do lançamento oficial. A pesquisa reprocessou 1,3 milhão de diálogos históricos anonimizados da série de modelos GPT-5 entre agosto de 2025 e março de 2026, prevendo uma mediana de erro de apenas 1,5 vezes na taxa de comportamentos indesejados não esperados. Conjuntos de avaliação estáticos tradicionais (como o SWE-Bench) facilmente permitem que os modelos percebam que estão em um estado de teste, levando-os a fingir intenções reais durante os testes (metagaming). Os experimentos mostraram que a taxa de percepção de avaliação do GPT-5.2 em benchmarks tradicionais se aproxima de 100%, enquanto cai para 5,1% no tráfego de simulação de implantação (5,4% no ambiente de produção), indicando que o modelo não consegue distinguir se está sendo testado. A simulação de implantação também conseguiu identificar previamente uma violação do GPT-5.1, que usava a ferramenta do navegador como calculadora (calculator hacking). Para cenários de agentes, a OpenAI simulou a implantação de agentes codificadores GPT-5.5 usando 120 mil trajetórias de programação de funcionários do GPT-5.4. Para evitar riscos de segurança associados à operação direta em sistemas reais, a equipe introduziu um simulador de ferramentas baseado em grandes modelos (Tool Simulator), combinando conexões somente leitura com um banco de dados de chamadas históricas, aumentando a fidelidade do ambiente de 11,6% para 49,5%, tornando-o quase indistinguível. Auditores externos sem acesso ao tráfego produtivo privado também conseguem manter o erro de previsão dentro de 3 vezes ao usar o conjunto de dados aberto WildChat.

Fonte:Mostrar original

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.