CUSP Benchmark revela que modelos de IA não possuem capacidade de previsão científica

ME AI Mensagem, segundo monitoramento da Beating, a Universidade de Stanford, a Universidade de Oxford e o Allen Institute for AI lançaram conjuntamente o benchmark temporal CUSP para avaliar a capacidade de previsão de avanços científicos por IA. O sistema de avaliação testou sistematicamente modelos avançados como GPT-5.4, Claude Sonnet 4.5 e DeepSeek R1. Os resultados mostraram que os grandes modelos desempenham-se bem em raciocínio mecanístico, como compreender trajetórias tecnológicas existentes. No entanto, ao prever se novas descobertas realmente se concretizarão, sua precisão se aproxima de uma adivinhação aleatória. Além disso, os grandes modelos apresentam atraso sistemático na previsão do tempo de ruptura dos avanços científicos. Avaliações tradicionais de IA são propensas a vazamentos de informação; os modelos podem simplesmente recitar resultados científicos já publicados nos dados de treinamento. Para medir a verdadeira capacidade preditiva, o CUSP introduziu restrições temporais de corte de conhecimento. A equipe de pesquisa compilou avanços interdisciplinares de periódicos como Nature e Science. Este benchmark contém 4.760 marcos científicos, gerando 17.429 tarefas de avaliação específicas. Os testes restringem as informações disponíveis aos modelos por meio de condições de corte e incluem experimentos de controle, como busca online pré-corte, para distinguir lacunas de conhecimento de lacunas preditivas. Os resultados indicam que os grandes modelos não conseguem fornecer orientações confiáveis em explorações científicas sem respostas padrão. Pelo menos na previsão de avanços científicos, os modelos atuais ainda não oferecem julgamentos prospectivos confiáveis. Em tarefas de raciocínio mecanístico, os modelos se destacam; por exemplo, ao identificar direções de pesquisa plausíveis entre opções, o GPT-5.4 alcançou 81,9% de precisão. Mas ao avaliar viabilidade — ou seja, determinar se uma afirmação pode ser realizada — a precisão de todos os modelos variou entre 45% e 52%. Na previsão do tempo de ruptura, os grandes modelos superestimaram sistematicamente: o GPT-5.4 apresentou atraso de 14 meses, o Claude S4.5 de 17 meses e o GPT-4o chegou a 26 meses. Neste tipo de tarefa, o LLaMA 3.3 teve menor erro temporal, com +4 meses. Em design de soluções gerativas, mesmo o GPT-5.4 obtendo a pontuação mais alta de 5,04/10, as rotas tecnológicas geradas não conseguiram alinhar-se às trajetórias científicas reais. Isso indica que os modelos conseguem produzir propostas plausíveis, mas têm dificuldade em acertar as trajetórias tecnológicas específicas que realmente ocorreram posteriormente. Para rupturas inovadoras de alto impacto, a lacuna preditiva científica é ainda mais pronunciada. (Fonte: BlockBeats)