CUSP Benchmark revela que modelos de IA não possuem capacidade de previsão científica

iconKuCoinFlash
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
Plataformas de notícias de IA e criptomoedas estão rastreando um novo padrão chamado CUSP, desenvolvido por Stanford, Oxford e o Allen Institute for AI. O teste mostra que os principais modelos, como GPT-5.4 e Claude Sonnet 4.5, têm dificuldade para prever o progresso científico. A precisão está próxima do aleatório, e as estimativas de tempo estão erradas em meses. O conjunto de dados CUSP inclui 4.760 marcos e 17.429 tarefas. Novas listagens de tokens muitas vezes dependem de modelos preditivos, mas este estudo levanta preocupações sobre sua confiabilidade.
ME AI Mensagem, segundo monitoramento da Beating, a Universidade de Stanford, a Universidade de Oxford e o Allen Institute for AI lançaram conjuntamente o benchmark temporal CUSP para avaliar a capacidade de previsão de avanços científicos por IA. O sistema de avaliação testou sistematicamente modelos avançados como GPT-5.4, Claude Sonnet 4.5 e DeepSeek R1. Os resultados mostraram que os grandes modelos desempenham-se bem em raciocínio mecanístico, como compreender trajetórias tecnológicas existentes. No entanto, ao prever se novas descobertas realmente se concretizarão, sua precisão se aproxima de uma adivinhação aleatória. Além disso, os grandes modelos apresentam atraso sistemático na previsão do tempo de ruptura dos avanços científicos. Avaliações tradicionais de IA são propensas a vazamentos de informação; os modelos podem simplesmente recitar resultados científicos já publicados nos dados de treinamento. Para medir a verdadeira capacidade preditiva, o CUSP introduziu restrições temporais de corte de conhecimento. A equipe de pesquisa compilou avanços interdisciplinares de periódicos como Nature e Science. Este benchmark contém 4.760 marcos científicos, gerando 17.429 tarefas de avaliação específicas. Os testes restringem as informações disponíveis aos modelos por meio de condições de corte e incluem experimentos de controle, como busca online pré-corte, para distinguir lacunas de conhecimento de lacunas preditivas. Os resultados indicam que os grandes modelos não conseguem fornecer orientações confiáveis em explorações científicas sem respostas padrão. Pelo menos na previsão de avanços científicos, os modelos atuais ainda não oferecem julgamentos prospectivos confiáveis. Em tarefas de raciocínio mecanístico, os modelos se destacam; por exemplo, ao identificar direções de pesquisa plausíveis entre opções, o GPT-5.4 alcançou 81,9% de precisão. Mas ao avaliar viabilidade — ou seja, determinar se uma afirmação pode ser realizada — a precisão de todos os modelos variou entre 45% e 52%. Na previsão do tempo de ruptura, os grandes modelos superestimaram sistematicamente: o GPT-5.4 apresentou atraso de 14 meses, o Claude S4.5 de 17 meses e o GPT-4o chegou a 26 meses. Neste tipo de tarefa, o LLaMA 3.3 teve menor erro temporal, com +4 meses. Em design de soluções gerativas, mesmo o GPT-5.4 obtendo a pontuação mais alta de 5,04/10, as rotas tecnológicas geradas não conseguiram alinhar-se às trajetórias científicas reais. Isso indica que os modelos conseguem produzir propostas plausíveis, mas têm dificuldade em acertar as trajetórias tecnológicas específicas que realmente ocorreram posteriormente. Para rupturas inovadoras de alto impacto, a lacuna preditiva científica é ainda mais pronunciada. (Fonte: BlockBeats)
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.