Le benchmark CUSP révèle que les modèles d'IA manquent de capacité de prévision scientifique

ME AI Message, selon le suivi de Beating, l'Université de Stanford, l'Université d'Oxford et l'Allen Institute for AI ont conjointement lancé CUSP, un benchmark temporel pour évaluer la capacité des IA à prédire les progrès scientifiques. Le système d'évaluation a testé de manière systématique des modèles avancés tels que GPT-5.4, Claude Sonnet 4.5 et DeepSeek R1. Les résultats montrent que les grands modèles excellent dans la compréhension des mécanismes, comme l'analyse des voies technologiques existantes. Toutefois, leur précision pour prédire si de nouvelles découvertes pourront réellement être réalisées est proche du hasard. De plus, les prédictions des grands modèles concernant le moment des percées scientifiques présentent un retard systématique. Les évaluations traditionnelles des IA souffrent facilement de fuites d'information : les modèles se contentent souvent de réciter des résultats scientifiques déjà publiés dans leurs données d'entraînement. Pour mesurer véritablement la capacité prédictive, CUSP introduit une limite temporelle de connaissance. L'équipe de recherche a rassemblé des avancées multidisciplinaires provenant de revues telles que Nature et Science. Ce benchmark comprend 4 760 jalons scientifiques, générant 17 429 tâches d'évaluation spécifiques. Les tests limitent l'accès aux informations des modèles grâce à des conditions de coupure temporelle et incluent des expériences de contrôle, telles que des recherches en ligne avant la coupure, afin de distinguer les lacunes de connaissance des lacunes prédictives. Les résultats montrent que les grands modèles ne peuvent pas fournir des orientations fiables dans l'exploration scientifique sans réponse standardisée. Au moins en matière de prédiction des progrès scientifiques, les modèles actuels ne sont pas en mesure d'offrir des jugements prospectifs fiables. Dans les tâches de raisonnement mécanistique, les modèles se distinguent : par exemple, GPT-5.4 a atteint une précision de 81,9 % pour identifier les directions de recherche plausibles parmi plusieurs options. Toutefois, lorsqu'il s'agit d'évaluer la faisabilité — c'est-à-dire déterminer si une affirmation peut être réalisée — la précision de tous les modèles se situe entre 45 % et 52 %. Pour la prédiction du moment des percées, les grands modèles surestiment systématiquement les délais : GPT-5.4 présente un retard de 14 mois, Claude S4.5 de 17 mois, et GPT-4o jusqu'à 26 mois. Dans cette tâche, LLaMA 3.3 affiche la plus petite erreur temporelle, à +4 mois. Dans la conception de solutions génératives, même si GPT-5.4 obtient le score le plus élevé (5,04/10), les voies technologiques qu'il génère ne s'alignent pas avec les véritables chemins scientifiques. Cela indique que les modèles peuvent produire des propositions crédibles, mais ont du mal à identifier les voies technologiques spécifiques qui se réaliseront ultérieurement. Pour les percées fondatrices à fort impact, le déficit prédictif scientifique est encore plus marqué. (Source : BlockBeats)