Le benchmark CUSP révèle que les modèles d'IA manquent de capacité de prévision scientifique

iconKuCoinFlash
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
Les plateformes d'actualités sur l'IA et la crypto suivent un nouveau benchmark appelé CUSP, développé par Stanford, Oxford et l'Allen Institute for AI. Le test révèle que les meilleurs modèles, comme GPT-5.4 et Claude Sonnet 4.5, ont du mal à prévoir les progrès scientifiques. La précision est proche du hasard et les estimations de timing sont décalées de plusieurs mois. L'ensemble de données CUSP comprend 4 760 jalons et 17 429 tâches. Les nouveaux listings de tokens reposent souvent sur des modèles prédictifs, mais cette étude soulève des inquiétudes quant à leur fiabilité.
ME AI Message, selon le suivi de Beating, l'Université de Stanford, l'Université d'Oxford et l'Allen Institute for AI ont conjointement lancé CUSP, un benchmark temporel pour évaluer la capacité des IA à prédire les progrès scientifiques. Le système d'évaluation a testé de manière systématique des modèles avancés tels que GPT-5.4, Claude Sonnet 4.5 et DeepSeek R1. Les résultats montrent que les grands modèles excellent dans la compréhension des mécanismes, comme l'analyse des voies technologiques existantes. Toutefois, leur précision pour prédire si de nouvelles découvertes pourront réellement être réalisées est proche du hasard. De plus, les prédictions des grands modèles concernant le moment des percées scientifiques présentent un retard systématique. Les évaluations traditionnelles des IA souffrent facilement de fuites d'information : les modèles se contentent souvent de réciter des résultats scientifiques déjà publiés dans leurs données d'entraînement. Pour mesurer véritablement la capacité prédictive, CUSP introduit une limite temporelle de connaissance. L'équipe de recherche a rassemblé des avancées multidisciplinaires provenant de revues telles que Nature et Science. Ce benchmark comprend 4 760 jalons scientifiques, générant 17 429 tâches d'évaluation spécifiques. Les tests limitent l'accès aux informations des modèles grâce à des conditions de coupure temporelle et incluent des expériences de contrôle, telles que des recherches en ligne avant la coupure, afin de distinguer les lacunes de connaissance des lacunes prédictives. Les résultats montrent que les grands modèles ne peuvent pas fournir des orientations fiables dans l'exploration scientifique sans réponse standardisée. Au moins en matière de prédiction des progrès scientifiques, les modèles actuels ne sont pas en mesure d'offrir des jugements prospectifs fiables. Dans les tâches de raisonnement mécanistique, les modèles se distinguent : par exemple, GPT-5.4 a atteint une précision de 81,9 % pour identifier les directions de recherche plausibles parmi plusieurs options. Toutefois, lorsqu'il s'agit d'évaluer la faisabilité — c'est-à-dire déterminer si une affirmation peut être réalisée — la précision de tous les modèles se situe entre 45 % et 52 %. Pour la prédiction du moment des percées, les grands modèles surestiment systématiquement les délais : GPT-5.4 présente un retard de 14 mois, Claude S4.5 de 17 mois, et GPT-4o jusqu'à 26 mois. Dans cette tâche, LLaMA 3.3 affiche la plus petite erreur temporelle, à +4 mois. Dans la conception de solutions génératives, même si GPT-5.4 obtient le score le plus élevé (5,04/10), les voies technologiques qu'il génère ne s'alignent pas avec les véritables chemins scientifiques. Cela indique que les modèles peuvent produire des propositions crédibles, mais ont du mal à identifier les voies technologiques spécifiques qui se réaliseront ultérieurement. Pour les percées fondatrices à fort impact, le déficit prédictif scientifique est encore plus marqué. (Source : BlockBeats)
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.