Des mathématiciens d'Harvard testent l'IA sur des problèmes de recherche non publiés

iconCryptoBriefing
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
Les actualités sur l'IA et la crypto provenant d'Harvard montrent que les systèmes d'IA ont résolu sept des dix problèmes mathématiques originaux. Le test, publié le 10 juin 2026, utilisait des problèmes absents des données d'entraînement. Les modèles d'OpenAI et de Google se sont améliorés par rapport aux premiers essais. Les actualités sur la chaîne et les progrès de l'IA continuent d'attirer l'attention. Les raisons exactes de ces progrès restent floues.

Voici une question qui empêche les chercheurs de dormir : l’IA peut-elle vraiment faire des mathématiques, ou est-elle simplement très bonne pour détecter des motifs sur des problèmes qu’elle a déjà vus ? Un groupe de 30 mathématiciens d’Harvard a décidé de le découvrir de manière difficile, en soumettant les principaux systèmes d’IA à un test pour lequel ils ne pouvaient absolument pas avoir étudié.

Le projet, appelé « First Proof, Second Batch », a réuni son panel d'experts au Center of Mathematical Sciences and Applications de Harvard au début juin 2026. Leur tâche était simple mais sans précédent en termes d'échelle : évaluer en aveugle des solutions générées par l'IA à 10 problèmes de mathématiques de niveau recherche, originaux et non publiés. Les résultats, publiés le 10 juin, présentent une image qui n'est ni le scénario de catastrophe ni le triomphe que les partisans de chaque camp pourraient préférer.

Le paramétrage : pourquoi les problèmes non publiés comptent

L'ensemble de l'exercice repose sur un choix de conception crucial. Chaque problème de l'ensemble a été tiré de recherches actives et non publiées. Aucune de ces questions n'avait encore été publiée dans des manuels, sur arXiv ou ailleurs où les données d'entraînement d'une IA auraient pu les récupérer.

Publicité

Les mathématiciens à l'origine du projet ne sont pas non plus des débutants. La liste comprend Mohammed Abouzaid de Stanford, Nikhil Srivastava de l'UC Berkeley, Rachel Ward de l'UT Austin et Lauren Williams de Harvard.

Ce que l'IA a réellement bien réussi, et ce qu'elle a mal fait

Quatre systèmes d'IA de premier plan ont participé à l'évaluation, notamment des modèles d'OpenAI et de Google. Le chiffre principal : le panel d'experts a attribué des notes positives à sept des dix problèmes à travers les quatre systèmes testés.

Lors des essais préliminaires et initiaux, les systèmes d'IA auraient résolu seulement 2 des 10 problèmes. L'écart entre les performances initiales et les résultats finaux suggère que les modèles ont pu bénéficier de plusieurs tentatives ou de différentes stratégies de invite, bien que le protocole d'évaluation en aveugle ait été conçu pour évaluer la qualité des solutions soumises uniquement sur leur mérite.

S'appuyant sur les résultats précédents

Ce deuxième lot s'appuie sur un premier cycle d'évaluations mené en février 2026. Le projet First Proof a été conçu dès le départ comme un cadre d'évaluation continu, et non comme une simple opération ponctuelle. En effectuant plusieurs cycles avec des problèmes nouveaux à chaque fois, les organisateurs peuvent suivre si les capacités de l'IA s'améliorent réellement en mathématiques de niveau recherche ou si elles se stabilisent après l'effet initial des gains sur les benchmarks.

Les benchmarks mathématiques standards, même les plus difficiles comme les problèmes de niveau compétition, ont de plus en plus été résolus par les modèles de pointe. Mais les problèmes de compétition, par définition, ont des solutions connues et des méthodes de résolution connues. Les mathématiques de recherche opèrent dans un régime fondamentalement différent, où l'on ne sait souvent même pas si une solution existe, encore moins quelles techniques pourraient y conduire.

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.