Des mathématiciens d'Harvard testent l'IA sur des problèmes de recherche non publiés

Voici une question qui empêche les chercheurs de dormir : l’IA peut-elle vraiment faire des mathématiques, ou est-elle simplement très bonne pour détecter des motifs sur des problèmes qu’elle a déjà vus ? Un groupe de 30 mathématiciens d’Harvard a décidé de le découvrir de manière difficile, en soumettant les principaux systèmes d’IA à un test pour lequel ils ne pouvaient absolument pas avoir étudié.

Le projet, appelé « First Proof, Second Batch », a réuni son panel d'experts au Center of Mathematical Sciences and Applications de Harvard au début juin 2026. Leur tâche était simple mais sans précédent en termes d'échelle : évaluer en aveugle des solutions générées par l'IA à 10 problèmes de mathématiques de niveau recherche, originaux et non publiés. Les résultats, publiés le 10 juin, présentent une image qui n'est ni le scénario de catastrophe ni le triomphe que les partisans de chaque camp pourraient préférer.

Le paramétrage : pourquoi les problèmes non publiés comptent

L'ensemble de l'exercice repose sur un choix de conception crucial. Chaque problème de l'ensemble a été tiré de recherches actives et non publiées. Aucune de ces questions n'avait encore été publiée dans des manuels, sur arXiv ou ailleurs où les données d'entraînement d'une IA auraient pu les récupérer.

Les mathématiciens à l'origine du projet ne sont pas non plus des débutants. La liste comprend Mohammed Abouzaid de Stanford, Nikhil Srivastava de l'UC Berkeley, Rachel Ward de l'UT Austin et Lauren Williams de Harvard.

Ce que l'IA a réellement bien réussi, et ce qu'elle a mal fait

Quatre systèmes d'IA de premier plan ont participé à l'évaluation, notamment des modèles d'OpenAI et de Google. Le chiffre principal : le panel d'experts a attribué des notes positives à sept des dix problèmes à travers les quatre systèmes testés.

Lors des essais préliminaires et initiaux, les systèmes d'IA auraient résolu seulement 2 des 10 problèmes. L'écart entre les performances initiales et les résultats finaux suggère que les modèles ont pu bénéficier de plusieurs tentatives ou de différentes stratégies de invite, bien que le protocole d'évaluation en aveugle ait été conçu pour évaluer la qualité des solutions soumises uniquement sur leur mérite.

S'appuyant sur les résultats précédents

Ce deuxième lot s'appuie sur un premier cycle d'évaluations mené en février 2026. Le projet First Proof a été conçu dès le départ comme un cadre d'évaluation continu, et non comme une simple opération ponctuelle. En effectuant plusieurs cycles avec des problèmes nouveaux à chaque fois, les organisateurs peuvent suivre si les capacités de l'IA s'améliorent réellement en mathématiques de niveau recherche ou si elles se stabilisent après l'effet initial des gains sur les benchmarks.

Les benchmarks mathématiques standards, même les plus difficiles comme les problèmes de niveau compétition, ont de plus en plus été résolus par les modèles de pointe. Mais les problèmes de compétition, par définition, ont des solutions connues et des méthodes de résolution connues. Les mathématiques de recherche opèrent dans un régime fondamentalement différent, où l'on ne sait souvent même pas si une solution existe, encore moins quelles techniques pourraient y conduire.