Математики з Гарварду протестували ШІ на непублікованих дослідницьких задачах

Ось питання, яке тримає дослідників вдень: чи може ШІ справді робити математику, чи він просто дуже добрий у виявленні шаблонів на основі задач, які вже бачив? Група з 30 математиків з Гарварду вирішила дізнатися це найскладнішим способом — надавши провідним системам ШІ тест, для якого вони не могли ніколи готуватися.

Проєкт під назвою «Перший доказ, друга партія» зібрав свою експертну раду в Центрі математичних наук і застосувань Гарварда на початку червня 2026 року. Їхнє завдання було простим, але безпрецедентним за масштабом: сліпо оцінити рішення, згенеровані ШІ, для 10 оригінальних, непублікованих математичних дослідницьких задач. Результати, опубліковані 10 червня, малюють картину, яка не є ні сценарієм катастрофи, ні триумфом, які прихильники з обох боків могли б бажати.

Налаштування: чому непублічні проблеми мають значення

Весь експеримент залежить від одного критичного проектного рішення. Усі завдання в наборі були взяті з активних, непублікованих досліджень. Жодне з цих запитань не з’являлося в підручниках, на arXiv чи де-небудь ще, де навчальні дані ІІ могли б їх зібрати.

Математики, що стоять за проектом, теж не з малих. До складу входять Мухаммад Абузайд із Стенфордського університету, Ніхіл Срівастава з UC Берклі, Рейчел Уорд із UT Остін та Лорен Вільямс з Гарварду.

Що штучний інтелект насправді визначив правильно, а що — неправильно

У оцінці взяли участь чотири провідні системи ШІ, включаючи моделі від OpenAI та Google. Основний показник: експертна комісія присудила прохідні оцінки сімом із десяти завдань для всіх чотирьох протестованих систем.

На попередніх та ранніх пробних етапах системи ШІ, за повідомленнями, вирішили лише 2 із 10 завдань. Різниця між початковими результатами та фінальними показниками свідчить про те, що моделі могли скористатися кількома спробами або різними стратегіями запитів, хоча протокол сліпого оцінювання був розроблений для оцінки якості наданих розв’язків виключно за їхніми заслугами.

Будуючи на попередніх результатах

Ця друга партія базується на початковому раунді оцінок, проведених у лютому 2026 року. Проект First Proof був задуманий з самого початку як постійна система оцінки, а не разова акція. Запускаючи кілька раундів з новими завданнями кожного разу, організатори можуть відстежувати, чи справді покращуються можливості ШІ в галузі дослідницької математики, чи вони просто вийшли на плато після початкового стрибка результатів за стандартними тестами.

Стандартні математичні тести, навіть складні, як задачі з олімпіад, все частіше розв’язуються передовими моделями. Але задачі з конкурсів, за визначенням, мають відомі розв’язки та відомі методи їх розв’язання. Математика дослідницького рівня функціонує в іншому режимі, де часто невідомо навіть, чи існує розв’язок, не кажучи вже про те, які методи можуть до нього привести.