Математики з Гарварду протестували ШІ на непублікованих дослідницьких задачах

iconCryptoBriefing
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Новини про ШІ та криптовалюту від Гарварду показують, що системи ШІ розв’язали сім із десяти оригінальних математичних задач. Тест, опублікований 10 червня 2026 року, використовував задачі, яких не було в тренувальних даних. Моделі від OpenAI та Google покращили результати порівняно з ранніми спробами. Новини про блокчейн та досягнення у сфері ШІ продовжують привертати увагу. Точні причини прогресу залишаються невідомими.

Ось питання, яке тримає дослідників вдень: чи може ШІ справді робити математику, чи він просто дуже добрий у виявленні шаблонів на основі задач, які вже бачив? Група з 30 математиків з Гарварду вирішила дізнатися це найскладнішим способом — надавши провідним системам ШІ тест, для якого вони не могли ніколи готуватися.

Проєкт під назвою «Перший доказ, друга партія» зібрав свою експертну раду в Центрі математичних наук і застосувань Гарварда на початку червня 2026 року. Їхнє завдання було простим, але безпрецедентним за масштабом: сліпо оцінити рішення, згенеровані ШІ, для 10 оригінальних, непублікованих математичних дослідницьких задач. Результати, опубліковані 10 червня, малюють картину, яка не є ні сценарієм катастрофи, ні триумфом, які прихильники з обох боків могли б бажати.

Налаштування: чому непублічні проблеми мають значення

Весь експеримент залежить від одного критичного проектного рішення. Усі завдання в наборі були взяті з активних, непублікованих досліджень. Жодне з цих запитань не з’являлося в підручниках, на arXiv чи де-небудь ще, де навчальні дані ІІ могли б їх зібрати.

Реклама

Математики, що стоять за проектом, теж не з малих. До складу входять Мухаммад Абузайд із Стенфордського університету, Ніхіл Срівастава з UC Берклі, Рейчел Уорд із UT Остін та Лорен Вільямс з Гарварду.

Що штучний інтелект насправді визначив правильно, а що — неправильно

У оцінці взяли участь чотири провідні системи ШІ, включаючи моделі від OpenAI та Google. Основний показник: експертна комісія присудила прохідні оцінки сімом із десяти завдань для всіх чотирьох протестованих систем.

На попередніх та ранніх пробних етапах системи ШІ, за повідомленнями, вирішили лише 2 із 10 завдань. Різниця між початковими результатами та фінальними показниками свідчить про те, що моделі могли скористатися кількома спробами або різними стратегіями запитів, хоча протокол сліпого оцінювання був розроблений для оцінки якості наданих розв’язків виключно за їхніми заслугами.

Будуючи на попередніх результатах

Ця друга партія базується на початковому раунді оцінок, проведених у лютому 2026 року. Проект First Proof був задуманий з самого початку як постійна система оцінки, а не разова акція. Запускаючи кілька раундів з новими завданнями кожного разу, організатори можуть відстежувати, чи справді покращуються можливості ШІ в галузі дослідницької математики, чи вони просто вийшли на плато після початкового стрибка результатів за стандартними тестами.

Стандартні математичні тести, навіть складні, як задачі з олімпіад, все частіше розв’язуються передовими моделями. Але задачі з конкурсів, за визначенням, мають відомі розв’язки та відомі методи їх розв’язання. Математика дослідницького рівня функціонує в іншому режимі, де часто невідомо навіть, чи існує розв’язок, не кажучи вже про те, які методи можуть до нього привести.

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.