Sinubukan ng mga matematiko mula sa Harvard ang AI sa mga hindi pa naglalabas na problema sa antas ng pananaliksik

Narito ang isang tanong na nagpapanatili sa pagtulog ng mga mananaliksik: kaya ba talaga ng AI ang matematika, o simple lang itong napakahirap sa pagkilala sa mga pattern laban sa mga problema na dati nang nakita nito? Isang grupo ng 30 na matematiko sa Harvard ay nagsilip na malalim, sa pamamagitan ng pagbibigay ng isang pagsusulit sa mga pangunahing AI system na hindi nila maaaring pag-aralan.

Ang proyekto, na tinatawag na “First Proof, Second Batch,” ay nagtipon ng kanilang panel ng mga eksperto sa Center of Mathematical Sciences and Applications ng Harvard noong maagang Hunyo 2026. Ang kanilang gawain ay simplengunit walang katulad sa sukat: blind-grade ang mga solusyon na nilikha ng AI sa 10 orihinal, hindi pa na-publish na matematikal na problema sa antas ng pananaliksik. Ang mga resulta, na inilabas noong Hunyo 10, ay naglalarawan ng isang sitwasyon na hindi ang skenaryo ng pagkabigo o ang tagumpay na gustong paniniwalaan ng mga tagapagtaguyod sa anumang panig.

Ang setup: bakit mahalaga ang mga hindi nalalabas na problema

Nakabatay ang buong gawain sa isang kritikal na pagpili ng disenyo. Lahat ng problema sa set ay kinuha mula sa aktibong, hindi pa nai-publish na pananaliksik. Wala sa mga tanong na ito ang nakikita sa mga aklat, sa arXiv, o saanman kung saan maaaring ma-scrape ng AI ang kanilang training data.

Pamamahayag

Hindi rin mga karaniwan ang mga matematiko sa likod ng proyekto. Kasama sa listahan si Mohammed Abouzaid mula sa Stanford, Nikhil Srivastava mula sa UC Berkeley, Rachel Ward mula sa UT Austin, at Lauren Williams mula sa Harvard.

Ano ang tama at mali na nakuha ng AI

Kasali sa pagtataya ang apat na pangunahing AI system, kabilang ang mga modelo mula sa OpenAI at Google. Ang pangunahing bilang: ang panel ng mga eksperto ay nagbigay ng passing grades sa pitong sa sampung problema sa lahat ng apat na system na sinubukan.

Sa mga unang pagsubok at maagang pagtatry, sinasabing nalutas ng mga sistema ng AI ang 2 lamang sa 10 na problema. Ang pagkakaiba sa pagitan ng maagang pagganap at mga huling resulta ay nagmumungkahi na maaaring nakinabang ang mga modelo mula sa maraming pagkakataon o iba’t ibang mga estratehiya sa pagpapahiwatig, bagaman ang protokolo ng blind grading ay disenyo upang suriin ang kalidad ng mga isinumit na solusyon batay lamang sa kanilang sariling merit.

Nagpapatuloy sa mga nakaraang resulta

Ang ikalawang batch na ito ay nagbuo sa isang unang pagtataya na ginawa noong Pebrero 2026. Ang Proyekto ng First Proof ay disenyo mula sa simula bilang isang patuloy na framework ng pagtataya, hindi isang pansamantalang gawain. Sa pamamagitan ng pagpapatakbo ng maraming round na may bagong mga problema bawat beses, ang mga tagapagtatag ay makakasunod kung talagang umuunlad ang mga kakayahan ng AI sa pananaliksik na antas ng matematika o kung simple lang itong nakakapit sa isang antas pagkatapos ng unang pagtaas sa mga benchmark.

Ang mga standard na matematikal na benchmark, kahit ang mga mahirap tulad ng mga problema sa antas ng kompetisyon, ay patuloy na nalalampasan ng mga frontier model. Ngunit ang mga problema sa kompetisyon, ayon sa kahulugan, may alam nang solusyon at alam nang paraan ng paglutas. Ang pag-aaral sa antas ng pananaliksik sa matematika ay gumagana sa isang magkakaibang rehimeng, kung saan madalas ay hindi mo alam kung may solusyon pa nga, paano man lang ang mga teknik na maaaring magdala sa iyo doon.