Ahli Matematik Harvard menguji AI terhadap masalah peringkat penyelidikan yang belum diterbitkan

Berikut adalah soalan yang terus membuat penyelidik kehilangan tidur: adakah AI benar-benar boleh melakukan matematik, atau ia hanya sangat mahir dalam mengenal pasti corak berdasarkan masalah yang telah dilihat sebelumnya? Sekumpulan 30 ahli matematik di Harvard memutuskan untuk mencari tahu dengan cara yang sukar, dengan memberikan ujian kepada sistem AI terkemuka yang tidak mungkin pernah mereka pelajari sebelumnya.

Projek yang dipanggil “First Proof, Second Batch” mengumpulkan panel pakarnya di Pusat Sains Matematik dan Aplikasi Harvard pada awal Jun 2026. Tugas mereka adalah jelas tetapi belum pernah terjadi sebelumnya dalam skala besar: menilai tanpa mengenal identiti penyelesaian yang dihasilkan AI terhadap 10 masalah matematik peringkat penyelidikan asli yang belum diterbitkan. Keputusan yang dikeluarkan pada 10 Jun menggambarkan gambaran yang bukan skenario kehancuran mahupun kemenangan yang disukai oleh pihak-pihak yang berpihak.

Penyediaan: mengapa masalah yang tidak diterbitkan penting

Seluruh latihan ini bergantung pada satu pilihan reka bentuk yang penting. Setiap masalah dalam set ini diambil daripada penyelidikan aktif yang belum diterbitkan. Tiada soalan-soalan ini pernah muncul dalam buku teks, di arXiv, atau di mana-mana tempat lain yang boleh menjadi sumber data latihan AI.

Matematikawan di sebalik projek ini juga bukan orang biasa. Senarai nama termasuk Mohammed Abouzaid dari Stanford, Nikhil Srivastava dari UC Berkeley, Rachel Ward dari UT Austin, dan Lauren Williams dari Harvard.

Apa yang sebenarnya betul dan salah dilakukan oleh AI

Empat sistem AI terkemuka menyertai penilaian, termasuk model dari OpenAI dan Google. Nombor utama: panel pakar memberikan markah lulus kepada tujuh daripada 10 masalah di sepanjang empat sistem yang diuji.

Dalam ujian awal dan percubaan awal, sistem AI dilaporkan hanya menyelesaikan 2 daripada 10 masalah. Kesenjangan antara prestasi awal dan hasil akhir menunjukkan bahawa model mungkin mendapat manfaat daripada beberapa percubaan atau strategi pemicuan yang berbeza, walaupun protokol penilaian buta telah direka untuk menilai kualiti penyelesaian yang dihantar semata-mata berdasarkan kelebihannya sendiri.

Membina atas keputusan sebelumnya

Siri kedua ini membina atas putaran penilaian awal yang dijalankan pada Februari 2026. Projek First Proof direka sejak awal sebagai kerangka penilaian berterusan, bukan tindakan sekali sahaja. Dengan menjalankan beberapa putaran dengan masalah baharu setiap kali, penyelenggara dapat memantau sama ada kemampuan AI benar-benar meningkat dalam matematik peringkat penyelidikan atau hanya mencapai dataran selepas lonjakan awal dalam pencapaian ukuran.

Ujian matematik standard, walaupun yang sukar seperti masalah peringkat pertandingan, semakin banyak ditangani oleh model terkini. Tetapi masalah pertandingan, menurut definisi, mempunyai penyelesaian yang diketahui dan kaedah penyelesaian yang diketahui. Matematik peringkat penyelidikan beroperasi dalam regime yang berbeza secara fundamental, di mana anda sering tidak tahu sama ada penyelesaian wujud sama ada tidak, apatah lagi teknik apa yang boleh membawa anda ke sana.