Berikut adalah pertanyaan yang terus membuat para peneliti tidak bisa tidur: apakah AI benar-benar bisa melakukan matematika, atau apakah ia hanya sangat ahli dalam mengenali pola terhadap masalah yang sudah pernah dilihatnya? Sebuah kelompok 30 matematikawan di Harvard memutuskan untuk mencari tahu dengan cara yang sulit, dengan memberikan ujian kepada sistem AI terkemuka yang tidak mungkin pernah mereka pelajari sebelumnya.
Proyek yang disebut “First Proof, Second Batch” mengumpulkan panel ahlinya di Pusat Ilmu Matematika dan Aplikasi Harvard pada awal Juni 2026. Tugas mereka sederhana tetapi belum pernah terjadi sebelumnya dalam skala besar: memeriksa secara buta solusi yang dihasilkan AI untuk 10 masalah matematika tingkat penelitian asli yang belum dipublikasikan. Hasilnya, yang dirilis pada 10 Juni, menggambarkan gambaran yang bukan skenario kehancuran maupun kemenangan yang lebih disukai oleh pihak-pihak yang berselisih.
Pengaturan: mengapa masalah yang belum dipublikasikan penting
Seluruh latihan ini bergantung pada satu pilihan desain kritis. Setiap soal dalam kumpulan ini diambil dari penelitian aktif yang belum dipublikasikan. Tidak ada pertanyaan-pertanyaan ini yang pernah muncul di buku teks, di arXiv, atau di mana pun saja yang bisa diambil oleh data pelatihan AI.
Matematikawan di balik proyek ini juga bukan orang sembarangan. Daftar nama tersebut mencakup Mohammed Abouzaid dari Stanford, Nikhil Srivastava dari UC Berkeley, Rachel Ward dari UT Austin, dan Lauren Williams dari Harvard.
Apa yang sebenarnya benar dan salah dilakukan AI
Empat sistem AI terkemuka berpartisipasi dalam evaluasi, termasuk model dari OpenAI dan Google. Angka utama: panel ahli memberikan nilai lulus pada tujuh dari 10 soal di seluruh empat sistem yang diuji.
Dalam uji coba awal dan pra-pilot, sistem AI dilaporkan hanya menyelesaikan 2 dari 10 soal. Kesenjangan antara kinerja awal dan hasil akhir menunjukkan bahwa model mungkin mendapat manfaat dari beberapa upaya atau strategi perintah yang berbeda, meskipun protokol penilaian buta dirancang untuk mengevaluasi kualitas solusi yang dikirim berdasarkan keunggulannya saja.
Membangun hasil sebelumnya
Batch kedua ini membangun dari putaran awal penilaian yang dilakukan pada Februari 2026. Proyek First Proof dirancang sejak awal sebagai kerangka evaluasi berkelanjutan, bukan sekadar aksi sementara. Dengan menjalankan beberapa putaran dengan masalah baru setiap kali, penyelenggara dapat melacak apakah kemampuan AI benar-benar meningkat dalam matematika tingkat penelitian atau hanya stagnan setelah lonjakan awal dalam pencapaian benchmark.
Benchmat matematika standar, bahkan yang sulit seperti soal tingkat kompetisi, semakin banyak yang dapat dipecahkan oleh model mutakhir. Namun, soal kompetisi, menurut definisinya, memiliki solusi yang sudah diketahui dan metode solusi yang sudah diketahui. Matematika tingkat penelitian beroperasi dalam rejim yang fundamentally berbeda, di mana seringkali Anda tidak tahu apakah solusi bahkan ada, apalagi teknik apa yang bisa membawa Anda ke sana.
