Geçen gece araştırmacıları uykudan uyandıran bir soru: Yapay zeka gerçekten matematik yapabilir mi, yoksa daha önce gördüğü problemlerle desen eşleştirme konusunda mı çok iyi? Harvard'daki 30 matematikçi, öncü yapay zeka sistemlerine asla çalışmadıkları bir test vererek bunu zor yolla öğrenmeye karar verdiler.
“İlk Kanıt, İkinci Toplu” adlı proje, 2026 yılının başlarında Harvard Üniversitesi Matematiksel Bilimler ve Uygulamalar Merkezi’nde uzman panelini bir araya getirdi. Görevleri basit ancak ölçeği önceden görülmemişti: 10 orijinal, yayınlanmamış araştırma düzeyinde matematik problemine AI tarafından üretilen çözümleri kör değerlendirmek. 10 Haziran’da yayınlanan sonuçlar, her iki taraftaki taraftarların tercih edeceği bir felaket senaryosu ya da zafer resmi değil.
Ayarlamalar: Neden yayınlanmamış sorunlar önemlidir
Tüm egzersiz, bir kritik tasarım seçimi üzerine kuruludur. Setteki her soru, aktif ve yayınlanmamış bir araştırmadan alınmıştır. Bu soruların hiçbiri ders kitaplarında, arXiv'te ya da AI'nın eğitim verilerinin çekebileceği başka hiçbir yerde görünmemiştir.
Projeyi arkasındaki matematikçiler de tamamen hafif değil. Listede Stanford'dan Mohammed Abouzaid, UC Berkeley'den Nikhil Srivastava, UT Austin'den Rachel Ward ve Harvard'dan Lauren Williams yer alıyor.
Yapay zekânın doğru yaptığı ve yanlış yaptığı
Değerlendirmeye, OpenAI ve Google'dan modelleri de dahil olmak üzere dört önde gelen yapay zeka sistemi katıldı. Ana sayı: uzman paneli, test edilen dört sistemdeki 10 sorudan yedisine geçme notu verdi.
Ön incelemelerde ve erken denemelerde, AI sistemlerinin 10 sorudan sadece 2'sini çözdüğü bildirildi. Erken performans ile nihai sonuçlar arasındaki fark, modellerin birden fazla deneme veya farklı tetikleme stratejilerinden faydalandığı olasılığını gösteriyor, ancak kör değerlendirme protokolü, sunulan çözümlerin kalitesini yalnızca kendi değerleri üzerinden değerlendirmek için tasarlandı.
Önceki sonuçlara dayanarak
Bu ikinci dizi, Şubat 2026'da gerçekleştirilen ilk değerlendirme turunu temel alır. First Proof projesi, tek seferlik bir gösteri değil, sürekli bir değerlendirme çerçevesi olarak baştan tasarlanmıştır. Her seferinde yeni problemlerle birden fazla tur yürütülerek, organizatörlerin AI yeteneklerinin araştırma düzeyindeki matematikte gerçekten gelişip gelişmediğini yoksa ilk performans artışı sonrası bir düzlemde kalıp kalmadığını izlemesi mümkün olmaktadır.
Standart matematik testleri, hatta yarışma düzeyindeki zor problemler bile giderek öncü modeller tarafından çözülmeye başlandı. Ancak yarışma problemleri, tanım itibarıyle bilinen çözümlere ve bilinen çözüm yöntemlerine sahiptir. Araştırma düzeyindeki matematik ise tamamen farklı bir rejimde çalışır; burada bir çözümün varlığı dahi bilinmeyebilir, daha doğrusu oraya ulaşmak için hangi tekniklerin kullanılacağı bilinmez.
