Ahli Matematik Harvard menguji AI terhadap masalah peringkat penyelidikan yang belum diterbitkan

iconCryptoBriefing
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Berita AI + kripto dari Harvard menunjukkan sistem AI menyelesaikan tujuh daripada 10 masalah matematik asal. Ujian tersebut, yang dikeluarkan pada 10 Jun 2026, menggunakan masalah yang tidak terdapat dalam data latihan. Model dari OpenAI dan Google meningkat daripada ujian awal. Berita on-chain dan kemajuan AI terus menarik perhatian. Sebab tepat bagi kemajuan tersebut masih tidak jelas.

Berikut adalah soalan yang terus membuat penyelidik kehilangan tidur: adakah AI benar-benar boleh melakukan matematik, atau ia hanya sangat mahir dalam mengenal pasti corak berdasarkan masalah yang telah dilihat sebelumnya? Sekumpulan 30 ahli matematik di Harvard memutuskan untuk mencari tahu dengan cara yang sukar, dengan memberikan ujian kepada sistem AI terkemuka yang tidak mungkin pernah mereka pelajari sebelumnya.

Projek yang dipanggil “First Proof, Second Batch” mengumpulkan panel pakarnya di Pusat Sains Matematik dan Aplikasi Harvard pada awal Jun 2026. Tugas mereka adalah jelas tetapi belum pernah terjadi sebelumnya dalam skala besar: menilai tanpa mengenal identiti penyelesaian yang dihasilkan AI terhadap 10 masalah matematik peringkat penyelidikan asli yang belum diterbitkan. Keputusan yang dikeluarkan pada 10 Jun menggambarkan gambaran yang bukan skenario kehancuran mahupun kemenangan yang disukai oleh pihak-pihak yang berpihak.

Penyediaan: mengapa masalah yang tidak diterbitkan penting

Seluruh latihan ini bergantung pada satu pilihan reka bentuk yang penting. Setiap masalah dalam set ini diambil daripada penyelidikan aktif yang belum diterbitkan. Tiada soalan-soalan ini pernah muncul dalam buku teks, di arXiv, atau di mana-mana tempat lain yang boleh menjadi sumber data latihan AI.

Iklan

Matematikawan di sebalik projek ini juga bukan orang biasa. Senarai nama termasuk Mohammed Abouzaid dari Stanford, Nikhil Srivastava dari UC Berkeley, Rachel Ward dari UT Austin, dan Lauren Williams dari Harvard.

Apa yang sebenarnya betul dan salah dilakukan oleh AI

Empat sistem AI terkemuka menyertai penilaian, termasuk model dari OpenAI dan Google. Nombor utama: panel pakar memberikan markah lulus kepada tujuh daripada 10 masalah di sepanjang empat sistem yang diuji.

Dalam ujian awal dan percubaan awal, sistem AI dilaporkan hanya menyelesaikan 2 daripada 10 masalah. Kesenjangan antara prestasi awal dan hasil akhir menunjukkan bahawa model mungkin mendapat manfaat daripada beberapa percubaan atau strategi pemicuan yang berbeza, walaupun protokol penilaian buta telah direka untuk menilai kualiti penyelesaian yang dihantar semata-mata berdasarkan kelebihannya sendiri.

Membina atas keputusan sebelumnya

Siri kedua ini membina atas putaran penilaian awal yang dijalankan pada Februari 2026. Projek First Proof direka sejak awal sebagai kerangka penilaian berterusan, bukan tindakan sekali sahaja. Dengan menjalankan beberapa putaran dengan masalah baharu setiap kali, penyelenggara dapat memantau sama ada kemampuan AI benar-benar meningkat dalam matematik peringkat penyelidikan atau hanya mencapai dataran selepas lonjakan awal dalam pencapaian ukuran.

Ujian matematik standard, walaupun yang sukar seperti masalah peringkat pertandingan, semakin banyak ditangani oleh model terkini. Tetapi masalah pertandingan, menurut definisi, mempunyai penyelesaian yang diketahui dan kaedah penyelesaian yang diketahui. Matematik peringkat penyelidikan beroperasi dalam regime yang berbeza secara fundamental, di mana anda sering tidak tahu sama ada penyelesaian wujud sama ada tidak, apatah lagi teknik apa yang boleh membawa anda ke sana.

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.