CUSP Benchmark Menunjukkan Model AI Tidak Mempunyai Kemampuan Ramalan Sains

ME AI mesej, menurut pemantauan Beating, Universiti Stanford, Universiti Oxford, dan Institut Kecerdasan Artifisial Allen telah melancarkan tolok masa CUSP untuk menilai kemampuan AI dalam meramalkan kemajuan sains. Sistem penilaian ini secara sistemik menguji model besar terkini seperti GPT-5.4, Claude Sonnet 4.5, dan DeepSeek R1. Hasilnya menunjukkan bahawa model besar berprestasi baik dalam pemahaman mekanisme seperti lintasan teknologi yang sudah ada. Namun, dalam meramalkan sama ada penemuan baru akan benar-benar berlaku, ketepatannya hampir setara dengan tekaan rawak. Selain itu, model besar juga menunjukkan keterlambatan sistemik dalam meramalkan masa pencapaian kemajuan sains. Penilaian AI tradisional mudah mengalami kebocoran maklumat; model mungkin hanya menghafal hasil sains yang telah diterbitkan dalam data latihan. Untuk mengukur kemampuan meramal yang sebenar, CUSP memperkenalkan had masa pengetahuan. Pasukan penyelidik mengumpulkan kemajuan terkini dari pelbagai disiplin ilmu dalam jurnal-jurnal seperti Nature dan Science. Tokek ini mengandungi 4,760 tonggak sains dan menghasilkan 17,429 tugas penilaian spesifik. Ujian ini membatasi maklumat yang boleh diakses oleh model melalui had masa, serta mengatur eksperimen kawalan seperti carian dalam talian sebelum had masa, untuk membezakan kekurangan pengetahuan daripada kekurangan ramalan. Hasil penilaian menunjukkan bahawa model besar tidak mampu memberikan panduan yang boleh dipercayai dalam penyelidikan sains tanpa jawapan piawai. Sekurang-kurangnya dalam meramalkan kemajuan sains, model semasa masih tidak mampu memberikan penilaian awal yang boleh dipercayai. Dalam tugas pemikiran mekanisme, model berprestasi cemerlang; contohnya, semasa mengenal pasti arah penyelidikan yang munasabah daripada pilihan, GPT-5.4 mencapai ketepatan 81.9%. Namun, semasa menilai kebolehcapaian—iaitu menentukan sama ada pernyataan boleh direalisasikan—ketepatan setiap model hanya berada antara 45% hingga 52%. Dalam meramalkan masa pencapaian, model besar secara umum melebih-lebihkan; GPT-5.4 tertinggal 14 bulan, Claude S4.5 tertinggal 17 bulan, manakala GPT-4o tertinggal sehingga 26 bulan. Dalam tugas ini, LLaMA 3.3 menunjukkan ralat masa yang paling kecil, iaitu +4 bulan. Dalam reka bentuk penyelesaian generatif, walaupun GPT-5.4 mendapat skor tertinggi 5.04/10, lintasan teknologi yang dihasilkan tidak sejajar dengan lintasan sains yang sebenar. Ini menunjukkan bahawa model mampu menulis skema yang kelihatan munasabah, tetapi sukar mengesan lintasan teknologi spesifik yang benar-benar berlaku di masa depan. Bagi pencapaian inovatif berkesan tinggi, jurang ramalan sains lebih ketara. (Sumber: BlockBeats)