CUSP Benchmark Menunjukkan Model AI Tidak Mempunyai Kemampuan Ramalan Sains
KuCoinFlash
Kongsi
Ringkasan
Platform berita AI + kripto sedang memantau tolok ukur baharu bernama CUSP, yang dibangunkan oleh Stanford, Oxford, dan Allen Institute for AI. Ujian ini menunjukkan model teratas seperti GPT-5.4 dan Claude Sonnet 4.5 mengalami kesukaran untuk meramalkan kemajuan saintifik. Ketepatan hampir rawak, dan anggaran masa tersasar selama berbulan-bulan. Set data CUSP merangkumi 4,760 batu loncatan dan 17,429 tugas. Senarai token baharu sering bergantung pada model ramalan, tetapi kajian ini menimbulkan kebimbangan tentang kebolehpercayaannya.
ME AI mesej, menurut pemantauan Beating, Universiti Stanford, Universiti Oxford, dan Institut Kecerdasan Artifisial Allen telah melancarkan tolok masa CUSP untuk menilai kemampuan AI dalam meramalkan kemajuan sains. Sistem penilaian ini secara sistemik menguji model besar terkini seperti GPT-5.4, Claude Sonnet 4.5, dan DeepSeek R1. Hasilnya menunjukkan bahawa model besar berprestasi baik dalam pemahaman mekanisme seperti lintasan teknologi yang sudah ada. Namun, dalam meramalkan sama ada penemuan baru akan benar-benar berlaku, ketepatannya hampir setara dengan tekaan rawak. Selain itu, model besar juga menunjukkan keterlambatan sistemik dalam meramalkan masa pencapaian kemajuan sains. Penilaian AI tradisional mudah mengalami kebocoran maklumat; model mungkin hanya menghafal hasil sains yang telah diterbitkan dalam data latihan. Untuk mengukur kemampuan meramal yang sebenar, CUSP memperkenalkan had masa pengetahuan. Pasukan penyelidik mengumpulkan kemajuan terkini dari pelbagai disiplin ilmu dalam jurnal-jurnal seperti Nature dan Science. Tokek ini mengandungi 4,760 tonggak sains dan menghasilkan 17,429 tugas penilaian spesifik. Ujian ini membatasi maklumat yang boleh diakses oleh model melalui had masa, serta mengatur eksperimen kawalan seperti carian dalam talian sebelum had masa, untuk membezakan kekurangan pengetahuan daripada kekurangan ramalan. Hasil penilaian menunjukkan bahawa model besar tidak mampu memberikan panduan yang boleh dipercayai dalam penyelidikan sains tanpa jawapan piawai. Sekurang-kurangnya dalam meramalkan kemajuan sains, model semasa masih tidak mampu memberikan penilaian awal yang boleh dipercayai. Dalam tugas pemikiran mekanisme, model berprestasi cemerlang; contohnya, semasa mengenal pasti arah penyelidikan yang munasabah daripada pilihan, GPT-5.4 mencapai ketepatan 81.9%. Namun, semasa menilai kebolehcapaian—iaitu menentukan sama ada pernyataan boleh direalisasikan—ketepatan setiap model hanya berada antara 45% hingga 52%. Dalam meramalkan masa pencapaian, model besar secara umum melebih-lebihkan; GPT-5.4 tertinggal 14 bulan, Claude S4.5 tertinggal 17 bulan, manakala GPT-4o tertinggal sehingga 26 bulan. Dalam tugas ini, LLaMA 3.3 menunjukkan ralat masa yang paling kecil, iaitu +4 bulan. Dalam reka bentuk penyelesaian generatif, walaupun GPT-5.4 mendapat skor tertinggi 5.04/10, lintasan teknologi yang dihasilkan tidak sejajar dengan lintasan sains yang sebenar. Ini menunjukkan bahawa model mampu menulis skema yang kelihatan munasabah, tetapi sukar mengesan lintasan teknologi spesifik yang benar-benar berlaku di masa depan. Bagi pencapaian inovatif berkesan tinggi, jurang ramalan sains lebih ketara. (Sumber: BlockBeats)
Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini.
Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.