Hasil CUSP Benchmark Mengungkap Model AI Tidak Mampu Melakukan Peramalan Ilmiah

ME AI Berita, menurut pemantauan Beating, Stanford University, University of Oxford, dan Allen Institute for Artificial Intelligence secara bersama-sama meluncurkan benchmark waktu CUSP untuk mengevaluasi kemampuan prediksi kemajuan ilmiah AI. Sistem evaluasi secara sistematis menguji model besar mutakhir seperti GPT-5.4, Claude Sonnet 4.5, dan DeepSeek R1. Hasilnya menunjukkan bahwa model besar unggul dalam penalaran mekanisme seperti memahami jalur teknologi yang sudah ada. Namun, dalam memprediksi apakah temuan baru benar-benar dapat terwujud, akurasinya mendekati tebakan acak. Selain itu, model besar juga menunjukkan keterlambatan sistematis dalam memprediksi waktu terobosan kemajuan ilmiah. Evaluasi AI tradisional rentan terhadap kebocoran informasi. Model mungkin hanya menghafal hasil ilmiah yang sudah dipublikasikan dalam data pelatihan. Untuk mengukur kemampuan prediksi yang sebenarnya, CUSP memperkenalkan batas waktu pengetahuan. Tim peneliti mengumpulkan kemajuan mutakhir multidisiplin dari jurnal-jurnal seperti Nature dan Science. Benchmark ini mencakup 4.760 tonggak ilmiah, yang menghasilkan 17.429 tugas evaluasi spesifik. Pengujian membatasi informasi yang tersedia bagi model melalui kondisi cutoff, serta mengatur eksperimen kontrol seperti pencarian daring pre-cutoff, untuk membedakan kesenjangan pengetahuan dari kesenjangan prediksi. Hasil evaluasi menunjukkan bahwa model besar tidak dapat memberikan panduan andal dalam eksplorasi ilmiah tanpa jawaban standar. Setidaknya dalam prediksi kemajuan ilmiah, model saat ini belum mampu memberikan penilaian proaktif yang andal. Dalam tugas penalaran mekanisme, model menunjukkan kinerja luar biasa. Misalnya, saat mengidentifikasi arah penelitian yang masuk akal dari pilihan yang tersedia, GPT-5.4 mencapai akurasi 81,9%. Namun, dalam penilaian kelayakan—yaitu menentukan apakah pernyataan dapat terwujud—akurasi setiap model hanya berada di antara 45% hingga 52%. Dalam memprediksi waktu terobosan, model besar secara umum melebih-lebihkan. GPT-5.4 mengalami keterlambatan 14 bulan, Claude S4.5 keterlambatan 17 bulan, dan GPT-4o keterlambatan hingga 26 bulan. Dalam tugas semacam ini, LLaMA 3.3 memiliki kesalahan waktu terkecil, yaitu +4 bulan. Dalam desain solusi generatif, meskipun GPT-5.4 memperoleh skor tertinggi 5,04/10, jalur teknis yang dihasilkan tidak dapat selaras dengan jalur ilmiah yang sebenarnya. Ini menunjukkan bahwa model mampu menulis solusi yang tampak masuk akal, tetapi sulit memprediksi jalur teknis spesifik yang benar-benar terjadi di masa depan. Untuk terobosan inovatif berdampak tinggi, kesenjangan prediksi ilmiah jauh lebih nyata. (Sumber: BlockBeats)