Hasil CUSP Benchmark Mengungkap Model AI Tidak Mampu Melakukan Peramalan Ilmiah
KuCoinFlash
Bagikan
Ringkasan
Platform berita AI + kripto sedang melacak tolok ukur baru bernama CUSP, yang dikembangkan oleh Stanford, Oxford, dan Allen Institute for AI. Tes ini menunjukkan bahwa model-model teratas seperti GPT-5.4 dan Claude Sonnet 4.5 kesulitan memprediksi kemajuan ilmiah. Akurasi hampir acak, dan perkiraan waktu keliru selama berbulan-bulan. Dataset CUSP mencakup 4.760 tonggak sejarah dan 17.429 tugas. Pencatatan token baru sering kali bergantung pada model prediktif, tetapi studi ini menimbulkan kekhawatiran tentang keandalannya.
ME AI Berita, menurut pemantauan Beating, Stanford University, University of Oxford, dan Allen Institute for Artificial Intelligence secara bersama-sama meluncurkan benchmark waktu CUSP untuk mengevaluasi kemampuan prediksi kemajuan ilmiah AI. Sistem evaluasi secara sistematis menguji model besar mutakhir seperti GPT-5.4, Claude Sonnet 4.5, dan DeepSeek R1. Hasilnya menunjukkan bahwa model besar unggul dalam penalaran mekanisme seperti memahami jalur teknologi yang sudah ada. Namun, dalam memprediksi apakah temuan baru benar-benar dapat terwujud, akurasinya mendekati tebakan acak. Selain itu, model besar juga menunjukkan keterlambatan sistematis dalam memprediksi waktu terobosan kemajuan ilmiah. Evaluasi AI tradisional rentan terhadap kebocoran informasi. Model mungkin hanya menghafal hasil ilmiah yang sudah dipublikasikan dalam data pelatihan. Untuk mengukur kemampuan prediksi yang sebenarnya, CUSP memperkenalkan batas waktu pengetahuan. Tim peneliti mengumpulkan kemajuan mutakhir multidisiplin dari jurnal-jurnal seperti Nature dan Science. Benchmark ini mencakup 4.760 tonggak ilmiah, yang menghasilkan 17.429 tugas evaluasi spesifik. Pengujian membatasi informasi yang tersedia bagi model melalui kondisi cutoff, serta mengatur eksperimen kontrol seperti pencarian daring pre-cutoff, untuk membedakan kesenjangan pengetahuan dari kesenjangan prediksi. Hasil evaluasi menunjukkan bahwa model besar tidak dapat memberikan panduan andal dalam eksplorasi ilmiah tanpa jawaban standar. Setidaknya dalam prediksi kemajuan ilmiah, model saat ini belum mampu memberikan penilaian proaktif yang andal. Dalam tugas penalaran mekanisme, model menunjukkan kinerja luar biasa. Misalnya, saat mengidentifikasi arah penelitian yang masuk akal dari pilihan yang tersedia, GPT-5.4 mencapai akurasi 81,9%. Namun, dalam penilaian kelayakan—yaitu menentukan apakah pernyataan dapat terwujud—akurasi setiap model hanya berada di antara 45% hingga 52%. Dalam memprediksi waktu terobosan, model besar secara umum melebih-lebihkan. GPT-5.4 mengalami keterlambatan 14 bulan, Claude S4.5 keterlambatan 17 bulan, dan GPT-4o keterlambatan hingga 26 bulan. Dalam tugas semacam ini, LLaMA 3.3 memiliki kesalahan waktu terkecil, yaitu +4 bulan. Dalam desain solusi generatif, meskipun GPT-5.4 memperoleh skor tertinggi 5,04/10, jalur teknis yang dihasilkan tidak dapat selaras dengan jalur ilmiah yang sebenarnya. Ini menunjukkan bahwa model mampu menulis solusi yang tampak masuk akal, tetapi sulit memprediksi jalur teknis spesifik yang benar-benar terjadi di masa depan. Untuk terobosan inovatif berdampak tinggi, kesenjangan prediksi ilmiah jauh lebih nyata. (Sumber: BlockBeats)
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.