CUSP Başlıca Göstergesi, Yapay Zeka Modellerinin Bilimsel Tahmin Yeteneğine Sahip Olmadığını Ortaya Koyuyor

ME AI Haberi, Beating İzleme'ye göre, Stanford Üniversitesi, Oxford Üniversitesi ve Allen Yapay Zeka Enstitüsü, AI bilimsel ilerlemesi tahmin yeteneğini değerlendirmek için CUSP adlı bir zaman serisi benchmark'ı tanıttı. Değerlendirme sistemi, GPT-5.4, Claude Sonnet 4.5 ve DeepSeek R1 gibi önde gelen büyük modelleri sistematik olarak test etti. Sonuçlar, büyük modellerin mevcut teknoloji yollarını anlama ve mekanik çıkarım yapmada üstün performans gösterdiğini ortaya koydu. Ancak yeni keşiflerin gerçekten gerçekleşip gerçekleşmeyeceğini tahmin etmede doğruluk oranı rastgele tahmin seviyesine yakındı. Ayrıca büyük modeller, bilimsel ilerlemenin patlama zamanını tahmin ederken sistematik bir gecikme gösterdi. Geleneksel AI değerlendirme yöntemleri kolayca bilgi sızıntısına yol açar. Modeller, eğitim verilerinde zaten yayınlanan bilimsel sonuçları ezberleyebilir. Gerçek tahmin yeteneğini ölçmek için CUSP, zaman tabanlı bilgi kesme kısıtlamaları getirdi. Araştırma ekibi, Nature ve Science gibi dergilerden çok disiplinli öncü ilerlemeleri derledi. Bu benchmark, 4.760 bilimsel dönüm noktası ve bunlardan türetilen 17.429 spesifik değerlendirme görevini içeriyor. Testler, modelin erişebileceği bilgileri kesme koşullarıyla sınırlayarak ve pre-cutoff internet araması gibi kontrollü deneylerle bilgi boşluğu ile tahmin boşluğunu ayırt etti. Değerlendirme sonuçları, büyük modellerin standart cevapları olmayan bilimsel araştırmalarda güvenilir rehberlik sağlayamadığını gösterdi. En azından bilimsel ilerleme tahmininde, mevcut modeller güvenilir öngörüler sunamıyor. Mekanik çıkarım görevlerinde modeller iyi performans gösterdi. Örneğin, uygun araştırma yönlerini seçerken GPT-5.4 %81,9 doğruluk oranı elde etti. Ancak bir iddianın gerçekleşme olasılığını belirleme görevinde, tüm modellerin doğruluk oranı %45 ile %52 arasında kaldı. Patlama zamanı tahmininde büyük modeller genellikle aşırı iyimser oldu. GPT-5.4 14 ay gecikme gösterdi, Claude S4.5 17 ay gecikti, GPT-4o ise 26 ay gecikti. Bu tür görevlerde LLaMA 3.3 zaman hatası açısından en düşük seviyede olup +4 ay olarak belirginleşti. Üretim tabanlı çözüm tasarımlarında, GPT-5.4 bile 10 üzerinden 5,04 puanla en yüksek puana sahip olsa bile, ürettiği teknik yollar gerçek bilimsel yollarla uyumlu olmadı. Bu, modellerin iyi görünüşlü senaryolar yazabileceğini ancak daha sonra gerçekten gerçekleşen spesifik teknik yolları tahmin etmede zorlandığını gösteriyor. Yüksek etkili kök salma başarılar için bilimsel tahmin boşluğu daha belirgindir. (Kaynak: BlockBeats)