CUSP Başlıca Göstergesi, Yapay Zeka Modellerinin Bilimsel Tahmin Yeteneğine Sahip Olmadığını Ortaya Koyuyor

iconKuCoinFlash
Paylaş
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconÖzet

expand icon
AI ve kripto haber platformları, Stanford, Oxford ve Allen Yapay Zeka Enstitüsü tarafından geliştirilen yeni bir ölçüt olan CUSP’i takip ediyor. Test, GPT-5.4 ve Claude Sonnet 4.5 gibi en iyi modellerin bilimsel ilerlemeyi tahmin etmede zorlandığını gösteriyor. Doğruluk rastgele seviyede ve zamanlamalar aylarca sapıyor. CUSP veri kümesi 4.760 geçiş noktası ve 17.429 görev içeriyor. Yeni token listelemeleri genellikle tahmine dayalı modellere dayanıyor, ancak bu çalışma bu modellerin güvenilirliği konusunda endişeler doğuruyor.
ME AI Haberi, Beating İzleme'ye göre, Stanford Üniversitesi, Oxford Üniversitesi ve Allen Yapay Zeka Enstitüsü, AI bilimsel ilerlemesi tahmin yeteneğini değerlendirmek için CUSP adlı bir zaman serisi benchmark'ı tanıttı. Değerlendirme sistemi, GPT-5.4, Claude Sonnet 4.5 ve DeepSeek R1 gibi önde gelen büyük modelleri sistematik olarak test etti. Sonuçlar, büyük modellerin mevcut teknoloji yollarını anlama ve mekanik çıkarım yapmada üstün performans gösterdiğini ortaya koydu. Ancak yeni keşiflerin gerçekten gerçekleşip gerçekleşmeyeceğini tahmin etmede doğruluk oranı rastgele tahmin seviyesine yakındı. Ayrıca büyük modeller, bilimsel ilerlemenin patlama zamanını tahmin ederken sistematik bir gecikme gösterdi. Geleneksel AI değerlendirme yöntemleri kolayca bilgi sızıntısına yol açar. Modeller, eğitim verilerinde zaten yayınlanan bilimsel sonuçları ezberleyebilir. Gerçek tahmin yeteneğini ölçmek için CUSP, zaman tabanlı bilgi kesme kısıtlamaları getirdi. Araştırma ekibi, Nature ve Science gibi dergilerden çok disiplinli öncü ilerlemeleri derledi. Bu benchmark, 4.760 bilimsel dönüm noktası ve bunlardan türetilen 17.429 spesifik değerlendirme görevini içeriyor. Testler, modelin erişebileceği bilgileri kesme koşullarıyla sınırlayarak ve pre-cutoff internet araması gibi kontrollü deneylerle bilgi boşluğu ile tahmin boşluğunu ayırt etti. Değerlendirme sonuçları, büyük modellerin standart cevapları olmayan bilimsel araştırmalarda güvenilir rehberlik sağlayamadığını gösterdi. En azından bilimsel ilerleme tahmininde, mevcut modeller güvenilir öngörüler sunamıyor. Mekanik çıkarım görevlerinde modeller iyi performans gösterdi. Örneğin, uygun araştırma yönlerini seçerken GPT-5.4 %81,9 doğruluk oranı elde etti. Ancak bir iddianın gerçekleşme olasılığını belirleme görevinde, tüm modellerin doğruluk oranı %45 ile %52 arasında kaldı. Patlama zamanı tahmininde büyük modeller genellikle aşırı iyimser oldu. GPT-5.4 14 ay gecikme gösterdi, Claude S4.5 17 ay gecikti, GPT-4o ise 26 ay gecikti. Bu tür görevlerde LLaMA 3.3 zaman hatası açısından en düşük seviyede olup +4 ay olarak belirginleşti. Üretim tabanlı çözüm tasarımlarında, GPT-5.4 bile 10 üzerinden 5,04 puanla en yüksek puana sahip olsa bile, ürettiği teknik yollar gerçek bilimsel yollarla uyumlu olmadı. Bu, modellerin iyi görünüşlü senaryolar yazabileceğini ancak daha sonra gerçekten gerçekleşen spesifik teknik yolları tahmin etmede zorlandığını gösteriyor. Yüksek etkili kök salma başarılar için bilimsel tahmin boşluğu daha belirgindir. (Kaynak: BlockBeats)
Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.