CUSP बेंचमार्क द्वारा प्रकट हुआ कि AI मॉडल में वैज्ञानिक भविष्यवाणी की क्षमता नहीं है

ME AI संदेश, डिनामिक चेक द्वारा मॉनिटर किए जाने पर, स्टैनफोर्ड विश्वविद्यालय, ऑक्सफोर्ड विश्वविद्यालय और एलन इंस्टीट्यूट फॉर आर्टिफिशियल इंटेलिजेंस ने AI वैज्ञानिक प्रगति के भविष्यवाणी क्षमता का मूल्यांकन करने के लिए समयक्रम आधारित बेंचमार्क CUSP लॉन्च किया है। मूल्यांकन प्रणाली ने GPT-5.4, Claude Sonnet 4.5 और DeepSeek R1 जैसे अग्रणी बड़े मॉडल का समग्र परीक्षण किया। परिणामों से पता चलता है कि बड़े मॉडल पहले से मौजूद तकनीकी पथों को समझने और कारण-प्रभाव तर्क करने में उत्कृष्ट प्रदर्शन करते हैं। हालाँकि, नए आविष्कारों की वास्तविकता में प्राप्ति की भविष्यवाणी करते समय, उनकी सटीकता यादृच्छिक अनुमान के समीप है। इसके अलावा, वैज्ञानिक प्रगति के क्रांतिकारी समय की भविष्यवाणी में बड़े मॉडलों में समयगत विलंबता भी पाई गई। पारंपरिक AI मूल्यांकन में सूचना रिसाव की संभावना होती है। मॉडल केवल प्रशिक्षण डेटा में पहले से प्रकाशित वैज्ञानिक परिणामों को याद कर सकते हैं। वास्तविक भविष्यवाणी क्षमता का परीक्षण करने के लिए, CUSP ने समयक्रम ज्ञान-सीमा प्रतिबंध शामिल किया है। अनुसंधान टीम ने Nature और Science जैसे पत्रिकाओं से बहु-विषयक अग्रणी प्रगति को संकलित किया है। इस बेंचमार्क में 4,760 वैज्ञानिक मील के पत्थर शामिल हैं, जो 17,429 विशिष्ट मूल्यांकन कार्यों में परिणत हुए हैं। परीक्षण में मॉडल के उपलब्ध सूचना को सीमा के साथ सीमित किया गया है, और pre-cutoff ऑनलाइन सर्च जैसे नियंत्रण प्रयोगों को सेट किया गया है, ताकि ज्ञान-अंतराल और भविष्यवाणि-अंतराल को पहचाना जा सके। मूल्यांकन परिणामों से पता चलता है कि मॉडलों को मानक उत्तरों के बिना वैज्ञानिक अन्वेषण में विश्वसनीय मार्गदर्शन प्रदान करने में सक्षम नहीं है। कम से कम, वैज्ञानिक प्रगति की भविष्यवाणी में, मौजूदा मॉडलों के पास विश्वसनीय प्रगति-आधारित निर्णय प्रदान करने की क्षमता नहीं है। मैकेनिज़्म-आधारित टास्क में, मॉडलों का प्रदर्शन उत्कृष्ट है। उदाहरण के लिए, सही अनुसंधान-दिशा की पहचान में GPT-5.4 की सटीकता 81.9% है। हालाँकि, संभवता-निर्धारण, अर्थात् कथन की प्राप्ति की संभावना का मूल्यांकन करते समय, सभी मॉडलों की सटीकता 45% से 52% के बीच है। क्रांतिकारी समय की भविष्यवाणी में, BLMs सभी में सुपर-अनुमान हुआ है। GPT-5.4 14 महीनों का विलंब, Claude S4.5 17 महीनों का, GPT-4o 26 महीनों का।इस प्रकार के कार्यों में, LLaMA 3.3 समय-त्रुटि में सबसे कम है, +4 महीने।जनरेटिव समाधान-डिज़ाइन में, हालाँकि GPT-5.4 5.04/10 पर सबसे अधिक स्कोर प्राप्त करता है, परंतु समग्र प्रौद्योगिकी-पथों को सच्चे वैज्ञानिक पथों से मेल नहींखा पाता।इससे पता चलता है कि मॉडल सही-जैसे समाधानों को प्रस्तुत कर सकते हैं, परंतु प्रक्रिया में होने वाले सटीक प्रौद्योगिकी-पथों को हिट करने में कठिनाई होती है।उच्च-प्रभावशील, प्रथम-प्रक्रम-आधारित क्रांति में,वैज्ञानिक-भविष्यवाणि-अंतर और bhi स्पष्ट है। (स्रोत: BlockBeats)