CUSP बेंचमार्क द्वारा प्रकट हुआ कि AI मॉडल में वैज्ञानिक भविष्यवाणी की क्षमता नहीं है

iconKuCoinFlash
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
AI और क्रिप्टो समाचार प्लेटफॉर्म स्टैनफोर्ड, ऑक्सफोर्ड और एलन इंस्टीट्यूट फॉर एआई द्वारा विकसित एक नए मानक, CUSP का अनुसरण कर रहे हैं। यह परीक्षण दर्शाता है कि GPT-5.4 और Claude Sonnet 4.5 जैसे शीर्ष मॉडल वैज्ञानिक प्रगति का पूर्वानुमान लगाने में कठिनाई का सामना कर रहे हैं। सटीकता यादृच्छिक के करीब है, और समय सन्निकटन महीनों तक गलत है। CUSP डेटासेट में 4,760 मील के पत्थर और 17,429 कार्य शामिल हैं। नए टोकन सूचीकरण अक्सर भविष्यवाणी मॉडलों पर निर्भर करते हैं, लेकिन इस अध्ययन से उनकी विश्वसनीयता के बारे में चिंताएं उठी हैं।
ME AI संदेश, डिनामिक चेक द्वारा मॉनिटर किए जाने पर, स्टैनफोर्ड विश्वविद्यालय, ऑक्सफोर्ड विश्वविद्यालय और एलन इंस्टीट्यूट फॉर आर्टिफिशियल इंटेलिजेंस ने AI वैज्ञानिक प्रगति के भविष्यवाणी क्षमता का मूल्यांकन करने के लिए समयक्रम आधारित बेंचमार्क CUSP लॉन्च किया है। मूल्यांकन प्रणाली ने GPT-5.4, Claude Sonnet 4.5 और DeepSeek R1 जैसे अग्रणी बड़े मॉडल का समग्र परीक्षण किया। परिणामों से पता चलता है कि बड़े मॉडल पहले से मौजूद तकनीकी पथों को समझने और कारण-प्रभाव तर्क करने में उत्कृष्ट प्रदर्शन करते हैं। हालाँकि, नए आविष्कारों की वास्तविकता में प्राप्ति की भविष्यवाणी करते समय, उनकी सटीकता यादृच्छिक अनुमान के समीप है। इसके अलावा, वैज्ञानिक प्रगति के क्रांतिकारी समय की भविष्यवाणी में बड़े मॉडलों में समयगत विलंबता भी पाई गई। पारंपरिक AI मूल्यांकन में सूचना रिसाव की संभावना होती है। मॉडल केवल प्रशिक्षण डेटा में पहले से प्रकाशित वैज्ञानिक परिणामों को याद कर सकते हैं। वास्तविक भविष्यवाणी क्षमता का परीक्षण करने के लिए, CUSP ने समयक्रम ज्ञान-सीमा प्रतिबंध शामिल किया है। अनुसंधान टीम ने Nature और Science जैसे पत्रिकाओं से बहु-विषयक अग्रणी प्रगति को संकलित किया है। इस बेंचमार्क में 4,760 वैज्ञानिक मील के पत्थर शामिल हैं, जो 17,429 विशिष्ट मूल्यांकन कार्यों में परिणत हुए हैं। परीक्षण में मॉडल के उपलब्ध सूचना को सीमा के साथ सीमित किया गया है, और pre-cutoff ऑनलाइन सर्च जैसे नियंत्रण प्रयोगों को सेट किया गया है, ताकि ज्ञान-अंतराल और भविष्यवाणि-अंतराल को पहचाना जा सके। मूल्यांकन परिणामों से पता चलता है कि मॉडलों को मानक उत्तरों के बिना वैज्ञानिक अन्वेषण में विश्वसनीय मार्गदर्शन प्रदान करने में सक्षम नहीं है। कम से कम, वैज्ञानिक प्रगति की भविष्यवाणी में, मौजूदा मॉडलों के पास विश्वसनीय प्रगति-आधारित निर्णय प्रदान करने की क्षमता नहीं है। मैकेनिज़्म-आधारित टास्क में, मॉडलों का प्रदर्शन उत्कृष्ट है। उदाहरण के लिए, सही अनुसंधान-दिशा की पहचान में GPT-5.4 की सटीकता 81.9% है। हालाँकि, संभवता-निर्धारण, अर्थात् कथन की प्राप्ति की संभावना का मूल्यांकन करते समय, सभी मॉडलों की सटीकता 45% से 52% के बीच है। क्रांतिकारी समय की भविष्यवाणी में, BLMs सभी में सुपर-अनुमान हुआ है। GPT-5.4 14 महीनों का विलंब, Claude S4.5 17 महीनों का, GPT-4o 26 महीनों का।इस प्रकार के कार्यों में, LLaMA 3.3 समय-त्रुटि में सबसे कम है, +4 महीने।जनरेटिव समाधान-डिज़ाइन में, हालाँकि GPT-5.4 5.04/10 पर सबसे अधिक स्कोर प्राप्त करता है, परंतु समग्र प्रौद्योगिकी-पथों को सच्चे वैज्ञानिक पथों से मेल नहींखा पाता।इससे पता चलता है कि मॉडल सही-जैसे समाधानों को प्रस्तुत कर सकते हैं, परंतु प्रक्रिया में होने वाले सटीक प्रौद्योगिकी-पथों को हिट करने में कठिनाई होती है।उच्च-प्रभावशील, प्रथम-प्रक्रम-आधारित क्रांति में,वैज्ञानिक-भविष्यवाणि-अंतर और bhi स्पष्ट है। (स्रोत: BlockBeats)
डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।