ME समाचार के अनुसार, 14 अप्रैल (UTC+8) को, 1M AI समाचार के अनुसार, AI प्रोग्रामिंग एजेंट एकल कार्य को कई बार चलाने पर अक्सर अलग-अलग समाधान प्राप्त करता है, जिनमें से कुछ सही हो सकते हैं और कुछ गलत। यदि इनमें से सर्वोत्तम समाधान को स्वचालित रूप से चुना जा सके, तो कुल सफलता दर एकल चलाने की तुलना में अधिक हो सकती है। समस्या यह है कि इसे कैसे चुनें: एक अन्य मॉडल को स्कोरिंग के लिए न्यायाधीश के रूप में उपयोग करना (अर्थात् LLM-as-a-Judge) वर्तमान में प्रचलित प्रथा है, लेकिन स्कोरिंग की बारीकी बहुत कम है, और अक्सर विभिन्न समाधानों को समान स्कोर दे दिया जाता है, जिससे उनकी तुलना मुश्किल हो जाती है। स्टैनफोर्ड AI प्रयोगशाला और बर्कले Sky Computing प्रयोगशाला ने NVIDIA के साथ मिलकर LLM-as-a-Verifier का प्रस्ताव दिया है, जिससे इस चयन प्रक्रिया में सुधार हुआ है। यहाँ केवल न्यायाधीश द्वारा प्रदान किए गए अंतिम स्कोर को ही नहीं, बल्कि प्रत्येक स्कोरिंग स्तर पर मॉडल की प्रायिकता वितरण को पढ़ा जाता है, और इससे एक सतत पुरस्कार मूल्य की गणना की जाती है। साथ ही, न्यायाधीश को कई बार मूल्यांकन करने के लिए कहा जाता है, और प्रतिफल का माध्य प्राप्त करने के लिए, संभावित प्रभावों को हटाया जाता है, साथ ही पूर्ण मूल्यांकन को तीन स्वतंत्र मापदंडों (क्या कार्य की मांगें पूरी हुईं, क्या आउटपुट प्रारूप सही है, क्या कोई त्रुटि संकेत मौजूद है) में विभाजित किया जाता है। प्रयोग में Gemini 2.5 Flash को प्रमाणीकरणकर्ता के रूप में प्रयोग किया गया, जिसकी एकल प्रमाणीकरण सटीकता 74.7% है, जबकि पारंपरिक Judge केवल 57.0% है; 16 पुनरावृत्तियों के बाद Verifier 77.4% पहुँचता है, Judge 70.2% है। पारंपरिक Judge में 26.5% मुकाबले बराबरी पर समाप्त हुए, Verifier में सभी कॉन्फ़िगरेशन में 0% की समानता-दर है। वास्तविक प्रभाव: Terminal-Bench 2 पर, GPT-5.4 को 5 बार समान कार्य करने के लिए, 81.8% सफलता मिली, Verifier के प्रयोग से 86.4% हो गई। SWE-Bench Verified पर, Claude Opus 4.5, Claude Opus 4.6, and Gemini 3 Flash से प्रत्येक से 1 समाधान (कुल 3) प्राप्त करके, Verifier के प्रयोग से 76.1% से 77.8% हो गया। 9अप्रैल, 2024 को प्रकाशित होने पर, दोनों में पहला स्थान प्राप्त हुआ। Framework open-source है। (स्रोत: BlockBeats)
स्टैनफोर्ड और बर्कले ने LLM-as-a-Verifier, टॉप टर्मिनल-बेंच और SWE-बेंच का प्रस्ताव रखा
KuCoinFlashसाझा करें
14 अप्रैल (UTC+8) को टॉप अल्टकॉइन समाचार दिखाता है कि स्टैनफोर्ड AI लैब और बर्कले स्काई कंप्यूटिंग लैब, NVIDIA के साथ, AI समाधान चयन को बेहतर बनाने के लिए LLM-as-a-Verifier का प्रस्ताव दे रहे हैं। यह विधि मूल्यांकनों के भरपूर वितरण से निरंतर पुरस्कार का उपयोग करती है, जिससे 16 परीक्षणों के बाद 77.4% सटीकता प्राप्त हुई, जो पारंपरिक LLM-as-a-Judge की 70.2% से बेहतर है। Terminal-Bench 2 और SWE-Bench Verified पर सफलता की दर क्रमशः 86.4% और 77.8% तक पहुँची, जिससे 9 अप्रैल तक यह शीर्ष प्रदर्शनकर्ता बन गया। यह ढांचा अब ओपन-सोर्स हो चुका है। AI + क्रिप्टो समाचार अभी भी सत्यापन और प्रदर्शन में क्रांतिकारी उपलब्धियों पर प्रकाश डाल रहा है।
स्रोत:मूल दिखाएं
डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा।
डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।