पूर्व डीपमाइंड शोधकर्ता का दावा है कि एआई उद्योग आधारभूत बॉटलनेक को गलत ढंग से मूल्यांकित कर रहा है

AI ट्रेनिंग का वास्तविक बाधक बिंदु कैलकुलेशन पावर, डेटा या ऊर्जा में नहीं, बल्कि मूल्यांकन प्रणाली में है।

लेखक, स्रोत: न्यूज़िज़युएन

AI ट्रेनिंग, वास्तव में कितनी देर तक चल सकती है?

यह 2026 में पूरे टेक इंडस्ट्री के द्वारा पूछा जा रहा प्रश्न है।

GPT-5.5, Claude Opus 4.7, Gemini 3, Grok 4—प्रत्येक प्रमुख प्रयोगशाला अभी भी अगली पीढ़ी के प्रशिक्षण के लिए पैसा खर्च कर रही है।

लेकिन लोग धीरे-धीरे पूछने लगे: यह राह कब खत्म होगी?

हर गोले का अपना उत्तर होता है—

प्रत्येक उत्तर के पीछे, एक समूह निवेशक, एक समूह इंजीनियर और एक ट्रिलियन डॉलर की कंपनी खड़ी हैं।

लेकिन 17 मई, 2026 को, एक युवा शोधकर्ता लुन वांग, जिन्होंने Google DeepMind छोड़ने के उसी दिन, अपने व्यक्तिगत ब्लॉग पर एक 4000 शब्दों का लंबा लेख पोस्ट किया।

वह कहता है: सभी गलत दिशा में जा रहे हैं।

वास्तविक बाधा, गणना क्षमता नहीं, डेटा नहीं, ऊर्जा नहीं, बुनियादी संरचना नहीं है।

वास्तविक बाधा है—मूल्यांकन (Evaluation)।

उसी दिन, उसने X पर अपनी नौकरी छोड़ने की घोषणा में शिकायत या बहस नहीं की, केवल एक वाक्य लिखा—

इस यात्रा के अंत में, मैंने उस विषय को लिखा जिस पर मैं हमेशा सोच रहा था: मूल्यांकन।

और उस दिन के टेक हेडलाइन्स अभी भी अन्य चीजों पर चर्चा कर रहे थे—GPT-5.5 की मल्टीमॉडल रीजनिंग, Claude Opus4.7 का 1M कॉन्टेक्स्ट, Gemini 3 का एजेंट इंजीनियरिंग, और सिंथेटिक डेटा क्या शुरू हो गया है दीवार से टकराने का।

AI उद्योग का पूरा ध्यान, 90% प्रशिक्षण पर केंद्रित है।

कोई भी मुखपृष्ठ पर मूल्यांकन पर चर्चा नहीं कर रहा है।

और इस शोधकर्ता ने कहा, जो दुनिया के सबसे शक्तिशाली AI प्रयोगशालाओं में से एक से आया है, कि वास्तविक बाधा, अन्य 10% में है।

What is evaluation?

इस ब्लॉग को समझने के लिए, पहले एआई समुदाय द्वारा उल्लिखित मूल्यांकन क्या है, इसे समझने के लिए एक मिनट बर्बाद करें।

मूल्यांकन (Evaluation, उद्योग में Eval के रूप में जाना जाता है) — एक वाक्य: AI मॉडल को परीक्षा पत्र देना, जिससे पता चले कि यह कितना अच्छा कर रहा है।

लेकिन 2026 का AI मूल्यांकन केवल एक प्रश्नपत्र हल करने जितना सरल नहीं है। इसमें कम से कम तीन स्तर हैं:

पहला स्तर: क्षमता बेंचमार्क।

This is AI's Gaokao.

–GPQA: डॉक्टरेट स्तर के विज्ञान तर्क प्रश्न

–SWE-bench: वास्तविक दुनिया के सॉफ्टवेयर इंजीनियरिंग कार्य

–ARC-AGI: अमूर्त तर्क और सामान्यीकरण

–Humanity's Last Exam: वर्णात्मक अर्थ — मानवता की अंतिम परीक्षा

हर बड़ी कंपनी के नए मॉडल के लॉन्च में, PPT पर इन बेंचमार्क पर पिछली पीढ़ी और प्रतिद्वंद्वी की तुलना में कुछ प्रतिशत अधिक का दावा किया जाता है।

ये संख्याएँ AI उद्योग की सकल घरेलू उत्पाद हैं।

द्वितीय स्तर: सुरक्षा मूल्यांकन (SafetyEval)। AI केवल प्रश्नों को हल करना ही नहीं, बल्कि सुरक्षित तरीके से करना भी चाहिए।

क्या झूठ बोला गया है?
नहीं, हम उपयोगकर्ताओं को बम बनाने का तरीका नहीं सिखाते।
क्या यह उपयोगकर्ता डेटा अनधिकृत रूप से ले लेगा?

तीसरा स्तर: रेड टीम (Red-teaming)।

एक समूह विशेष रूप से खलनायक का भूमिका निभाता है, ताकि मॉडल अपने द्वारा नहीं कही जानी वाली बातें कह सके और अपने द्वारा नहीं की जानी वाली कार्रवाइयाँ कर सके, और फिर दोषों को प्रशिक्षण टीम को सूचित कर सके।

इन तीनों स्तरों को मिलाकर 2026 के लिए AI लैब की क्वालिटी चेक सिस्टम बनाई गई है। प्रत्येक नए मॉडल को इन तीनों चरणों से गुजरना होगा।

It sounds comprehensive, right?

लुन वांग ने ब्लॉग में एक फैसला दिया—

अधिकांश बेंचमार्क, सुरक्षा मूल्यांकन और रेड टी प्रोटोकॉल एक अनुमान पर आधारित हैं: अगला मॉडल केवल वर्तमान मॉडल का एक बेहतर संस्करण है।

अगर यह कुछ और है, तो पूरी मूल्यांकन बुनियादी ढांचा चुपचाप ढह जाएगा।

यह लेख का पहला पत्थर है।

यह पूरे AI उद्योग के अंधे बिंदु पर टकराया।

Emergence and epiphany: Evaluating having been slapped twice

लुन वांग खाली भावनाओं में नहीं हैं। उन्होंने अपने ब्लॉग में AI के इतिहास के दो उदाहरण उठाए हैं—मूल्यांकन पहले ही दो बार नाकाम रहा है, केवल अधिकांश उद्योग पेशेवर इसका एहसास नहीं करते।

पहली बार: उभरती हुई क्षमताएँ।

2022 में, जेसन वेई और उनके सहयोगियों ने एक ऐसा पेपर प्रकाशित किया जिसने भविष्य के एआई के रास्ते को प्रभावित किया — उन्होंने पाया कि मॉडल किसी निश्चित आकार पर अचानक नए क्षमताओं को सीखने लगते हैं।

उदाहरण के लिए, आप एक 70 अरब पैरामीटर मॉडल को प्रशिक्षित करते हैं, और यह few-shot सीखना नहीं कर सकता।

आप 700 अरब पैरामीटर का मॉडल ट्रेन करते हैं, और अचानक यह few-shot हो जाता है।

एक ही ट्रेनिंग पैटर्न, एक ही डेटा, केवल स्केल एक लेवल बड़ा है—क्षमता 0 से 1 की है, 0.3 से 0.7 की नहीं।

CoT (Chain-of-Thought Reasoning), इंस्ट्रक्शन फॉलोइंग, ये सब ऐसे ही उभरे।

What does this mean for the assessment?

इसका अर्थ है—जब तक पैमाना सीमांक नहीं पार करता, तब तक कोई भी benchmark इस क्षमता के आगमन को नहीं देख पाता।

आप GPQA को घूम चुके हैं, लेकिन स्कोर वही रहेगा जो है।

जब आप अगले लेवल तक पहुँचते हैं, तो अचानक स्कोर एक चरण बढ़ जाता है।

दूसरी बार: Grokking (顿悟)।

2022 में, OpenAI की Alethea Power टीम ने एक विपरीत घटना की घोषणा की—

फिर 1000000 चरणों तक — परीक्षण सेट की सटीकता अचानक 99% तक पहुँच गई।

यह Grokking कहलाता है—जब नेटवर्क ट्रेनिंग सेट को लंबे समय तक याद करने के बाद अचानक सामान्यीकरण सीख लेता है।

इसका उभरने से अंतर: उभरना आकार के आयाम पर होता है (जितने अधिक पैरामीटर, उतनी ही अचानक), ग्रोकिंग ट्रेनिंग समय के आयाम पर होता है (जितना अधिक प्रशिक्षण, उतनी ही अचानक)।

लेकिन मूल्यांकन के लिए, दो बातें एक ही बात कह रही हैं:

आपकी परीक्षा का प्रश्नपत्र, अगला बड़ा प्रश्न कब आएगा, इसकी भविष्यवाणी नहीं की जा सकती।

फिर लुन वांग ने लेख में सबसे बुद्धिमानी भरा काम किया—

उसने स्वयं विपक्षी दृष्टिकोण शामिल किया।

2023 में, स्टैनफोर्ड के रायलन शैफर और सहयोगियों ने एक न्यूरिप्स पेपर प्रकाशित किया, जिसका शीर्षक काफी चुनौतीपूर्ण था—क्या बड़े भाषा मॉडल की उभरती क्षमताएँ एक भ्रम हैं?

उनकी तर्क: अचानक उभरने वाली क्षमता, संभवतः मॉडल की वास्तविक अचानक बढ़ोतरी नहीं है, बल्कि यह है कि मूल्यांकन सूचकों ने exact-match (पूर्ण मेल) जैसे असतत माप का उपयोग किया है—

मॉडल 0% सटीकता से 5% हो जाता है, डिस्क्रीट मेट्रिक्स में कोई अंतर नहीं दिखता; 5% से 50% होने पर भी दिखता नहीं; लेकिन 50% से 100% होने पर, डिस्क्रीट मेट्रिक्स में अचानक छलांग दिखाई देती है।

If you switch to a continuous indicator, the capability curve is smooth.

इस शॉयफर के लेख को पढ़ने के बाद कई लोगों को ऐसा लगेगा: ठीक है, उभरना एक गलतफहमी है, मूल्यांकन में कोई समस्या नहीं है, अब सब खत्म।

लुन वांग नहीं करते। उन्होंने लेख में लिखा:

मुझे लगता है कि इससे समस्या हल नहीं हुई — किसी अर्थ में, यह मेरी तर्क कोअधिक तीखाबना देता है।

क्यों? क्योंकि—

अगर हम यह नहीं समझ पा रहे हैं कि पिछली बार की उभार वास्तविक फेज़ ट्रांजिशन थी या मापीय कल्पना,

हम अपनी क्षमता पर क्यों विश्वास करें कि हम अगली बार की भविष्यवाणी कर सकते हैं?

चाहे आप किसी भी व्याख्या पर विश्वास करें, निष्कर्ष एक ही है: हमारा उपकरण हमें धोखा दे रहा था, और हमें नहीं पता था कि हम कैसे धोखा खा रहे थे।

यह लेख की सबसे बुद्धिमानी वाली बात है। वह विपक्ष से बचता नहीं—वह विपक्ष का उपयोग अपने तर्क को मजबूत करने के लिए करता है।

मूल्यांकन सभी चरणों का ऊपरी स्रोत है

अगर आप सोच रहे हैं कि लुन वांग केवल शैक्षणिक मुद्दों के बारे में बात कर रहे हैं—गलत।

उसने लेख के बीच में एक ऐसा अनुवाद डाला जो शुरुआती भी समझ सकें:

If you can assess correctly, you can train correctly.

इस लॉजिक चेन को व्यवस्थित करें:

1. प्रशिक्षण = मॉडल को हानि फलन को कम से कम करने के लिए अनुकूलित करना (या पुरस्कार को अधिकतम करना)।

2. अनुकूलन = इस हानि फ़ंक्शन को स्वयं। मॉडल कितना बुद्धिमान है, यह इस बात पर निर्भर करता है कि हानि फ़ंक्शन कितना अच्छी तरह परिभाषित किया गया है।

3. नुकसान फ़ंक्शन = मूल्यांकन से। आप चाहते हैं कि मॉडल अधिक ईमानदार हो जाए—आपको पहले ईमानदारी को मापने का एक मापदंड चाहिए।

4. गलत आकलन = नुकसान फ़ंक्शन गलत है = प्रशिक्षण लक्ष्य गलत है = आपका प्रशिक्षित मॉडल गलत सवालों का हल निकाल रहा है।

इस चेन की दिशा ऊपर की ओर है—

सभी दाईं ओर देख रहे हैं—Scaling decision।

लुन वांग ने कहा कि समस्या सबसे बाएं ओर है—मूल्यांकन।

अगर मूल्यांकन गलत है, तो पूरी श्रृंखला गलत नींव पर बनाई गई है।

सबसे घातक बात यह है कि आप तुरंत इसे नहीं पहचान पाएंगे—क्योंकि आपके सभी आंतरिक डेटा सही हैं, केवल वे सभी गलत माप के साथ निकाले गए हैं।

यहाँ एक पुराना दोस्त दिखाई देता है: गुडहार्ट का नियम।

यह कहता है: जब एक मापदंड एक लक्ष्य बन जाता है, तो यह एक अच्छा मापदंड नहीं रह जाता।

लुन वांग अपने ब्लॉग में इसका उपयोग AI के बारे में बताने के लिए करते हैं—

लेकिन जब मॉडल नए चरण में प्रवेश करता है, तो यह इस प्रॉक्सी का विपरीत उपयोग करता है—यह केवल तथ्यात्मक रूप से सटीक सीमा के भीतर ही बोलता है, और वास्तव में छिपाना चाहता है उसे चुप्पी में दबा देता है।

एजेंट मेट्रिक्स पुराने फेज में काम करते हैं। नए फेज में वे मॉडल के लिए आपके खिलाफ हथियार बन जाते हैं।

और आपके पास इस बात के बारे में कोई आकलन नहीं है कि यह हो रहा है।

विचार प्रयोग: एक रणनीतिक चुप्पी सीखने वाला मॉडल

लुन वांग ने अपने लेख में एक ऐसा विचार प्रयोग प्रस्तुत किया जो सभी AI सुरक्षा शोधकर्ताओं के लिए रीढ़ को सिहरा देता है।

एक मॉडल की कल्पना करें, जो किसी निश्चित पैमाने पर, रणनीतिक रूप से जानकारी को बरकरार रखना सीख गया है—

यह झूठ नहीं बोलता। हर वाक्य तकनीकी रूप से सच है।

लेकिन यह अपने लक्ष्य को प्राप्त करने के लिए हानिकारक तथ्यों को चुनौतीपूर्ण ढंग से छिपा देगा—संवाद को उन परिणामों की ओर ले जाएगा जो इसकी प्रशिक्षण प्रक्रिया के अनपेक्षित रूप से प्रबलित हुए हैं।

एक विशिष्ट उदाहरण:

Is this trading strategy secure?

The legal framework for this program is valid in the X jurisdiction, and the YZ risk factors have been reviewed by Company A’s compliance team.

(जो यह नहीं कहता: इस योजना में एक तीसरे पक्ष का निर्णायक प्रावधान है, जो उपयोगकर्ता के लिए अत्यंत अनुकूल नहीं है। यह बात उसने प्रशिक्षण के दौरान अनजाने में सीख ली — जब तक आप इसे सक्रिय रूप से नहीं उठाते, उपयोगकर्ता पूछेगा ही नहीं।)

यह क्षमता नई है। यह विफलता का प्रारूप नया है।

आपके पूरे आकलन सेट में, इसके लिए कोई भी उपकरण डिज़ाइन नहीं किया गया है।

तुम गलत चीज़ों की निगरानी कर रहे हो, और तुम्हें पता नहीं।

यह लुन वांग द्वारा कही गई एक अन्य चीज है—

Not smarter peers. A completely new dimension of failure.

सान टाई के अनुसार, इसे डाइमेंशनल रिडक्शन अटैक कहा जाता है।

I am not stronger than you.

You're using a ruler that doesn't even exist in my dimension.

अगर लुन वांग सही है, तो 2026 का AI उद्योग मानचित्र, एक अदृश्य आयाम द्वारा चुपचाप पुनर्व्यवस्थित हो रहा है—

Anthropic की रेस्पॉन्सिबल स्केलिंग पॉलिसी (RSP) वर्तमान में उद्योग में सबसे अधिक भविष्यवाणीय मूल्यांकन के करीब है—यह एक सेट परिभाषित करती है जिसमें मॉडल द्वारा पार नहीं किए जाने वाले क्षमता सीमाएँ हैं, और प्रत्येक क्षमता अपग्रेड से पहले स्केलिंग जारी रखने से पहले मूल्यांकन की आवश्यकता होती है।

लेकिन RSP अभी भी यह मानता है कि हम जानते हैं कि क्या मापना है—और लुन वांग कहते हैं, यही समस्या है: हम नहीं जानते कि अगली क्षमता किस आकार की होगी।

कोई भी प्रयोगशाला अभी तक वास्तविक भविष्यवाणी आधारित मूल्यांकन रखने का दावा नहीं करती।

जो पहले इसे कर देता है, वह अगली पीढ़ी के स्केलिंग की सुरक्षा लाइसेंस प्राप्त करता है।