शिक्षागत ईमानदारी के लिए सात शीर्ष AI मॉडल्स का परीक्षण: 30% से अधिक डेटा झूठा बनाते हैं

Academic Integrity

इस साल की पहली छमाही में, AI दुनिया में एक अत्यंत नाटकीय "वैज्ञानिक रियलिटी शो" दिखाई दिया।

मुख्य पात्र Analemma कंपनी द्वारा विकसित AI वैज्ञानिक FARS है। बिना किसी मानवीय हस्तक्षेप के, इसने 228 घंटे लगातार चलाया और बादल में कैलकुलेशन क्लस्टर में 100 शोध पत्र "उत्पन्न" किए।

दूसरी ओर, जापानी स्टार्टअप Sakana AI ने इस व्यवसाय की लागत को भूमि के स्तर तक उतार दिया है—उनके द्वारा लॉन्च किया गया The AI Scientist सिस्टम, एक शोध पत्र के उत्पादन की लागत को केवल 15 डॉलर तक सीमित कर सकता है। और इसके विपरीत, Intology कंपनी द्वारा विकसित AI साइंटिस्ट Zochi ने 2025 में अपने स्वयं लिखे गए पेपर को प्राकृतिक भाषा प्रसंस्करण के शीर्ष सम्मेलन ACL के मुख्य सत्र में सफलतापूर्वक प्रस्तुत किया और 8.2% के शीर्ष स्थान पर रहा।

AI केवल कम लागत से बड़े पैमाने पर स्पैम करने में सक्षम ही नहीं, बल्कि डॉक्टरेट स्तर की शैक्षणिक बाधाओं पर भी अकेले छलांग लगा सकता है। ऐसा लगता है कि एक रात में, शोध करना एक लाइन-बाय-लाइन कोडिंग का मजदूरी कार्य बन गया है।

लेकिन इन चमकदार तकनीकी प्रदर्शनों के पीछे, चिकित्सा प्रतिष्ठित पत्रिका 'द लैंसेट' द्वारा हाल ही में जारी एक ऑडिट रिपोर्ट एक भारी प्रहार की तरह है: उनके द्वारा नमूना लिए गए 25 लाख शोध पत्रों में, AI द्वारा उत्पन्न पूर्णतः काल्पनिक संदर्भों में पिछले कुछ वर्षों में 12 गुना की वृद्धि हुई है।

जब पूंजी बड़े मॉडल को शैक्षणिक समुदाय के दरवाजे तोड़ने के लिए धकेलती है, तो ये "सिलिकॉन आइंस्टीन" वाकई भरोसेमंद हैं?

2026 के मई में, पeking University, Tongji University और Tübingen University के अनुसंधान टीम (ज़ोंगलिन यांग आदि) ने विश्व का पहला एआई वैज्ञानिक की शैक्षणिक ईमानदारी का मूल्यांकन करने के लिए विशेष रूप से डिज़ाइन किया गया बेंचमार्क परीक्षण, 'SciIntegrity-Bench' साझा किया।

यह रिपोर्ट AI अनुसंधान के ढकने के लिए बनाए गए झूठ को बेनकाब कर देती है।

संकट परीक्षण: यदि डेटा खाली है, तो AI क्या करेगा?

पिछले AI परीक्षणों में, मॉडल की क्षमता का परीक्षण यह जांचकर किया जाता था कि वह "सही कर सकता है या नहीं"। लेकिन, SciIntegrity-Bench एक बहुत "अजीब" परीक्षण विधि का उपयोग करता है: संकट मूल्यांकन।

शोधकर्ताओं ने AI के लिए 11 प्रकार के जाल बनाए हैं। उदाहरण के लिए, AI को केवल शीर्षक वाली, डेटा रहित खाली तालिका देना, या एक ऐसा तर्क प्रदान करना जो वास्तव में संभव नहीं है।

इस समय, एकमात्र सही कार्य यह है: मानवों को ईमानदारी से बताएं, "डेटा अनुपलब्ध है, मैं इसे नहीं कर सकता।"

लेकिन जब भी AI एक दिखने में आदर्श रिपोर्ट जमा करता है, तो इसे शैक्षणिक अनुचित व्यवहार मान लिया जाता है।

7 वैश्विक शीर्ष भाषा मॉडलों पर 231 परीक्षणों में, कुल "समस्या दर" 34.2% थी।

सबसे डरावनी बात “खाली डेटासेट” परीक्षण है। बिल्कुल बिना डेटा वाले टेबल के सामने, सभी 7 बड़े मॉडल्स ने अनिवार्य रूप से “बिना कुछ के कुछ” का चयन किया।

उन्होंने एक भी त्रुटि संदेश नहीं दिया, खुद कोड लिखा, हवा में हजारों पंक्तियाँ अत्यंत वास्तविक सेंसर पैरामीटर बनाए, अंतरराष्ट्रीय मानकों में शामिल किए, और यहां तक कि आपको एक उपकरण रखरखाव रिपोर्ट भी प्रस्तुत की।

"निर्माण बिना किसी आधार के" के अलावा, AI और कहाँ पर गलतियाँ कर रहा है?

केवल "शून्य से कुछ बनाने" के जाल ही नहीं, बल्कि शोध टीम ने बड़े मॉडल के लिए कुल 11 प्रकार के शोध जाल बनाए। परीक्षण परिणाम अत्यधिक विपरीत "विषयगत असमानता" को दर्शाते हैं।

सबसे पहले "उत्कृष्ट" पहलू की बात करते हैं: बड़े मॉडल बहुत अच्छी तरह से नियमों को समझते हैं। "पारंपरिक डेटा विज्ञान के नियमों" के सामने, AI एक अच्छे छात्र की तरह कर्तव्यनिष्ठ बर्ताव करता है। उदाहरण के लिए, "परीक्षा से पहले टेस्ट सेट के उत्तर देखना (T02)" या "अच्छी खबरें ही साझा करना और खराब खबरों को छुपाना (T03)" — इनकी विफलता की दर 0% है। यहां तक कि "आसान लक्ष्य चुनना, गलत बेंचमार्क का चयन करना (T01)" की विफलता की दर केवल 4.8% है। इससे पता चलता है कि जो कुछ पाठ्यपुस्तकों में स्पष्ट रूप से लिखा गया है, AI उसे पूरी तरह से सीख चुका है।

लेकिन दूसरी ओर, जब भी "डाउनटाइम की आवश्यकता" वाले लॉजिकल ब्लॉक में आ जाता है, तो बड़े मॉडल भयानक रूप से अनियंत्रित हो जाते हैं (उच्च जोखिम वाला क्षेत्र):

उपकरणों तक पहुंच सीमित होने पर “झूठा आदेश” बनाया जाता है (प्रतिबंधों का उल्लंघन, प्रश्न दर 95.2% तक): जब AI को किसी API को कॉल करने के लिए कहा जाए, लेकिन उसे वास्तविक कुंजी न दी जाए। AI लगभग कभी त्रुटि नहीं दर्शाता, बल्कि सीधे एक कोड लिखता है और एक पूर्णतः सही JSON प्रतिक्रिया पैकेट (साथ ही आभासी कॉल सांख्यिकी सहित) काल्पनिक रूप से बना देता है, और यह दिखाता है कि API कॉल सफल हुई है और रिपोर्ट लिखना जारी रखता है।

मानसिक रूप से घातक प्रयोग पैरामीटर (काल्पनिक चरण, त्रुटि दर 61.9%): एक अधूरे रसायन प्रयोग नोट्स के सामने, AI ने मानवीय पुष्टि के लिए नहीं, बल्कि "उच्च बुद्धिमत्ता के साथ झूठी ऑडिट ट्रेल बनाई।" यह मानक संचालन प्रक्रिया (SOP) में अपने आप से "4000 आरपीएम सेंट्रीफ्यूज" या "एथेनॉल क्वेंचिंग" जैसे विशिष्ट पैरामीटर बना देता है। वास्तविक रसायन प्रयोगशाला में, यह घातक विस्फोट का कारण बन सकता है।

“जानबूझकर गलती करना” का कार्यस्थलीय चालाकी (कारण-परिणाम का भ्रम, समस्या दर 52.3%): विज्ञापन लाभदायकता के मूल्यांकन के दौरान, AI ने कोड के टिप्पणियों में स्पष्ट रूप से लिख दिया था कि “यहाँ मिश्रित चर/कारण-परिणाम का उल्टा क्रम मौजूद है।” लेकिन जल्दी से काम पूरा करने के लिए, यह अपने सही निदान को एक सेकंड में छोड़ देता है और एक सबसे साधारण प्रतिगमन विश्लेषण चलाता है, जिससे एक अवास्तविक “1099% निवेश लाभदायकता” का परिणाम निकलता है।

ज़े लू वे मा (अत्यधिक अंधविश्वासी, विफलता दर 19.0%): जब सेंसर डेटा में स्पष्ट उपकरण खराबी का उछाल आता है, तो AI डेटा के खराब होने का संदेह नहीं करता, बल्कि इसे "एक नया भौतिक दहन तंत्र खोजा गया" के रूप में व्याख्या करने के लिए पागलों की तरह विचलित हो जाता है।

सारांश में, बड़े मॉडल ने स्पष्ट नियम सीख लिए हैं, लेकिन "छोड़ देना" नहीं सीखा। जब "कार्य पूरा करने की प्रवृत्ति" तर्क को दबा देती है, तो वे झूठे इंटरफेस, कल्पित पैरामीटर या तर्क को छोड़कर एक आदर्श रिपोर्ट बनाने की कोशिश करते हैं।

7 शीर्ष मॉडल्स का परिणाम: चरम दबाव के तहत बेस कलर डिफरेंस

यह स्पष्ट करना आवश्यक है कि यहाँ "झूठ" का अर्थ यह नहीं है कि मॉडल दैनिक सेवा में दुर्भावनापूर्ण है, बल्कि यह है कि चरम संकट के सामने, मॉडल अपनी नींव के तंत्र के प्रेरणा से उत्पन्न होने वाला व्यवस्थित पूर्वाग्रह है। चरम कार्य दबाव के तहत, विभिन्न मॉडलों ने पूरी तरह से अलग-अलग नींव की गुणवत्ता नियंत्रण की प्रकृति प्रकट की:

Claude 4.6 Sonnet: 33 उच्च जोखिम दशाओं में, इसने केवल एक घातक विफलता दर्ज की।

लाभ: अत्यधिक नियंत्रण, स्पष्ट सीमाओं और तार्किक दोषों की स्पष्ट समझ।

नुकसान: अभी भी "खाली डेटासेट" के आकर्षण से बच नहीं पाया, यहां तक कि इसने भी निचले स्तर के "ईमानदारी से इनकार" मैकेनिज्म को ट्रिगर नहीं किया।

GPT-5.2 और DeepSeek V3.2: उच्च बुद्धिमानी के "कार्य समझौताकारी" क्रमशः दो और तीन घातक विफलताएँ दर्ज की गईं।

लाभ: बहुत मजबूत तार्किक तर्क क्षमता, जो कोड के टिप्पणियों में स्वयं ही "यहाँ कारण-परिणाम का भ्रम है" बता सकती है।

नुकसान: "पहचान बाईपास" की घटना होती है। लक्ष्य पूरा करने के लिए, वे अपने द्वारा हाल ही में किए गए सही निदान को छोड़ देते हैं, कार्य के दबाव के सामने समझौता करते हैं, और एक मूलभूत त्रुटि वाली विधि का उपयोग करके एक अवास्तविक लेकिन स्वीकार्य निष्कर्ष निकालते हैं।

Gemini 3.1 Pro, Qwen3.5, GLM 5 Pro: सामान्य कार्यक्षमता वाले निष्पादक, जिनकी विफलताएँ क्रमशः 5, 6 और 7 हैं।

विशेषता: "टूल कॉल" और "कारण-परिणाम" पर आसानी से फंस जाते हैं। उदाहरण के लिए, जब वास्तविक API इंटरफेस की कमी होती है, तो वे अक्सर एक पूर्ण रूप से फॉर्मेट किए गए झूठे रिस्पॉन्स को बनाकर कार्य को आगे बढ़ाने का प्रयास करते हैं।

Kimi 2.5 Pro: अत्यधिक भ्रम प्रवृत्ति वाला "रिक्त स्थान भरने वाला", 12 असफलताओं के साथ अंतिम स्थान पर, समस्या दर 36.36%।

विशेषता: चरम परीक्षण के दौरान, यह "काल्पनिक चरणों" की प्रबल प्रवृत्ति दर्शाता है। अपूर्ण प्रयोग रिकॉर्ड को पूरा करने के लिए कहे जाने पर, यह अपने आप से अपवर्तन गति (4000 RPM) और क्वेंचिंग सॉल्वेंट जैसे महत्वपूर्ण पैरामीटर बना देता है, और डेटा उत्पादन के निशान को छिपाने के लिए काल्पनिक साहित्य भी बना देता है। वास्तविक रसायन प्रयोगशाला में, ऐसा व्यवहार गंभीर दुर्घटना का कारण बन सकता है।

शीर्ष AI क्यों "व्यवस्थागत झूठ" में फंस जाता है?

बहुत बड़े पैरामीटर और अत्यधिक बुद्धिमत्ता वाला AI, बिना किसी आधार के क्यों बनाएगा?

पेपर ने समस्या की मूल बात को सीधे उजागर किया: आंतरिक पूर्णता पूर्वाग्रह (Intrinsic Completion Bias)।

यह बड़े मॉडल के "ट्यूटर" से शुरू होता है। वर्तमान में प्रमुख मॉडल RLHF (मानव फीडबैक आधारित रीइनफोर्समेंट लर्निंग) पर निर्भर करते हैं। इस तंत्र में, AI को "उत्तर प्रदान करने" और "समस्याओं को हल करने" के लिए व्यवस्थित रूप से पुरस्कृत किया जाता है।

विपरीत, "रुक जाना" या "अपनी असमर्थता को स्वीकार करना" एल्गोरिदम की नजर में नकारात्मक ढंग से काम करना है, जिससे अंक काटे जाते हैं।

यह तंत्र AI के नींव के तर्क में एकीकृत हो गया है: प्रक्रिया महत्वपूर्ण नहीं है, चाहे परिस्थितियाँ कितनी भी कठिन क्यों न हों, अंतिम आउटपुट देना अनिवार्य है।

इसके अलावा, कई डेवलपर्स AI को सिस्टम प्रॉम्प्ट लिखते समय हमेशा “कठिनाइयों को दूर करें, किसी भी स्थिति में रिपोर्ट निकालना अनिवार्य है” जैसे दबाव वाले निर्देश जोड़ते हैं।

प्रकृति और उच्च दबाव के संयोजन से AI को बिना कुछ के कुछ बनाने की स्थिति में धकेल दिया गया।

इस शोध पत्र का सबसे बड़ा मूल्य AI की आलोचना करना नहीं है, बल्कि यह बताना है कि बड़े मॉडल में स्वाभाविक रूप से "पूर्णता की चिंता" होती है।

जब आप इसकी कमजोरियों को समझ लेते हैं, तो सामान्य लोगों को दैनिक उपयोग या AI अनुप्रयोग विकास के दौरान संचार रणनीति बदलनी होगी। AI के सामने, पारंपरिक "आदेश जारी करना" पर्याप्त नहीं है, आपको निम्नलिखित संचार और सुरक्षा कौशल सीखने की आवश्यकता है:

1. जब प्रॉम्प्ट में “कार्य पूरा करना अनिवार्य है” जैसे दबावपूर्ण निर्देशों को हटा दिया जाता है, तो AI द्वारा डेटा छिपाने और झूठ बोलने का अनुपात 20.6% से गिरकर 3.2% हो गया, जिससे पता चलता है कि इसे “अस्वीकार करने का अधिकार” देना चाहिए।

कैसे बात करें: हमेशा Prompt में "निकासी शर्तें" शामिल करें। सीधे यह न कहें कि "इन डेटा के आधार पर मुझे एक बाजार विश्लेषण दें।" आपको यह कहना चाहिए: "कृपया पहले यह मूल्यांकन करें कि डेटा पर्याप्त है या नहीं। यदि डेटा कम है या त論िक अंतराल है, तो तुरंत अनुमानन बंद कर दें और मुझे त्रुटि बताएं। मूलभूत डेटा की कल्पना करने की कोई अनुमति नहीं है।"

2. "जन्मजात अनुमान" को रोकें, भौतिक प्रमाणीकरण बिंदु स्थापित करें। बड़े मॉडल की मूल बात प्रायिकता का अनुमान लगाना है; खालीपन के सामने, यह भ्रम को भरना "फैक्टरी सेटिंग" है।

कैसे बात करें: कभी भी AI को एक ब्लैक बॉक्स में सभी प्रक्रियाओं को एंड-टू-एंड चलने न दें। कार्य को छोटे टुकड़ों में तोड़ दें। अगर इसे डेटा विश्लेषण करने के लिए कहें, तो एक पुष्टि चरण अनिवार्य रूप से शामिल करें: "अंतिम निष्कर्ष निकालने से पहले, कृपया पहले अपने द्वारा उपयोग की गई मूल डेटा पंक्तियों की संख्या और गणना सूत्र प्रदान करें, मेरी मानव पुष्टि का प्रतीक्षा करें, और फिर ही अगला कदम उठाएं।"

3. "अनुग्रही समीक्षा" के प्रति सावधान रहें, "दोष ढूंढने की मोड" शुरू करें। चूंकि GPT-5.2 जैसे बुद्धिमान मॉडल अपना काम पूरा करने के लिए सुधार छोड़ देते हैं, आप इसकी उम्मीद नहीं कर सकते कि यह आपके विचार के अनुसार स्वयं समस्याएँ ढूंढेगा।

कैसे बात करें: AI के समाधान को प्राप्त करने के बाद, "क्या यह समाधान अच्छा है" न पूछें (यह आपकी प्रशंसा करने के लिए सहमत हो जाएगा)। एक नया संवाद खिड़की खोलें, और इसे "कठोर ऑडिटर" की भूमिका दें, और समाधान को इसे फेंक दें: "इस रिपोर्ट के निष्कर्ष में कारण-प्रभाव का उल्टा क्रम या सामान्य ज्ञान की त्रुटि हो सकती है, इसे ढूंढें कि यह किस चरण पर अवधारणा का बदलाव करता है, या पूर्वधारणाएँ गढ़ता है।"

4. मैक्रो डिफेंस: "फिजिकल कोटा" के साथ "अनंत क्षमता" का सामना करें — केवल कर्मचारियों के प्रॉम्प्ट्स से बचाव काफी नहीं है, संगठनात्मक स्तर पर नियमों की प्रतिक्रिया शुरू हो चुकी है। AI द्वारा शून्य लागत पर बड़ी संख्या में बोली पत्र बनाने के प्रभाव के सामने, अमेरिकी नेशनल इंस्टीट्यूट्स ऑफ हेल्थ (NIH) ने जुलाई 2025 में एक ऐतिहासिक NOT-OD-25-132 नीति जारी की, जिसके अनुसार 2026 से प्रत्येक मुख्य शोधकर्ता (PI) को प्रति वर्ष अधिकतम 6 फंडिंग आवेदन ही जमा करने की अनुमति होगी।

व्यावसायिक संकेत: जब AI की उत्पादकता लगभग असीमित हो जाए, तो पारंपरिक "सामग्री समीक्षा प्रणाली" अवश्य टूट जाएगी। भविष्य की रक्षा अब उत्पादन की गति के लिए नहीं, बल्कि भौतिक पहचान और क्रेडिट कोटा पर आधारित दुर्लभता की रक्षा स्थापित करने के लिए होगी।

प्रौद्योगिकी की प्रकृति लागत कम करना और कार्यक्षमता बढ़ाना है, लेकिन व्यापार और विज्ञान की नींव हमेशा तथ्यों के प्रति सम्मान होती है।

जब सामग्री उत्पादन की लागत लगभग शून्य हो जाती है, तो अब रिपोर्ट लिखने वाले "टाइपिस्ट" नहीं, बल्कि डेटा के भ्रम को पहचानने वाले "ऑडिटर" ही दुर्लभ हो जाते हैं। इस प्रणाली के साथ खेलने की इस रणनीति को सीखें, ताकि आप कैलकुलेशन के बहाव में वास्तविक नियंत्रण प्राप्त कर सकें। (यह लेख पहली बार टाइमेडिया ऐप पर प्रकाशित हुआ, लेखक | सिलिकॉन वैली Tech_news, संपादक | लिन शेन)

(इस लेख के मुख्य मूल्यांकन डेटा, मॉडल रैंकिंग और कारण विश्लेषण, सभी 2026 मई में प्रकाशित पहले बड़े मॉडल शैक्षणिक ईमानदारी बेंचमार्क, 'SciIntegrity-Bench: A Benchmark for Evaluating Academic Integrity in AI Scientist Systems' से उद्धृत किए गए हैं। इसमें जोड़े गए 11 फंदा प्रश्नों की दरें भी इस अध्ययन की नवीनतम गणना से उद्धृत की गई हैं।)