एक अमेरिकी सरकारी एजेंसी ने चीन के सबसे शक्तिशाली कृत्रिम बुद्धिमत्ता के लिए मूल्यांकन परिणाम जारी किए: आठ महीने पीछे, और समय के साथ यह अंतर बढ़ता जा रहा है। इंटरनेट उपयोगकर्ताओं ने मूल्यांकन विधि को पढ़ने के बाद विभिन्न प्रश्न उठाने शुरू कर दिए।
CAISI——人工智能标准与 नवीनता केंद्र, जो संयुक्त राज्य अमेरिका के मानकों और प्रौद्योगिकी निर्धारण संस्थान (NIST) के अंतर्गत आता है——ने 1 मई को DeepSeek V4 Pro की मूल्यांकन रिपोर्ट जारी की। निष्कर्ष यह है कि DeepSeek का ओपन-सोर्स फ्लैगशिप उत्पाद “अग्रणी प्रौद्योगिकी से लगभग 8 महीने पीछे” है।
CAISI ने इसे अब तक आकलित सबसे शक्तिशाली चीनी आर्टिफिशियल इंटेलिजेंस मॉडल भी कहा है।
Rating System
CAISI अधिकांश मूल्यांकन संस्थाओं की तरह बेंचमार्क स्कोर का औसत नहीं लेता। इसके बजाय, यह प्रतिक्रिया सिद्धांत (एक मानकीकृत परीक्षण से ली गई सांख्यिकीय विधि) का उपयोग करता है, जिसमें प्रत्येक मॉडल की संभावित क्षमता का अनुमान लगाया जाता है, जबकि यह ट्रैक करता है कि प्रत्येक मॉडल ने पाँच क्षेत्रों (साइबर सुरक्षा, सॉफ्टवेयर इंजीनियरिंग, प्राकृतिक विज्ञान, अमूर्त तर्क और गणित) में नौ बेंचमार्क में से कौन से प्रश्न हल किए हैं और कौन से नहीं।
IRT के अनुसार अनुमानित Elo स्कोर के अनुसार, GPT-5.5 का स्कोर 1260 है, Anthropic का Claude Opus 4.6 का स्कोर 999 है। DeepSeek V4 Pro का स्कोर लगभग 800 (±28) है, जो GPT-5.4 mini के 749 के बहुत करीब है। CAISI के स्कोरिंग सिस्टम में, DeepSeek Opus के बजाय पिछली पीढ़ी के GPT mini के अधिक करीब है।
बेंचमार्क में स्कोरिंग सिस्टम मानकीकृत परीक्षा द्वारा छात्रों को स्कोर देने के तरीके का अनुकरण करता है—सीधे सही उत्तरों के अनुपात के आधार पर नहीं, बल्कि छात्रों द्वारा सही और गलत उत्तर दिए गए प्रश्नों के भार के आधार पर स्कोर देकर एक स्कोर अनुमान प्राप्त किया जाता है। यह स्कोर अनुमान केवल तभी सापेक्ष अर्थ रखता है जब इसे एक ही मूल्यांकन के तहत अन्य मॉडल के साथ तुलना किया जाए। सामान्यतः, जितना अधिक स्कोर, उतना ही बेहतर मॉडल, और सर्वश्रेष्ठ मॉडल का स्कोर मॉडल क्षमता के मापदंड के रूप में होगा।
चूंकि नौ मानक परीक्षणों में से दो गैर-प्रकाशित हैं और इन दोनों परीक्षणों में अंतर सबसे अधिक है, इसलिए CAISI के परिणामों को पुनर्निर्मित नहीं किया जा सकता। उदाहरण के लिए, GPT-5.5 ने CAISI के साइबर सुरक्षा परीक्षण में से एक, CTF-Archive-Diamond पर 71% अंक प्राप्त किए, जबकि DeepSeek के अंक लगभग 32% थे।
सार्वजनिक बेंचमार्क में स्थिति अलग है। GPQA-Diamond बेंचमार्क (डॉक्टरेट स्तर का वैज्ञानिक तर्क परीक्षण, जिसे सही उत्तर के आधार पर अंकित किया जाता है) में, DeepSeek का स्कोर 90% है, जो Opus 4.6 के 91% से केवल 1% कम है। गणितीय ओलंपियाड बेंचमार्क (OTIS-AIME-2025, PUMaC 2024 और SMT 2025) में, DeepSeek के स्कोर क्रमशः 97%, 96% और 96% हैं। SWE-Bench Verified परीक्षण (GitHub पर वास्तविक बग फिक्स के लिए, जिसे समाधान दर के आधार पर अंकित किया जाता है) में, DeepSeek का स्कोर 74% है, जबकि GPT-5.5 का स्कोर 81% है। DeepSeek की अपनी तकनीकी रिपोर्ट में दावा किया गया है कि V4 Pro का प्रदर्शन Opus 4.6 और GPT-5.4 के समान है।
लागत की तुलना के लिए, CAISI ने उन सभी अमेरिकी मॉडल्स को हटा दिया जो DeepSeek की तुलना में स्पष्ट रूप से कम प्रदर्शन करते थे या जिनकी एकल टोकन लागत DeepSeek से स्पष्ट रूप से अधिक थी। अंततः केवल एक ही मॉडल मानकों को पूरा करता है: GPT-5.4 mini। यह लगभग सभी अमेरिकी सबसे उन्नत एल्गोरिदम को समेटता है, और अंततः केवल यही एक बचता है।
DeepSeek ने 7 में से 5 बेंचमार्क में अधिक सस्ता प्रदर्शन किया और यहां तक कि OpenAI के सबसे छोटे और सबसे कम क्षमता वाले AI मॉडल को हरा दिया।
विरोधी दृष्टिकोण: अंतर अधिक है या कम?
CAISI की विधि की आलोचना से डीपसीक की सही साबित नहीं होती। इस छद्म नाम CAISI वाले AI डेवलपर Ex0bit ने सीधे जवाब दिया: “कोई ‘अंतर’ मौजूद नहीं है, और कोई 8 महीने पीछे नहीं है। हर बार अमेरिका में बंद बिक्री के दौरान हमें मजाक उड़ाया जाता है, और खुली बिक्री के दौरान हमें हँसी उड़ाई जाती है।”
人工智能分析智能指数 v4.0 (एक 10 आकलनों के माध्यम से अग्रणी मॉडल की बुद्धिमत्ता को ट्रैक करने वाला रेटिंग सिस्टम) दिखाता है कि 2026 मई तक, OpenAI का स्कोर लगभग 60 है, जबकि DeepSeek का स्कोर लगभग 50 है, जो पिछले साल की तुलना में काफी कम हो गया है।
According to standardized benchmarks, their approach indicates that the gap is actually narrowing.
DeepSeek का पहली बार आना 2025 के जनवरी में, सवाल यह था कि क्या चीन पीछे नहीं रह गया है।अमेरिकी प्रयोगशालाओं ने तुरंत प्रतिक्रिया दी। स्टैनफोर्ड विश्वविद्यालय का 2026 का कृत्रिम बुद्धिमत्ता सूचकांक — 13 अप्रैल को प्रकाशित — रिपोर्ट करता है कि Claude Opus 4.6 और चीन के Dola-Seed-2.0 Preview के बीच Arena रैंकिंग का अंतर संकुचित हो रहा है, जो अब केवल 2.7% का है।
CAISI शीघ्र ही IRT विधि विवरण का अधिक सम्पूर्ण संस्करण जारी करेगा।
