DeepSeek ने AI की स्थानिक तर्क क्षमता को बेहतर बनाने के लिए विजुअल प्रिमिटिव्स पेश किए हैं

लेख | अक्षर AI

मेंढक के एक दिन पहले, डीपसीक ने एक विजुअल मल्टीमॉडल तकनीक रिपोर्ट जारी कर दी।

मैंने इसे खोलने से पहले एक अपेक्षा रखी थी, यह सिर्फ इतना था कि मैं कितनी दूर तक देख सकता हूँ, कितना स्पष्ट देख सकता हूँ।

अंततः पिछले वर्ष, मल्टीमॉडल मॉडल्स इस दिशा में बहुत जोर लगा रहे थे। OpenAI ने इमेजेज के साथ सोचने की बात की, जिसमें मॉडल निष्कर्ष निकालने के दौरान छवियों को क्रॉप, जूम और घुमाता है; Gemini, Claude भी उच्च रिज़ॉल्यूशन और अधिक जटिल विजुअल इनपुट को संसाधित करने के तरीके ढूंढ रहे हैं।

सभी का सामान्य अनुमान है कि जब मॉडल अधिक विस्तार से देखता है, तो दृश्य तर्क स्वतः बेहतर हो जाता है।

लेकिन DeepSeek की इस रिपोर्ट को देखने के बाद, आप पाएंगे कि वे पूरी तरह से एक अलग रास्ता अपना चुके हैं।

DeepSeek ने “मॉडल को अधिक पिक्सेल देखने देने” पर ध्यान नहीं दिया, उन्होंने एक अधिक मूलभूत समस्या पर ध्यान केंद्रित किया।

जब तक मॉडल ने स्पष्ट रूप से देख लिया हो, तब तक आप कैसे निश्चित हो सकते हैं कि मॉडल और आप एक ही चीज की बात कर रहे हैं?

यह वास्तव में मल्टीमॉडल निष्कर्षण में सबसे अनदेखा किया जाने वाला दुर्बल बिंदु है।

जब इंसान तस्वीर देखते हैं, तो वे अपनी उंगली से वस्तुओं को चिह्नित कर सकते हैं। उदाहरण के लिए, "यह व्यक्ति कौन है" या "वह व्यक्ति कौन है"। लेकिन मॉडल को कैसे पता चलेगा कि आप किसकी बात कर रहे हैं?

मॉडल केवल भाषा का उपयोग करके "बाएं वाला", "ऊपर वाला", "यह रेखा" कह सकता है। जैसे ही चित्र जटिल हो जाता है, भाषिक संदर्भ बदल जाते हैं और तर्क भी टूट जाता है।

तब डीपसीक ने कहा, तो मॉडल को एक “उंगली” क्यों नहीं दे देते?

यह बिंदुओं और बाउंडिंग बॉक्स को मॉडल के विचार के आधारभूत इकाइयों में बदल देता है, जिससे मॉडल एक साथ साइबर उंगली से वस्तु को इशारा करते हुए तर्क कर सके।

01 From Continuous Vision to Discrete Symbols

DeepSeek इस तकनीकी रिपोर्ट में एक दिलचस्प प्रश्न उठाते हैं। वे मानते हैं कि बहुआयामी मॉडल की वास्तविक कठिनाई चित्र देखने में नहीं, बल्कि लगातार निष्कर्ष निकालने के दौरान एक ही दृश्य वस्तु को स्थिर रूप से संकेतित करने में है।

जैसे कि आप अपने दोस्त से कहते हैं, "बाजार में, जांग बुआ की दुकान पर सबसे ताजा सब्जियां मिलती हैं।" लेकिन बाजार में बहुत सारे बूढ़े और बूढ़ी महिलाएं हैं, कौन है जांग बुआ?

लेकिन अगर आप सीधे अपनी उंगली से इशारा करके कहें “वही वाला”, तो आपका दोस्त तुरंत समझ जाएगा।

DeepSeek ने इस समस्या को "रेफरेंस गैप" के रूप में नाम दिया है।

पिछले वर्ष, लगभग सभी अग्रणी बहुआयामी मॉडल ने "पर्सेप्शन गैप" को हल करने की कोशिश की है।

अगर आपके सामने एक फोटो है, और फोटो बहुत धुंधली है या रिज़ॉल्यूशन बहुत कम है, तो आप उसमें छोटे अक्षरों या दूर के विवरण को स्पष्ट रूप से नहीं देख सकते। AI के लिए भी ऐसा ही है—अगर इनपुट इमेज की गुणवत्ता पर्याप्त नहीं है या प्रोसेसिंग गलत है, तो यह “अस्पष्ट” देखेगा, जिसे हम पर्सेप्शन गैप कहते हैं।

GPT, Claude, Gemini इन मॉडल्स लगातार रिजोल्यूशन बढ़ा रहे हैं, उच्च रिजोल्यूशन क्रॉपिंग, डायनामिक ब्लॉकिंग और मल्टी-स्केल प्रोसेसिंग शामिल करके, जिसका उद्देश्य मॉडल को अधिक डिटेल्स देखने में सक्षम बनाना है।

इस दिशा में निश्चित रूप से मूल्य है, लेकिन DeepSeek ने रिपोर्ट में बताया है कि भले ही मॉडल बहुत स्पष्ट रूप से देखे, जटिल स्थानिक तर्क कार्यों में अभी भी तार्किक विफलता हो सकती है।

The problem lies in the natural language itself.

फोटो में दर्जनों कुत्ते हैं, आप कहते हैं "बाएं ओर का कुत्ता", तो मॉडल आपका विशिष्ट कुत्ता समझ नहीं पाएगा।

और यह भी है कि अगर आप मॉडल से फोटो में कुत्तों की संख्या गिनने को कहें, तो मॉडल अपने निष्कर्ष निकालने के दौरान आसानी से भूल जाता है कि उसने किन कुत्तों को गिन लिया है और किन्हें अभी गिना नहीं है।

रिपोर्ट में लैबरिंथ नेविगेशन जैसी चरम स्थितियों का भी उल्लेख किया गया है, जहाँ केवल भाषा अनियमित आकारों के मार्ग और जटिल टोपोलॉजिकल संबंधों को सटीक रूप से वर्णित नहीं कर सकती।

भाषा एक संदर्भ उपकरण के रूप में, लगातार दृश्य स्थान में स्वाभाविक रूप से अस्पष्ट है। यह अमूर्त अवधारणाओं और कारण-परिणाम संबंधों में कुशल है, लेकिन स्थानिक स्थिति और टोपोलॉजिकल संबंधों में, भाषा की अभिव्यक्ति की क्षमता मूलभूत सीमाओं से ग्रस्त है।

DeepSeek खुद एक सामान्य भाषा मॉडल है, तो इस समस्या का समाधान कैसे किया जाए?

इसलिए लेख की शुरुआत में उल्लिखित यह “उंगली” बनी।

उन्होंने मूल अवधारणा के रूप में "दृश्य आधारभूत तत्व" (Visual Primitives) प्रस्तुत किए हैं, जिसमें विशेष रूप से कंप्यूटर दृष्टि में सबसे बुनियादी स्थानिक टैग, बाउंडिंग बॉक्स (bounding boxes) और बिंदु (points), को "विचार की न्यूनतम इकाई" के रूप में उठाया गया है।

पिछले मल्टीमॉडल मॉडल भी वस्तुओं को बॉक्स में चिह्नित कर सकते थे, लेकिन वे केवल अंत में परिणाम दिखाते थे, जिससे साबित होता था कि "मैंने ढूंढ लिया।" जैसे परीक्षा में, आप केवल उत्तर जमा करते हैं, समाधान की प्रक्रिया नहीं लिखते।

कुछ अनुसंधानों में AI को विचार प्रक्रिया के दौरान बॉक्स बनाने के लिए कहा गया है, लेकिन उद्देश्य केवल “अधिक सटीक देखना” है; बॉक्स केवल एक सहायक उपकरण हैं। इसका मतलब है जैसे आप गणित के प्रश्न हल करते समय कागज पर कैलकुलेशन करते हैं, कागज केवल आपको अधिक स्पष्ट रूप से गणना करने में मदद करता है, यह समाधान की रणनीति का हिस्सा नहीं है।

DeepSeek करने जा रहा है बिल्कुल अलग।

वे इन स्पेस मार्कर्स को सीधे मॉडल के इन्फरेंस प्रक्रिया में एम्बेड करते हैं, ताकि वे इन्फरेंस का अभिन्न हिस्सा बन जाएँ। मॉडल सोचते समय, केवल भाषा का उपयोग करके "मैंने एक कुत्ता देखा" नहीं कहता, बल्कि एक साथ यह भी आउटपुट करता है: "मैंने एक कुत्ता देखा, यह यहाँ है: [[x1,y1,x2,y2]]"।

इस तंत्र को DeepSeek द्वारा "जबकि यह तर्क करता है, उस पर इशारा करें" (point while it reasons) कहा जाता है।

DeepSeek

मॉडल का प्रत्येक चरण चित्र के विशिष्ट निर्देशांक पर आधारित होता है।

टेक्निकल रिपोर्ट में एक उदाहरण दिया गया है: मॉडल शुरुआती बिंदु से शुरू होता है, आगे बढ़ता है, पीछे लौटता है, फिर से प्रयास करता है, और अंत में एक पूर्ण निर्देशांक पथ आउटपुट करता है, जहां प्रत्येक निर्देशांक लैबरिंथ में चले गए एक बिंदु को दर्शाता है।

इस तरह, मॉडल निष्कर्ष निकालने के दौरान "भटक" नहीं जाएगा। यह अपने बारे में या किसी चीज़ के बारे में भ्रमित नहीं होगा। प्रत्येक दृश्य वस्तु के पास एक स्पष्ट स्थानीय अंक है, और निष्कर्ष निकालने की प्रक्रिया ट्रैक करने योग्य और सत्यापित करने योग्य हो जाती है।

यह तकनीकी राह OpenAI की दिशा के साथ एक दिलचस्प तुलना बनाती है।

OpenAI ने o3 और o4-mini के आधिकारिक विवरण में "चित्रों के साथ सोचना" की अवधारणा का स्पष्ट उल्लेख किया है, जिसका अर्थ है कि मॉडल चित्रों को अपनी तर्क प्रक्रिया में शामिल कर सकता है और चित्रों को काटने, बड़ा करने, घुमाने आदि तरीकों से संसाधित कर सकता है। इस दिशा का मुख्य ध्यान चित्रों को स्वयं तर्क प्रक्रिया का हिस्सा बनाना है, जिससे मॉडल तर्क प्रक्रिया के दौरान नए चित्र बना सकता है, चित्रों में संशोधन कर सकता है, और चित्रों पर कार्य कर सकता है।

OpenAI का रोडमैप सामान्य क्षमताओं पर जोर देता है, जिसमें दृश्य, कोड, खोज, फ़ाइलें और टूल कॉल सहयोग करते हैं। मॉडल में एक शक्तिशाली "विजुअल वर्कबेंच" है, जो विभिन्न दृश्य कार्यों को लचीले ढंग से संभाल सकता है।

डीपसीक का दृष्टिकोण थोड़ा अधिक "प्रतीकात्मक" है। यह निर्देशांक को विचार श्रृंखला में शामिल करता है। मॉडल निष्कर्षण पाठ में सीमा बॉक्स और बिंदुओं के निर्देशांक को स्पष्ट रूप से लिखता है, जिससे दृश्य वस्तुएँ निष्कर्षण के दौरान पुनःउपयोग के लिए स्थिर बिंदु बन जाती हैं।

इससे यह होता है कि OpenAI का दृश्य तर्क आंतरिक रूप से होता है, और उपयोगकर्ता केवल अंतिम उत्तर और आवश्यक व्याख्या देख सकते हैं, जबकि मध्यवर्ती दृश्य प्रसंस्करण प्रक्रिया एक काला बॉक्स होती है। DeepSeek ने जानबूझकर मध्यवर्ती दृश्य अंकों को स्पष्ट रूप से प्रदर्शित किया है, ताकि तर्क प्रक्रिया पूरी तरह से पारदर्शी हो।

DeepSeek ऐसा करने से निष्कर्षण प्रक्रिया को आसानी से प्रशिक्षित, जांच और अंक दिए जा सकते हैं। इससे फॉर्मेट, गुणवत्ता और कार्य-स्तरीय पुरस्कारों को डिज़ाइन करना भी आसान हो जाता है। विशेष रूप से मैज़, पथ ट्रैकिंग जैसे कार्यों में, पथ की वैधता, ट्रैजेक्टरी कवरेज आदि के लिए अधिक सूक्ष्म प्रतिक्रिया दी जा सकती है।

मॉडल केवल सही उत्तर देना सीखना ही नहीं है, बल्कि दृश्य आधारों का उपयोग करके तर्क करने की विधि भी सीख गया है।

02 कुशलता ही मूल है

DeepSeek की इस रिपोर्ट में एक ऐसा बहुत ही महत्वपूर्ण विवरण है जिसे आसानी से नजरअंदाज कर दिया जाता है, उनके मॉडल इमेज को प्रोसेस करते समय अन्य सबसे अग्रणी मॉडल्स की तुलना में काफी कम टोकन का उपयोग करते हैं।

रिपोर्ट में एक तुलनात्मक चार्ट है जो 800×800 रिज़ॉल्यूशन की एक छवि को संसाधित करने के लिए विभिन्न मॉडल द्वारा उपयोग किए गए टोकन की संख्या को दर्शाता है।

जेमिनी-3-फ्लैश लगभग 1100, क्लॉड-सोनेट-4.6 लगभग 870, GPT-5.4 लगभग 740, Qwen3-VL लगभग 660, डीपसीक लगभग 361, और KV कैश में केवल लगभग 90 प्रविष्टियाँ रखी जाती हैं।

यह अंतर कुछ नहीं है। DeepSeek द्वारा उपयोग किए जाने वाले टोकन की संख्या Gemini की तुलना में केवल एक-तिहाई है, और KV कैश प्रविष्टियाँ लगभग दसवाँ हिस्सा हैं।

इस अत्यधिक कुशलता को कैसे प्राप्त किया गया?

DeepSeek ने "कंप्रेस्ड स्पार्स अटेंशन" (Compressed Sparse Attention, CSA) नामक एक तंत्र का उपयोग किया।

आप इसे इस तरह समझ सकते हैं, मान लीजिए आप अपने दोस्त को एक परिवार की तस्वीर दिखा रहे हैं, आप कहेंगे नहीं कि "बाएं से 237वें पिक्सेल से एक लाल क्षेत्र शुरू होता है...", आप सीधे कहेंगे "बाएं मेरी माँ हैं, दाएं मेरे पिता हैं।"

DeepSeek-ViT पहले छवि को कम विजुअल टोकन में संपीड़ित करता है, फिर CSA इन विजुअल टोकन के KV कैश में प्रतिनिधित्व को आगे संपीड़ित करता है।

इस तंत्र का उपयोग DeepSeek-V4-Flash मॉडल पर पहले किया गया था, और अब इसे विजुअल मल्टीमॉडल में लागू किया गया है।

संपीड़न प्रक्रिया इस प्रकार है। 756×756 की एक छवि, जिसमें 571536 पिक्सेल होते हैं, पहले ViT द्वारा प्रसंस्कृत किए जाते हैं, जो 14×14 के patch size के साथ विभाजित होकर 2916 patch tokens बनाता है। फिर 3×3 की स्थानिक संपीड़न के साथ, प्रत्येक 9 निकटस्थ tokens को चैनल आयाम के साथ एक में संपीड़ित किया जाता है, जिससे 324 विजुअल tokens बनते हैं।

ये 324 टोकन बड़े भाषा मॉडल में प्रीफिलिंग के लिए प्रवेश करते हैं। अंततः, CSA तंत्र इन दृश्य टोकन को KV कैश में 4 गुना संपीड़ित कर देता है, और अंतिम रूप से केवल 81 प्रविष्टियाँ बचती हैं।

571536 पिक्सल से 81 KV कैश प्रविष्टियों तक, सम्पूर्ण संपीड़न अनुपात 7056 गुना है।

सामान्य रूप से, AI बड़ी कंपनियाँ गणना संसाधनों को जमा करने के लिए बल पद्धति का उपयोग करती हैं, जबकि DeepSeek सूचना सिद्धांत के स्तर पर चयन करता है और केवल सबसे सीधी और समझने योग्य जानकारी को बरकरार रखता है।

इसका सबसे सीधा परिणाम यह है कि निष्कर्ष निकालने की गति काफी बढ़ गई।

इमेज टोकन की संख्या सीधे मॉडल की निष्पादन देरी को प्रभावित करती है। अनुक्रमिक उत्पादन प्रक्रिया में, प्रत्येक नए टोकन के उत्पादन के साथ, मॉडल को पिछले सभी टोकन के KV कैश के लिए ध्यान की गणना करनी होती है। यदि इमेज 1000 टोकन घेरता है, तो प्रत्येक उत्पादन के लिए इन 1000 टोकन पर ध्यान केंद्रित करना होगा। यदि केवल 90 टोकन घेरता है, तो गणना का मात्रा बहुत अधिक कम हो जाता है।

रियल-टाइम रिस्पॉन्स की आवश्यकता वाले एप्लिकेशन्स, जैसे रोबोटिक विज़न, ऑटोनॉमस ड्राइविंग, और रियल-टाइम वीडियो एनालिसिस के लिए, इन्फरेंस स्पीड में सुधार निर्णायक भूमिका निभाता है।

और यह कम मेमोरी का उपयोग करता है।

KV कैश बड़े मॉडल निष्पादन का मेमोरी बॉटलनेक है। विशेष रूप से लंबे संदर्भ या बैच निष्पादन के दौरान, KV कैश बहुत सारा GPU मेमोरी घेर लेता है। DeepSeek ने विजुअल टोकन के KV कैश को 90 प्रविष्टियों तक संपीड़ित कर दिया है, जिसका अर्थ है कि समान हार्डवेयर पर अधिक छवियों को संसाधित किया जा सकता है, या अधिक लंबी बहु-चरणीय बातचीत को संभाला जा सकता है।

यह वास्तविक डिप्लॉयमेंट के लिए बहुत महत्वपूर्ण है। कई कंपनियों के मल्टीमॉडल मॉडल लैब में अच्छा प्रदर्शन करते हैं, लेकिन वास्तविक डिप्लॉयमेंट में लागत की समस्याएँ उत्पन्न होती हैं। प्रत्येक छवि द्वारा उपयोग किए जाने वाले टोकन जितने अधिक होंगे, उतनी ही अधिक निष्पादन लागत होगी और समर्थित समानांतर उपयोगकर्ताओं की संख्या उतनी ही कम होगी। DeepSeek की दक्षता का लाभ स्केलिंग पर बढ़ जाता है।

इससे मॉडल की संदर्भ क्षमता भी अप्रत्यक्ष रूप से बढ़ जाती है।

यदि एक छवि 1000 टोकन लेती है, तो 128k के संदर्भ विंडो में केवल 100 से अधिक छवियाँ रखी जा सकती हैं। यदि यह केवल 300 टोकन लेती है, तो 400 से अधिक छवियाँ रखी जा सकती हैं। यह बहुत-सी छवियों वाली संवाद, लंबे वीडियो विश्लेषण, और बड़ी मात्रा में दस्तावेज़ समझ के मामलों के लिए महत्वपूर्ण है।

DeepSeek के मॉडल एक ही बातचीत में अधिक छवियों को संसाधित कर सकते हैं, दर्ज़ों या सैकड़ों छवियों की तुलनात्मक विश्लेषण कर सकते हैं और वीडियो में लंबे समय तक के परिवर्तनों का अनुसरण कर सकते हैं।

सबसे महत्वपूर्ण बात प्रशिक्षण लागत है।

हालांकि रिपोर्ट मुख्य रूप से निष्कर्षण दक्षता पर केंद्रित है, लेकिन यह संपीड़न तंत्र प्रशिक्षण चरण में भी प्रभावी है। कम विजुअल टोकन का अर्थ है छोटा कैलकुलेशन ग्राफ, तेज़ प्रशिक्षण गति, और कम हार्डवेयर आवश्यकताएँ।

DeepSeek हमेशा से “कम संसाधनों के साथ बेहतर परिणाम” के लिए जाना जाता रहा है। R1 के रीइनफोर्समेंट लर्निंग ट्रेनिंग से लेकर V4 के MoE आर्किटेक्चर और अब विजुअल मल्टीमॉडल तक, यह कुशलता पर आधारित दर्शन सदैव बना रहा है।

लेकिन यहाँ एक महत्वपूर्ण सवाल है। संपीड़न से जानकारी का नुकसान होता है?

DeepSeek ने दबाने से जानकारी का नुकसान होने को नहीं लाने का दावा किया है। इसका दावा है कि इन स्थानिक तर्क और गिनती के कार्यों पर, दबाए गए प्रतिनिधित्व अभी भी पर्याप्त रूप से प्रभावी हैं।

हर कम्प्रेशन कदम अनुमान के लिए सबसे महत्वपूर्ण जानकारी को बरकरार रखता है और अतिरिक्त और शोर को हटा देता है।

वास्तव में, पहले उल्लिखित डीपसीक के दृश्य आधार तंत्र के रूप में, यह स्वयं एक सूचना संपीड़न है। एक सीमा बॉक्स को चार संख्याओं का उपयोग करके एक वस्तु को सटीक रूप से स्थित किया जा सकता है, और एक बिंदु को दो संख्याओं का उपयोग करके एक स्थान को चिह्नित किया जा सकता है। ये अविच्छिन्न प्रतीक मूल पिक्सल की तुलना में बहुत अधिक सूचना घनत्व ले जाते हैं।

परीक्षण परिणामों से पता चलता है कि इस संपीड़न ने प्रदर्शन को नुकसान नहीं पहुंचाया, बल्कि कुछ कार्यों में सुधार भी किया।

यह बताता है कि बहुत सारे दृश्य तर्क कार्यों के लिए, समस्या इतनी अच्छी तरह से नहीं देखने में है, बल्कि उपयुक्त प्रतिनिधित्व ढूंढने में है।

यह दक्षता का लाभ यह भी साबित करता है कि बहुआयामी बुद्धिमत्ता के लिए आवश्यक नहीं है कि मॉडल बड़े, कैलकुलेशन क्षमता अधिक या लागत अधिक हो।

दीपसीक के जन्म से आज तक, इस कंपनी के लिए एक गुप्त रेखा रही है, "वास्तविक बुद्धिमत्ता गणना क्षमता में नहीं, बल्कि समस्या की मूलभूत समझ में होती है।"

जब आप वास्तव में समझ जाते हैं कि दृश्य तर्क के लिए क्या आवश्यक है, तो आपको इतने अधिक टोकन की आवश्यकता नहीं होती। जब आप सही प्रतिनिधित्व ढूंढ लेते हैं, तो आपको इतना बड़ा मॉडल नहीं चाहिए।

इस दृष्टिकोण से, डीपसीक की अत्यधिक दक्षता एक लक्ष्य नहीं है, बल्कि एक उपोत्पाद है। वास्तविक लक्ष्य दृश्य तर्क का सही परिप्रेक्ष्य खोजना है। दक्षता केवल इस बात का सबूत है कि यह परिप्रेक्ष्य सही है।

03 अधूरा काम

DeepSeek ने रिपोर्ट के सीमाओं के भाग में, वर्तमान विधि की कुछ समस्याओं को ईमानदारी से सूचीबद्ध किया है। ये समस्याएँ तकनीकी विवरणों की छोटी कमियाँ नहीं हैं, बल्कि दृश्य तर्क के अगले चरण की ओर इशारा करती हैं।

पहला प्रश्न ट्रिगर शब्द निर्भरता है।

रिपोर्ट में स्पष्ट रूप से कहा गया है कि वर्तमान "विजुअल प्रिमिटिव्स के साथ सोचने" की क्षमता को सक्रिय करने के लिए स्पष्ट ट्रिगर शब्दों (explicit trigger words) की आवश्यकता होती है। इसका मतलब है कि मॉडल अभी भी स्वाभाविक और स्वयंसिद्ध रूप से यह निर्णय नहीं ले सकता कि "कब बॉक्स बनाना है या बिंदु लगाना है"।

इसका अर्थ है कि मॉडल अभी तक यह नहीं सीख पाया है कि कब विजुअल प्राइमिटिव्स का उपयोग करना है और कब भाषा ही पर्याप्त है।

आदर्श रूप से, मॉडल को कार्य की प्रकृति के आधार पर स्वयं निर्णय लेना चाहिए। लेकिन जब उपयोगकर्ता पूछता है कि “चित्र में कितने कुत्ते हैं”, तो मॉडल को स्वचालित रूप से दृश्य प्राथमिकता मोड में स्विच होना चाहिए और गिनती में सहायता के लिए बाउंडिंग बॉक्स का उपयोग करना चाहिए।

तकनीकी रूप से, इसके लिए मॉडल में एक मेटाकॉग्निटिव लेयर बनाने की आवश्यकता होती है। यह मेटाकॉग्निटिव लेयर वर्तमान कार्य की जटिलता का मूल्यांकन कर सकती है, निर्णय ले सकती है कि क्या केवल भाषाई तर्क पर्याप्त है, और दृश्य प्राइम्स को कॉल करने की आवश्यकता है या नहीं, यह तय कर सकती है।

DeepSeek अभी तक इस मेटाकॉग्निटिव लेयर को लागू नहीं किया है, लेकिन वे दिशा स्पष्ट कर चुके हैं। भविष्य के संस्करण में मॉडल स्वयं निष्कर्ष निकालने की रणनीति तय करना सीख सकता है, बजाय बाहरी ट्रिगर पर निर्भर करने के।

दूसरा प्रश्न रिज़ॉल्यूशन सीमा है।

रिपोर्ट में उल्लेख किया गया है कि इनपुट रिज़ॉल्यूशन के प्रतिबंध के कारण, मॉडल फाइन-ग्रेन्डेड सीनरियो में अच्छा प्रदर्शन नहीं कर पा रहा है, और आउटपुट विजुअल प्रिमिटिव्स कभी-कभी पर्याप्त रूप से सटीक नहीं होते हैं।

यह सवाल DeepSeek की दक्षता पर आधारित रणनीति से संबंधित है। टोकन संख्या को नियंत्रित करने के लिए, वे दृश्य टोकन की सीमा 81 से 384 तक सीमित करते हैं। इस सीमा से बाहर की छवियों को स्केल किया जाता है।

इस डिज़ाइन का अधिकांश परिदृश्यों में तर्कसंगत उपयोग होता है, लेकिन कुछ अत्यधिक सटीकता की आवश्यकता वाले कार्यों में यह सीमाओं का सामना करता है। उदाहरण के लिए, चिकित्सा छवि विश्लेषण में सूक्ष्म अधिक्षेप की पहचान की आवश्यकता होती है, और औद्योगिक गुणवत्ता जांच में सूक्ष्म दोषों की खोज की आवश्यकता होती है, जिनमें विस्तार की उच्च आवश्यकता होती है।

DeepSeek ने रिपोर्ट में उल्लेख किया कि इस समस्या को मौजूदा उच्च-रिजोल्यूशन विधियों को एकीकृत करके हल किया जा सकता है। अर्थात, उनका विजुअल प्राइमिटिव्स फ्रेमवर्क और पारंपरिक उच्च-रिजोल्यूशन क्रॉपिंग विधियाँ विरोधी नहीं, बल्कि पूरक हैं।

I think DeepSeek could come up with a hybrid solution.

अधिकांश सामान्य कार्यों के लिए, संपीड़ित दृश्य प्रतिनिधित्व और दृश्य प्राइमिटिव तर्क का उपयोग करके उच्च कुशलता बनाए रखें। सूक्ष्म विश्लेषण की आवश्यकता वाले स्थानीय क्षेत्रों के लिए, डायनामिक रूप से उच्च रिज़ॉल्यूशन क्रॉप को सक्रिय करें, जिससे अधिक विस्तृत दृश्य जानकारी प्राप्त हो। इस प्रकार, समग्र कुशलता बनी रहती है और स्थानीय सटीकता की आवश्यकता पूरी होती है।

इस मिश्रित योजना की कुंजी यह है कि मॉडल सीखे कि किन क्षेत्रों को उच्च रिज़ॉल्यूशन प्रोसेसिंग की आवश्यकता है। इसलिए यह फिर से पिछले मेटाकॉग्निशन के प्रश्न पर वापस आ जाता है।

तीसरा प्रश्न क्रॉस-सीन जनरलाइजेशन है।

रिपोर्ट में उल्लेख किया गया है कि जटिल टोपोलॉजिकल तर्क समस्याओं को हल करने के लिए बिंदुओं का उपयोग अभी भी कठिन है, और मॉडल की स्थिति-अतिक्रमण सामान्यीकरण क्षमता सीमित है।

यह समस्या लैबरिंथ नेविगेशन और पाथ ट्रैकिंग कार्यों पर अधिक स्पष्ट रूप से दिखाई देती है। हालाँकि DeepSeek ने अपने निर्मित परीक्षण सेट पर 66.9% और 56.7% की सटीकता प्राप्त की, जो अन्य मॉडल्स को पार कर गई, लेकिन यह संख्या अभी भी पर्याप्त नहीं है।

更重要的是，这些任务都是在合成数据上训练和测试的。迷宫是用算法生成的，路径追踪的曲线也是程序化绘制的。当模型遇到真实世界里的拓扑推理问题时，比如在真实地图上规划路径，在复杂管线图里追踪连接关系，表现可能会下降。

DeepSeek की विधि बड़े पैमाने और उच्च विविधता वाले डेटा के माध्यम से सामान्यीकरण क्षमता में सुधार करना है। उन्होंने 97984 डेटा स्रोतों को स्क्रैप किया, जिसमें से कठोर फिल्टरिंग के बाद 31701 को बरकरार रखा गया, और अंततः 40 मिलियन से अधिक नमूने प्राप्त किए गए। मैज़ और पाथ ट्रैकिंग कार्यों पर, उन्होंने विभिन्न टोपोलॉजी, विजुअल स्टाइल और कठिनाई स्तरों को डिज़ाइन किया, ताकि संभवतः सभी परिवर्तनों को कवर किया जा सके।

हालांकि डेटा विविधता सामान्यीकरण क्षमता का केवल एक हिस्सा है। क्या मॉडल वास्तव में टोपोलॉजिकल रीजनिंग की प्रकृति को समझता है? या क्या यह केवल प्रशिक्षण डेटा में पैटर्न को याद कर रहा है?

इसके अलावा, डीपसीक के विजुअल प्राइमिटिव्स एक नया प्रतिनिधित्व प्रणाली हैं, जिनके लिए विशेष डेटा फॉर्मेट, ट्रेनिंग प्रक्रिया और मूल्यांकन विधियों की आवश्यकता होती है। यह मौजूदा मल्टीमॉडल इकोसिस्टम के साथ पूरी तरह से संगत नहीं है।

अधिकांश बहुमोडल डेटासेट और मूल्यांकन बेंचमार्क पारंपरिक "चित्र + पाठ" पैटर्न पर आधारित हैं, जिनमें दृश्य आधारभूत तत्वों को शामिल नहीं किया गया है। यदि आप DeepSeek के मॉडल का मूल्यांकन इन बेंचमार्क पर करना चाहते हैं, तो या तो दृश्य आधारभूत तत्व कार्य को बंद करना होगा या मूल्यांकन विधि को पुनः डिज़ाइन करना होगा।

अन्य शोधकर्ता यदि इस कार्य को पुनर्निर्मित या सुधारना चाहते हैं, तो पूरी डेटा और प्रशिक्षण प्रक्रिया को पुनः बनाने की आवश्यकता होगी, जिसकी बाधा अपेक्षाकृत अधिक है।

DeepSeek रिपोर्ट में इन मुद्दों को उठा सकता है, जिससे पता चलता है कि वे अपने कार्य के प्रति सचेत हैं।

यह परफेक्ट जवाब देने से अधिक मूल्यवान हो सकता है। क्योंकि सचमुच समाज के विकास को आगे बढ़ाने वाला, अक्सर जवाब नहीं, बल्कि सवाल होता है।