ڈیپسیک نے AI کے فضائی استدلال کو بہتر بنانے کے لیے ویژوئل پریمیٹیوز متعارف کرائے ہیں

مصنف: حروف AI

لیبر ڈے کے ایک دن پہلے، ڈیپسیک نے ایک ویژوئل ملٹی مودل ٹیکنالوجی رپورٹ جاری کر دی۔

میں نے اسے کلک کرنے سے پہلے ایک توقع رکھی تھی، صرف اس بات کا کہ میں کتنی دور تک دیکھ سکوں گا، کتنی واضح دیکھ سکوں گا۔

بالآخر، گزشتہ سال کے دوران، بہت سے بہ متعدد ماڈلز اسی راستے پر گئے ہیں۔ OpenAI نے تصاویر کے ساتھ سوچنے کی بات کی، جس میں ماڈل کو استدلال کے دوران تصویر کو کاٹنا، بڑھانا اور گھمانا ہوتا ہے؛ جیمنی اور کلاڈ بھی ماڈل کو زیادہ ریزولوشن اور زیادہ پیچیدہ ویژول ان پٹس کے ساتھ کام کرنے کے طریقے تلاش کر رہے ہیں۔

سب کا مشترکہ فرض یہ ہے کہ جب تک ماڈل زیادہ تفصیل سے دیکھے گا، ویژوئل ریزننگ خود بخود زیادہ طاقتور ہو جائے گا۔

لیکن DeepSeek کی اس رپورٹ کو دیکھ کر، آپ پائیں گے کہ وہ بالکل الگ راستہ اپنا چکے ہیں۔

ڈیپسیک نے "ماڈل کو زیادہ پکسل دکھانا" پر توجہ نہیں دی، بلکہ انہوں نے ایک زیادہ بنیادی مسئلے پر توجہ مرکوز کی۔

اگر ماڈل نے واضح طور پر دیکھ لیا ہو، تو اس کے استدلال کے دوران آپ کیسے یقینی بنائیں گے کہ ماڈل اور آپ ایک ہی چیز کا اشارہ کر رہے ہیں؟

اصل میں یہ بہت سارے بہت سارے مودل ریزننگ میں سب سے زیادہ نظر انداز کیا جانے والا کمزور نقطہ ہے۔

لوگ تصویر دیکھتے وقت اشیاء کو اپنی انگلی سے نشان زد کر سکتے ہیں۔ مثلاً “یہ شخص کون ہے”، “وہ شخص کون ہے”۔ لیکن ماڈل کو آپ کیا مطلب ہے کہ یہ کون سا ہے؟

ماڈل صرف زبان کے ذریعے "بائیں والا"، "اوپر والا"، "یہ لائن" کہہ سکتا ہے۔ جب تصویر پیچیدہ ہو جاتی ہے، تو زبانی اشارے بکھر جاتے ہیں اور استدلال بھی خراب ہو جاتا ہے۔

اس طرح دیپسیک نے کہا، تو صرف مدل کو ایک “انگلی” دے دو!

یہ نقاط اور باؤنڈنگ باکسز کو ماڈل کے سوچنے کے بنیادی اکائیوں میں تبدیل کر دیتا ہے، جس سے ماڈل اس سائبر اشارہ کے ساتھ آبجیکٹ کو اشارہ کرتے ہوئے استدلال کر سکتا ہے۔

01 مسلسل بصري سے گھل مل جانے والے علامات تک

ڈیپسیک نے اس ٹیکنیکل رپورٹ میں ایک دلچسپ سوال اٹھایا ہے۔ وہ سمجھتے ہیں کہ بہ متھ مڈل کا اصل مشکل حصہ تصویر دیکھنا نہیں بلکہ مسلسل استدلال کے دوران ایک ہی بصری شے کو مستقل طور پر اشارہ کرنا ہے۔

جیسے آپ اپنے دوست سے کہتے ہیں، "بازار میں، جان عورت کا ڈھیر سبزیاں سب سے تازہ ہیں۔" لیکن بازار میں بہت سے بوڑھے اور بوڑھیاں ہیں، کون جان عورت ہے؟

لیکن اگر آپ اپنی انگلی سے اشارہ کرتے ہوئے کہیں کہ "وہی ہے"، تو آپ کا دوست فوراً سمجھ جائے گا۔

ڈیپسیک نے اس سوال کو "حوالہ فاصلہ" (Reference Gap) کہا ہے۔

گزشتہ سال، تقریباً تمام اگرے والے بہت متعدد ماڈلز نے "感知鸿沟" (Perception Gap) کے مسئلے کو حل کرنے کی کوشش کی۔

اگر آپ کے سامنے ایک تصویر رکھ دی جائے اور وہ بہت دھندلی ہو یا اس کی ریزولوشن بہت کم ہو، تو شاید آپ اس میں چھوٹے حروف یا دور کی تفصیلات نہ دیکھ پائیں۔ AI بھی اسی طرح ہے، اگر ان پٹ تصویر کی کوالٹی کم ہو یا اس کا معاملہ غلط طریقے سے کیا جائے، تو وہ “نہیں دیکھ پائے گا”، جسے احساسی فاصلہ کہتے ہیں۔

GPT، Claude، Gemini یہ ماڈلز تفصیلات دیکھنے کے لیے ریزولوشن میں اضافہ کر رہے ہیں، اعلیٰ ریزولوشن کاٹنے، ڈائنامک بلاکنگ، اور متعدد سکیلز کا استعمال کر رہے ہیں۔

یہ راستہ بالکل قیمتی ہے، لیکن DeepSeek نے رپورٹ میں اشارہ کیا ہے کہ چاہے مدل کتنی بھی واضح دیکھ لے، پیچیدہ جگہی استدلال کے کاموں میں اب بھی منطقی خرابی ہوتی ہے۔

مسئلہ قدرتی زبان میں ہے۔

تصویر میں دس سے زیادہ کتوں کو دکھایا گیا ہے، اگر آپ کہیں "بائیں طرف والی کتّا"، تو ماڈل سمجھ نہیں پائے گا کہ آپ کس کتّے کی بات کر رہے ہیں۔

اور اس سے بھی زیادہ بھول بھلائی یہ ہے کہ اگر آپ ماڈل سے فوٹو میں کتّوں کی تعداد گننے کو کہیں، تو ماڈل اپنے استدلال کے دوران یہ بھول جاتا ہے کہ اس نے کن کتّوں کو گن لیا ہے اور کن کو نہیں۔

رپورٹ میں میز کی نیویگیشن جیسے انتہائی حالات بھی شامل ہیں، جہاں صرف زبانی تفصیل غیر منظم شکلوں کے راستوں اور پیچیدہ ٹوپولوجیکل رشتے کو درست طور پر بیان نہیں کر سکتی۔

زبان ایک اشارہ کے طور پر، مسلسل بصری جگہ میں اصل میں ادھوری ہوتی ہے۔ یہ تصورات اور سبب و نتیجہ کے رشتے میں مہارت رکھتی ہے، لیکن جگہ کی موضعی اور ٹوپولوجیکل تعلقات میں زبان کی اظہار کی صلاحیت بنیادی طور پر محدود ہے۔

ڈیپسیک خود ایک جامع زبان ماڈل ہے، تو اس کا حل کیا ہو سکتا ہے؟

اس لیے مضمون کے آغاز میں ذکر کی گئی یہ "انگلی" بن گئی۔

انہوں نے مرکزی تصور کے طور پر "ویژول پریمیٹس" (Visual Primitives) پیش کیا، جس میں کمپیوٹر ویژن میں سب سے بنیادی جغرافیائی نشانات، یعنی باؤنڈنگ باکسز اور پوائنٹس، کو "سوچ کی اقل ترین اکائیاں" کے طور پر بلند کیا گیا۔

پہلے کے بہ متعدد ماڈلز، جو اشیاء کو باکس میں نشان زد کرنے کے قابل تھے، صرف آخر میں نتیجہ دکھاتے تھے، جیسے کہ "میں نے تلاش کر لیا"۔ جیسے امتحان میں، آپ صرف جواب دیتے ہیں، مگر حل کا عمل نہیں لکھتے۔

کچھ تحقیقات میں AI کو سوچنے کے دوران باکس بنانے کے لیے کہا گیا ہے، لیکن مقصد صرف “زیادہ درست دیکھنا” ہے، باکس صرف ایک مددگار ٹول ہیں۔ جیسے آپ ریاضی کے سوالات حل کرتے وقت کاغذ پر کچھ لکھتے ہیں، وہ کاغذ صرف آپ کو زیادہ واضح حساب لگانے میں مدد کرتا ہے، مسئلہ حل کرنے کا طریقہ نہیں۔

ڈیپسیک مختلف کچھ کرنا چاہتا ہے۔

وہ ان جگہ کے نشانات کو براہ راست ماڈل کے استدلال عمل میں ڈال دیتے ہیں، تاکہ وہ استدلال کا ایک جزو بن جائیں۔ جب ماڈل سوچ رہا ہوتا ہے، تو وہ صرف زبانی طور پر "میں نے ایک کتا دیکھا" نہیں کہتا، بلکہ اس کے ساتھ "میں نے ایک کتا دیکھا، یہ یہاں ہے: [[x1,y1,x2,y2]]" بھی پیدا کرتا ہے۔

اس طریقہ کو DeepSeek نے "جس وقت استدلال کرے، اسی وقت اشارہ کریں" (point while it reasons) کہا ہے۔

DeepSeek

ہر مرحلے پر سوچ کو تصویر کے مخصوص کوآرڈینیٹس پر مبنی رکھا جاتا ہے۔

ٹیکنیکل رپورٹ میں صرف ایک مثال دی گئی ہے: ماڈل شروعاتی نقطے سے نکلتا ہے، تلاش کرتا ہے، واپس آتا ہے، اور دوبارہ کوشش کرتا ہے، اور آخر میں ایک مکمل کوآرڈینیٹ پاتھ پیدا کرتا ہے، جہاں ہر کوآرڈینیٹ لیرن میں سے ایک نقطہ کو ظاہر کرتا ہے۔

اس طرح، ماڈل استدلال کے دوران "بھٹک" نہیں گا۔ یہ اپنے کہنے یا اشارے کے بارے میں الجھن میں نہیں پڑے گا۔ ہر بصری شے کا ایک واضح جغرافیائی نقطہ مقرر ہو جائے گا، اور استدلال کا عمل قابلِ راستہ اور قابلِ تصدیق بن جائے گا۔

یہ ٹیکنالوجی کا راستہ OpenAI کے رخ کے ساتھ دلچسپ مقابلہ رکھتا ہے۔

اوپن اے آئی نے o3 اور o4-mini کے باقاعدہ تعارف میں "تصویروں کے ساتھ سوچنا" کے تصور کو واضح طور پر شامل کیا ہے، جس کا مطلب ہے کہ ماڈل تصویر کو اپنی سوچنے کی سلسلہ میں شامل کر سکتا ہے اور تصویر کو کاٹنا، بڑھانا، گھمانا وغیرہ کر سکتا ہے۔ اس راستے کا مرکزی نقطہ یہ ہے کہ تصویر خود سوچنے کی سلسلہ کا حصہ بن جائے، اور ماڈل استدلال کے دوران نئی تصویریں بناسکے، تصویریں تبدیل کر سکے، اور تصویروں پر عمل کر سکے۔

OpenAI کا راستہ جامع صلاحیتوں پر زور دیتا ہے، جس میں ویژل، کوڈ، سرچ، فائل اور ٹول کالز ایک ساتھ مل کر کام کرتے ہیں۔ ماڈل کے پاس ایک طاقتور "ویژل ورکبینچ" ہے جو مختلف ویژل ٹاسکس کو لچکدار طریقے سے سنبھال سکتا ہے۔

ڈیپسیک کا راستہ زیادہ “سِمبولک” ہے۔ یہ نشانات کو سوچ کے سلسلے میں داخل کرتا ہے۔ ماڈل تجزیاتی متن میں براڈر باکس اور نکات کے کوآرڈینیٹس کو صریحاً لکھتا ہے، جس سے بصری اشیاء تجزیہ کے دوران دوبارہ استعمال کے لیے اینکر پوائنٹس بن جاتی ہیں۔

اس سے یہ ہوتا ہے کہ OpenAI کا بصری استدلال اندر ہوتا ہے، صارفین صرف آخری جواب اور ضروری وضاحت دیکھ سکتے ہیں، جبکہ درمیانی بصری عمل گھنے ڈھانچے میں رہتا ہے۔ DeepSeek نے جان بوجھ کر درمیانی بصری اینکرز کو واضح کیا ہے تاکہ استدلال کا عمل بالکل شفاف ہو۔

ڈیپسیک اس طرح کرتا ہے، جس کا فائدہ یہ ہے کہ استدلال کے عمل کو آسانی سے تربیت، جانچ اور درجہ دیا جا سکتا ہے۔ اس سے فارمیٹ، معیار اور ٹاسک لیول انعامات کو ڈیزائن کرنا بھی آسان ہو جاتا ہے۔ خاص طور پر میز، راستہ ٹریکنگ جیسے ٹاسکس میں، راستے کی قانونیت، ٹریکٹر کوریج وغیرہ کے لیے زیادہ تفصیلی فیڈ بیک دیا جا سکتا ہے۔

ماڈل صرف صحیح جوابات کے نکالنے کے لیے نہیں سیکھ رہا، بلکہ ویژوئل پریمیٹس کا استعمال کرتے ہوئے استدلال کرنے کا طریقہ بھی سیکھ رہا ہے۔

02 کارکردگی ہی بنیادی چیز ہے

ڈیپسیک کی اس رپورٹ میں ایک ایسا بہت ہی اہم تفصیل ہے جسے آسانی سے نظرانداز کر دیا جاتا ہے، ان کا ماڈل تصاویر کو معالجہ کرتے وقت دوسرے سرٹھ ماڈلز کے مقابلے میں بہت کم ٹوکن استعمال کرتا ہے۔

رپورٹ میں ایک تقابلی گراف ہے جو 800×800 ریزولوشن کی ایک تصویر کو مختلف ماڈلز کے ذریعے پروسیس کرتے وقت استعمال ہونے والے ٹوکنز کی تعداد دکھاتا ہے۔

جیمنی-3-فلیش تقریباً 1100، کلاؤڈ-سونیٹ-4.6 تقریباً 870، جی پی ٹی-5.4 تقریباً 740، کوئن3-ول تقریباً 660، ڈیپ سیک تقریباً 361، اور KV کیش میں صرف تقریباً 90 ایٹمز برقرار رکھے جاتے ہیں۔

یہ فرق صرف کچھ نہیں ہے۔ DeepSeek استعمال کیے جانے والے ٹوکن کی تعداد Gemini کی تینویں حصہ ہے، اور KV کیش کے ایٹم صرف تقریباً دسواں حصہ ہیں۔

یہ انتہائی کارآمدی کیسے حاصل کی جاتی ہے؟

ڈیپسیک نے "کمپریسڈ اسپارس اٹینشن" (Compressed Sparse Attention, CSA) نامی ایک مکینزم استعمال کیا۔

آپ اس طرح سمجھ سکتے ہیں کہ اگر آپ اپنے دوست کو ایک خاندانی فوٹو دکھا رہے ہیں، تو آپ کہیں گے کہ "بائیں طرف سے 237ویں پکسل سے ایک سرخ علاقہ شروع ہوتا ہے..."، بلکہ آپ براہ راست کہیں گے کہ "بائیں طرف میری ماں ہیں، دائیں طرف میرے والد ہیں۔"

DeepSeek-ViT ابتدا تصویر کو کم تر ویژل ٹوکنز میں دباتا ہے، پھر CSA ان ویژل ٹوکنز کے KV کیش میں موجود نمائندگیوں کو مزید دباتا ہے۔

یہ مکینزم DeepSeek-V4-Flash ماڈل پر پہلے سے استعمال کیا جا چکا ہے، اب اسے ویژول ملٹی میڈیا میں لاگو کیا گیا ہے۔

کمپریشن کا عمل درج ذیل ہے۔ ایک 756×756 کی تصویر، جس میں 571536 پکسلز ہیں، پہلے ViT کے ذریعے پردازہ کی جاتی ہے، جہاں 14×14 کے پیچ سائز کے ساتھ 2916 پیچ ٹوکنز بنائے جاتے ہیں۔ پھر 3×3 کی جگہی کمپریشن کی جاتی ہے، جس میں ہر 9 قریبی ٹوکنز کو چینل ڈائیمنشن کے ساتھ ایک میں کمپریس کر دیا جاتا ہے، جس سے 324 وژول ٹوکنز بن جاتے ہیں۔

یہ 324 ٹوکن بڑے زبان ماڈل میں پری-فِل کرنے کے لیے داخل ہوتے ہیں۔ آخر میں، CSA میکنزم ان ویژول ٹوکنز کو KV کیش میں 4 گنا دبائے گا اور صرف 81 ایٹم برقرار رکھے گا۔

571536 پکسل سے 81 KV کیش کے ایٹم تک، پورا کمپریشن نسبت 7056 گنا ہے۔

عام طور پر، بڑی AI کمپنیاں حسابی وسائل کو زبردستی جمع کرنے کا طریقہ استعمال کرتی ہیں، جبکہ DeepSeek معلوماتی نظریہ کے سطح پر انتخاب کرتا ہے اور صرف سب سے زیادہ واضح اور آسان معلومات کو برقرار رکھتا ہے۔

اس کا سب سے براہ راست نتیجہ یہ ہے کہ استدلال کی رفتار کافی حد تک تیز ہو گئی۔

تصویر کے ٹوکنز کی تعداد مستقیم طور پر ماڈل کی استدلال میں تاخیر کو متاثر کرتی ہے۔ ایک سریلیٹیو پیداواری عمل میں، ہر نیا ٹوکن بنانے پر، ماڈل کو پہلے تمام ٹوکنز کے KV کیش کے لیے توجہ کا حساب لگانا پڑتا ہے۔ اگر تصویر 1000 ٹوکنز قبضہ کرتی ہے، تو ہر پیداواری مرحلے میں ان 1000 ٹوکنز کے لیے توجہ کا حساب لگانا پڑے گا۔ اگر صرف 90 ٹوکنز قبضہ کرتی ہے، تو حساب کی مقدار میں بڑی کمی آ جاتی ہے۔

ریل ٹائم ریسپانس کی ضرورت والے ایپلیکیشنز، جیسے روبوٹک ویژن، خود مختار گاڑیاں، اور ریل ٹائم ویڈیو تجزیہ، کے لیے انفرینس سپیڈ میں اضافہ فیصلہ کن کردار ادا کرتا ہے۔

اور اس کا میموری استعمال بھی کم ہوتا ہے۔

KV کیش بڑے ماڈل کے استدلال کا میموری باہری رکاوٹ ہے۔ خاص طور پر لمبے سیاق و سباق یا بیچ استدلال کے دوران، KV کیش زیادہ گرافکس میموری استعمال کرتی ہے۔ DeepSeek نے ویژل ٹوکن کی KV کیش کو صرف 90 آئٹمز تک دبایا ہے، جس کا مطلب ہے کہ اسی ہارڈویئر پر زیادہ تصاویر یا لمبی متعدد راؤنڈ گفتگو کو سنبھالا جا سکتا ہے۔

یہ حقیقی ڈیپلویمنٹ کے لیے بہت اہم ہے۔ بہت سی کمپنیوں کے متعدد ماڈلز لیب میں اچھے پرفارم کرتے ہیں، لیکن جب وہ حقیقی ڈیپلویمنٹ پر آتے ہیں تو لاگت کے مسائل کا سامنا کرتے ہیں۔ جتنا زیادہ ہر تصویر کے لیے ٹوکن استعمال ہوگا، اتنی ہی زیادہ انفرینس لاگت ہوگی اور جتنا کم کنکرینٹ صارفین کو سپورٹ کیا جا سکے گا۔ DeepSeek کی کارکردگی کی برتری سکیل پر ڈیپلویمنٹ کے دوران بڑھ جائے گی۔

اس طرح ماڈل کی سیاق و سباق کی صلاحیت بھی غیر مستقیم طور پر بڑھ گئی۔

اگر ایک تصویر 1000 ٹوکنز کا استعمال کرتی ہے، تو ایک 128k کے کنٹیکس ونڈو میں صرف 100 سے زائد تصاویر رکھی جا سکتی ہیں۔ اگر صرف 300 ٹوکنز کا استعمال ہو رہا ہے، تو 400 سے زائد تصاویر رکھی جا سکتی ہیں۔ یہ ایسے مناظر کے لیے انتہائی اہم ہے جہاں متعدد تصاویر کے ساتھ گفتگو، لمبے ویڈیو کا تجزیہ، اور بڑی مقدار میں دستاویزات کو سمجھنا درکار ہو۔

ڈیپسیک کے ماڈل ایک ڈائیلاگ میں زیادہ تصاویر کو سنبھال سکتے ہیں، کئی دہائیوں یا سوں تک تصاویر کا موازنہ اور تجزیہ کر سکتے ہیں، اور ویڈیو میں لمبے عرصے تک کے تبدیلیوں کا تعاقب کر سکتے ہیں۔

سب سے اہم بات تربیت کی لاگت ہے۔

ہاں، جبکہ رپورٹ کا مرکزی نقطہ استدلال کی کارکردگی ہے، لیکن یہ کمپریشن میکنزم ٹریننگ مرحلے میں بھی مؤثر ہے۔ کم ویژل ٹوکن کا مطلب ہے کم کمپیوٹیشنل گراف، تیز تر ٹریننگ سپیڈ، اور کم ہارڈویئر کی ضرورت۔

ڈیپسیک ہمیشہ “کم وسائل کے ساتھ بہتر نتائج” کے لیے مشہور رہا ہے۔ R1 کے ری انفورسمنٹ لرننگ ٹریننگ سے لے کر V4 کے MoE آرکیٹیکچر تک، اور اب کے ویژول ملٹی مودل تک، یہ کارائی پر زور دینے والا فلسفہ مسلسل جاری رہا ہے۔

لیکن یہاں ایک اہم سوال ہے۔ کمپریشن سے معلومات کا نقصان ہوتا ہے؟

ڈیپسیک نے یہ نہیں انکار کیا کہ دباؤ سے معلومات کا نقصان ہوتا ہے۔ اس کا دعویٰ یہ ہے کہ اس مجموعے کے فضائی استدلال اور شمار کے کاموں پر، دبائے گئے نمائندگیاں اب بھی کافی موثر ہیں۔

ہر کمپریشن کے ساتھ استدلال کے لیے سب سے اہم معلومات برقرار رکھی جاتی ہیں، زائد اور شور کو ختم کیا جاتا ہے۔

اصل میں، پہلے ذکر کیے گئے DeepSeek کے ویژوئل پریمیٹ میکنزم کو خود بھی معلومات کا دباؤ کہا جا سکتا ہے۔ ایک باؤنڈنگ باکس کو صرف 4 اعداد سے کسی شے کو درست طور پر موقع دیا جا سکتا ہے، اور ایک نقطہ کو صرف 2 اعداد سے کسی جگہ کو نشان زد کیا جا سکتا ہے۔ ان ڈسکریٹ علامتوں میں اصل پکسلز کے مقابلے میں بہت زیادہ معلومات کا کثافت ہوتا ہے۔

تجربی نتائج کے مطابق، اس کمپریشن سے کارکردگی متاثر نہیں ہوئی، بلکہ کچھ کاموں میں بہتری بھی آئی۔

یہ بتاتا ہے کہ بہت سے بصری استدلال کے کاموں کے لیے پابندی واضح دیکھنے کی نہیں، بلکہ مناسب نمائندگی کے طریقے کی تلاش نہ ہونے کی ہے۔

یہ کارکردگی کا فائدہ ثابت کرتا ہے کہ بہ متعدد ماڈلز کی ضرورت نہیں ہوتی، زیادہ کمپوٹنگ پاور کی ضرورت نہیں ہوتی، اور زیادہ لاگت کی ضرورت نہیں ہوتی۔

ڈیپسیک کے آغاز سے لے کر اب تک، اس کمپنی کے لیے ایک پوشیدہ خیال رہا ہے، "اصل ذكاء طاقت کے بجائے مسئلے کی بنیادی سمجھ میں ہے۔"

جب آپ واقعی سمجھ جائیں کہ بصری استدلال کے لیے کیا درکار ہے، تو آپ کو اتنے زیادہ ٹوکن کی ضرورت نہیں ہوگی۔ جب آپ مناسب نمائندگی کا طریقہ تلاش کر لیں، تو آپ کو اتنے بڑے ماڈل کی ضرورت نہیں ہوگی۔

اس منظر سے، ڈیپسیک کی انتہائی کارآمدی مقصد نہیں، بلکہ ایک متعلقہ نتیجہ ہے۔ اصل مقصد ویژول ریزننگ کا صحیح پیرادائم تلاش کرنا ہے۔ کارآمدی صرف اس بات کا ثبوت ہے کہ یہ پیرادائم درست ہے۔

03 باقیات

ڈیپسیک نے رپورٹ کے محدودیتوں کے حصے میں موجودہ طریقہ کار کے کچھ مسائل کو صاف طور پر درج کیا ہے۔ یہ مسائل تکنیکی تفصیلات کے چھوٹے نقصانات نہیں ہیں، بلکہ بصری استدلال کے اگلے مرحلے کی طرف اشارہ کرتے ہیں۔

پہلا مسئلہ ٹرگر ورڈ کی انحصار ہے۔

رپورٹ میں واضح طور پر کہا گیا ہے کہ موجودہ "تصویری عناصر کے ذریعے سوچنے" کی صلاحیت کو فعال کرنے کے لیے واضح ٹرگر الفاظ (explicit trigger words) کی ضرورت ہوتی ہے۔ یعنی ماڈل ابھی تک قدرتی طور پر اور خودکار طور پر فیصلہ نہیں کر سکتا کہ "کب ڈھانچہ بنانا ہے یا نشان لگانا ہے"۔

اس کا مطلب یہ ہے کہ ماڈل ابھی تک یہ نہیں سیکھ پایا کہ کب تصویری بنیادوں کی ضرورت ہوتی ہے اور کب صرف زبان کافی ہوتی ہے۔

ایک مثالی صورت میں، ماڈل کو اپنے کام کی نوعیت کے مطابق خود فیصلہ کرنا چاہیے۔ لیکن جب صارف پوچھے کہ "تصویر میں کتنے کتے ہیں؟" تو ماڈل کو خودبخود ویژوئل پریمیٹ موڈ میں تبدیل ہونا چاہیے اور شمار کرنے میں مدد کے لیے باؤنڈنگ باکسز استعمال کرنا چاہیے۔

ٹیکنیکل طور پر، اس کے لیے ماڈل میں ایک میٹا-کگنیٹو لیئر بنانا ہوگا۔ یہ میٹا-کگنیٹو لیئر موجودہ کام کی پیچیدگی کا جائزہ لے سکتی ہے، فیصلہ کر سکتی ہے کہ صرف زبانی استدلال کافی ہے یا نہیں، اور آیا ویژوئل پریمیٹس کو بلانا ہوگا یا نہیں، یہ فیصلہ کر سکتی ہے۔

ڈیپسیک اب تک اس میٹاکگنیٹو لیئر کو نہیں لاگو کر چکا، لیکن وہ رہنمائی واضح کر چکا ہے۔ مستقبل کے ورژن میں ماڈل خود کو اسٹریٹجی کا فیصلہ کرنے کے لیے سیکھ سکتا ہے، باہری ٹریگر پر انحصار کیے بغیر۔

دوسرا مسئلہ ریزولوشن کی حد ہے۔

رپورٹ میں کہا گیا ہے کہ ان پٹ ریزولوشن کی پابندی کی وجہ سے ماڈل کا فائن گرین سینریوں میں پرفارمنس ابھی بھی کافی نہیں ہے، اور آؤٹ پٹ ویژوئل پریمیٹس کبھی کبھی درست نہیں ہوتے۔

یہ سوال DeepSeek کی کارکردگی کو ترجیح دینے والی حکمت عملی سے متعلق ہے۔ ٹوکن کی تعداد کو کنٹرول کرنے کے لیے، وہ ویژل ٹوکنز کو 81 سے 384 تک محدود کرتے ہیں۔ اس دائرہ کار سے باہر کی تصاویر کو سکیل کیا جاتا ہے۔

یہ ڈیزائن زیادہ تر صورتحال میں منطقی ہے، لیکن اعلیٰ درجے کی درستگی کی ضرورت والے کاموں میں یہ حد تک پہنچ جاتا ہے۔ مثلاً، طبی تصویر تجزیہ میں مائکرو لیزیشنز کی شناخت کی ضرورت ہوتی ہے، صنعتی معیار کی جانچ میں ننھے دوام کی دریافت کی ضرورت ہوتی ہے، ان صورتحال میں رزلوشن کی بہت زیادہ ضرورت ہوتی ہے۔

ڈیپسیک نے رپورٹ میں ذکر کیا کہ اس مسئلے کو موجودہ اعلیٰ حل کی صلاحیتوں کو ادغام کر کے حل کیا جا سکتا ہے۔ یعنی، ان کا ویژوئل پریمیٹ فریم ورک اور روایتی اعلیٰ حل کے کروپنگ طریقے آپس میں متصادم نہیں بلکہ مکمل کرنے والے ہیں۔

میں سمجھتا ہوں کہ DeepSeek ایک مixed سولوشن جاری کر سکتا ہے۔

عام طور پر، زیادہ تر معمولی کاموں کے لیے، کمپریسڈ ویژوئل ریپریزینٹیشن اور ویژوئل پریمیٹس کا استعمال کرتے ہوئے اعلی کارکردگی برقرار رکھی جاتی ہے۔ جہاں تفصیلی تجزیہ درکار ہو، وہاں ڈائنامک طور پر اعلی ریزولوشن کاٹس کو فعال کیا جاتا ہے تاکہ زیادہ تفصیلی ویژوئل معلومات حاصل کی جا سکیں۔ اس طرح، مجموعی کارکردگی برقرار رہتی ہے اور مقامی درستگی کی ضرورت پوری ہوتی ہے۔

اس مixed اسکیم کا بنیادی نقطہ یہ ہے کہ ماڈل سیکھے کہ کن علاقوں کو اعلی وضاحت کے ساتھ پردازہ کرنے کی ضرورت ہے۔ اس طرح یہ پہلے کے میٹاکگنیشن کے سوال پر واپس آ جاتا ہے۔

تیسرا سوال کراس سینریو جنرلائزیشن ہے۔

رپورٹ میں کہا گیا ہے کہ پیچیدہ ٹوپولوجیکل استدلال کے مسائل کو حل کرنے کے لیے نکات کو ویژل پریمیٹ کے طور پر استعمال کرنا اب بھی مشکل ہے، اور ماڈل کی مختلف مناظر میں عام کرنے کی صلاحیت محدود ہے۔

یہ مسئلہ لیبرنٹ نیویگیشن اور راستہ ٹریسنگ کے کاموں پر زیادہ واضح ہوتا ہے۔ ہاں کہ DeepSeek نے اپنے خود بنائے گئے ٹیسٹ سیٹ پر 66.9% اور 56.7% کی درستگی حاصل کی، جو دوسرے ماڈلز سے زیادہ ہے، لیکن یہ اعداد و شمار ابھی کافی نہیں۔

مزید اہم بات یہ ہے کہ ان کاموں کو صرف مرکب ڈیٹا پر تربیت دی گئی اور ٹیسٹ کیا گیا۔ مazes الگورتھم کے ذریعے تخلیق کیے گئے اور راستوں کی پیروی کرنے والی منحنیاں بھی پروگرامی طور پر بنائی گئیں۔ جب ماڈل حقیقی دنیا کے ٹوپولوجیکل ریزننگ مسائل، جیسے کہ حقیقی نقشے پر راستہ منصوبہ بندی کرنا یا پیچیدہ پائپ لائن ڈائیگرام میں کنکشنز کی پیروی کرنا، کا سامنا کرتا ہے تو اس کا اداء ممکنہ طور پر کم ہو جائے گا۔

ڈیپسیک کا طریقہ کار بڑے پیمانے پر اور انتہائی تنوع والے ڈیٹا کے ذریعے جامع صلاحیت بڑھانا ہے۔ انہوں نے 97,984 ڈیٹا سورسز کو اسکین کیا، جس کے بعد سخت فلٹرنگ کے بعد 31,701 کو برقرار رکھا گیا، اور آخرکار 40 ملین سے زائد نمونے حاصل ہوئے۔ جنگل اور راستہ ٹریکنگ کے کاموں پر، انہوں نے مختلف ٹوپولوجیکل سٹرکچرز، ویژول اسٹائلز، اور مشکل کے درجات تیار کیے ہیں تاکہ ممکنہ تمام تبدیلیوں کو کور کیا جا سکے۔

تاہم، ڈیٹا کی تنوع صرف جنرلائزیشن کی صلاحیت کا ایک حصہ ہے۔ کیا ماڈل حقیقت میں ٹوپولوجیکل ریزننگ کو سمجھ رہا ہے یا صرف تربیتی ڈیٹا میں پیٹرنز کو یاد کر رہا ہے؟

اس کے علاوہ، DeepSeek کے ویژول پریمیٹس ایک نئی نمائندگی نظام ہیں جن کے لیے خاص ڈیٹا فارمیٹ، تربیت کا عمل، اور جائزہ لینے کے طریقے درکار ہیں۔ یہ موجودہ بہ متعدّد ماڈل ایکوسسٹم کے ساتھ مکمل طور پر مطابقت نہیں رکھتے۔

زیادہ تر بہ متعدد ماڈل ڈیٹا سیٹس اور جائزہ معیارات قدیمی "تصویر + متن" پیرادائم پر مبنی ہیں، جن میں بصری بنیادی عناصر کو شامل نہیں کیا گیا ہے۔ اگر آپ DeepSeek کے ماڈلز کا جائزہ ان معیارات پر لینا چاہتے ہیں، تو یا تو بصری بنیادی عناصر کی سہولت بند کرنا ہوگی، یا جائزہ طریقہ کار کو دوبارہ ڈیزائن کرنا ہوگا۔

دوسرے محققین اگر یہ کام دوبارہ بنانا یا بہتر بنانا چاہیں تو انہیں پورے ڈیٹا اور ٹریننگ عمل کو دوبارہ تعمیر کرنا پڑے گا، جس کا رُکاوٹ کافی زیادہ ہے۔

ڈیپسیک کے رپورٹ میں ان مسائل کا ذکر ہونا، یہ ظاہر کرتا ہے کہ وہ اپنے کام کے بارے میں واضح سمجھ رکھتے ہیں۔

یہ مثالی جواب دینے سے زیادہ قیمتی ہو سکتا ہے۔ کیونکہ سماجی ترقی کو عام طور پر جواب نہیں، بلکہ سوالات ہی چلاتے ہیں۔