ডিপসিক এআই-এর স্থানিক যুক্তি উন্নত করতে ভিজুয়াল প্রিমিটিভস চালু করেছে

লেখক: অক্ষর AI

প্রথম মে ছুটির আগের দিন, ডিপসিক হঠাৎ একটি ভিজুয়াল মাল্টিমোডাল টেকনোলজি রিপোর্ট প্রকাশ করে।

আমি যখন ক্লিক করলাম, তখন আমার মনে একটা পূর্বানুমান ছিল—শুধু কতটা দূরে দেখা যাবে, কতটা পরিষ্কারভাবে দেখা যাবে।

প্রায় গত বছর ধরে, মাল্টিমোডাল মডেলগুলি এই দিকে ঝুঁকছে। OpenAI ছবি ব্যবহার করে চিন্তা করার কথা বলেছে, যাতে মডেলটি যুক্তি প্রয়োগের সময় ছবি কাটা, বড় করা এবং ঘোরানো পারে; Gemini, Claude-ও উচ্চতর রেজোলিউশন এবং জটিল ভিজুয়াল ইনপুট প্রক্রিয়াকরণের জন্য উপায় খুঁজছে।

সকলের সাধারণ ধারণা হলো, যদি মডেলটি আরও সূক্ষ্মভাবে দেখে, তবে দৃশ্যমান যুক্তিবিদ্যা স্বাভাবিকভাবেই শক্তিশালী হয়ে উঠবে।

কিন্তু ডিপসিকে এই রিপোর্টটি দেখে আপনি বুঝতে পারবেন, তারা সম্পূর্ণ অন্য একটি পথে এগিয়েছে।

ডিপসিক এটিকে “মডেলটিকে বেশি পিক্সেল দেখানো”-এর উপর ফোকাস করেনি, তারা একটি আরও মৌলিক সমস্যার উপর মনোযোগ দিয়েছে।

যদিও মডেলটি পরিষ্কারভাবে দেখেছে, তবুও যুক্তিপূর্ণ প্রক্রিয়ায় আপনি কীভাবে নিশ্চিত হবেন যে মডেলটি আপনার সাথে একই জিনিসটির কথা বলছে?

এটি বহুমাধ্যম যুক্তিতে সবচেয়ে বেশি উপেক্ষিত দুর্বলতা।

মানুষ ছবি দেখার সময় আঙুল দিয়ে অবজেক্টগুলি চিহ্নিত করতে পারে। যেমন, “এই ব্যক্তি কে” বা “ওই ব্যক্তি কে”। কিন্তু মডেলটি কীভাবে জানবে তুমি যেটা বলছ সেটা কোনটা?

মডেল শুধুমাত্র ভাষার মাধ্যমে “বাম দিকেরটি”, “উপরেরটি”, “এই লাইনটি” বলতে পারে। একবার চিত্রটি জটিল হয়ে গেলে, ভাষাগত নির্দেশ ভ্রমিত হয়ে যায় এবং যুক্তিও ধ্বংস হয়ে যায়।

তাই ডিপসিক বলল, তাহলে মডেলটিকে একটি “আঙুল” দিয়ে দেওয়া যাক না?

এটি পয়েন্ট এবং বাউন্ডিং বক্সকে মডেলের চিন্তার মৌলিক এককে পরিণত করে, যাতে মডেলটি একইসাথে সেই সাইবার আঙুলটি দিয়ে বস্তুকে ইঙ্গিত করতে পারে এবং যুক্তি প্রয়োগ করতে পারে।

01 কন্টিনিউয়াস ভিশুয়াল থেকে ডিসক্রিট সিম্বলে

ডিপসিক এই প্রযুক্তিগত রিপোর্টে একটি আকর্ষণীয় প্রশ্ন তুলে ধরেছে। তারা মনে করে, মাল্টিমোডাল মডেলের সত্যিকারের চ্যালেঞ্জ হল চিত্র দেখা নয়, বরং ক্রমাগত যুক্তিসঙ্গত চিন্তার প্রক্রিয়ায় একই দৃশ্যমান বস্তুকে স্থিরভাবে নির্দেশ করা।

যেমন আপনি আপনার বন্ধুকে বলছেন, "বাজারে, জাং বুড়িয়ের দোকানের সবজি সবচেয়ে তাজা।" কিন্তু বাজারে এত বুড়ো ও বুড়ি আছে, কে জাং বুড়ি?

কিন্তু যদি তুমি সরাসরি আঙুল দিয়ে বলে দাও “ওটাই সেটা”, তাহলে তোমার বন্ধু তুরন্ত বুঝে যাবে।

DeepSeek এই প্রশ্নটিকে "রেফারেন্স গ্যাপ" নাম দিয়েছে।

গত বছরে, প্রায় সমস্ত অগ্রণী মাল্টিমোডাল মডেল পারসেপশন গ্যাপ সমাধানের চেষ্টা করেছে।

যদি আপনার সামনে একটি ছবি রাখা হয়, এবং ছবিটি খুব ধুঁধু কিংবা রেজোলিউশন খুব কম হয়, তাহলে আপনি সেখানে থাকা ছোট অক্ষর বা দূরের বিস্তারিত দেখতে পাচ্ছেন না। AI-এরও একই অবস্থা—যদি ইনপুট ইমেজের কোয়ালিটি যথেষ্ট না হয় বা প্রসেসিং ভুল হয়, তাহলে এটি “দেখতে পাচ্ছে না,” যা পার্সেপশন গ্যাপ।

GPT, Claude, Gemini এই মডেলগুলি রেজোলিউশন বাড়াচ্ছে, হাই-রেজোলিউশন ক্রপিং, ডাইনামিক ব্লকিং, মাল্টি-স্কেল প্রসেসিং চালু করছে, যার উদ্দেশ্য মডেলটিকে আরও বেশি ডিটেইল দেখতে সক্ষম করা।

এই দিকটি অবশ্যই মূল্যবান, কিন্তু DeepSeek রিপোর্টে উল্লেখ করেছে যে মডেল যতটাই স্পষ্টভাবে দেখুক না কেন, জটিল স্পেসিয়াল রিজনিং টাস্কে এখনও লজিক্যাল ক্র্যাশ ঘটতে পারে।

সমস্যাটি প্রাকৃতিক ভাষার মধ্যেই রয়েছে।

ছবিতে দশটির বেশি কুকুর আছে, আপনি যদি বলেন "বাম দিকের কুকুরটি", তাহলে মডেলটি আপনি কোন কুকুরের কথা বলছেন তা বুঝতে পারবে না।

আরও বেশি চমকপ্রদ বিষয় হলো, যদি আপনি মডেলকে ফটোতে কুকুরের সংখ্যা গণনা করতে বলেন, তাহলে মডেলটি যুক্তি প্রয়োগ করার সময় সহজেই বুঝতে পারবে না যে সে কোনগুলো গণনা করেছে এবং কোনগুলো এখনও গণনা করেনি।

রিপোর্টে ম্যাজ নেভিগেশনের মতো চরম পরিস্থিতিরও উল্লেখ করা হয়েছে, যেখানে শুধুমাত্র ভাষা দিয়ে অনিয়মিত আকৃতির পথ এবং জটিল টপোলজিক্যাল সম্পর্কগুলি সঠিকভাবে বর্ণনা করা সম্ভব নয়।

ভাষা হল একটি প্রতিনিধিত্বমূলক সরঞ্জাম, যা পরিপ্রেক্ষিত দৃশ্যমান স্থানে স্বাভাবিকভাবেই অস্পষ্ট। এটি বিমূর্ত ধারণা এবং কার্যকারণ সম্পর্কের জন্য দক্ষ, কিন্তু স্থানীয় অবস্থান এবং টপোলজিক্যাল সম্পর্কের ক্ষেত্রে ভাষার প্রকাশের ক্ষমতার মৌলিক সীমাবদ্ধতা রয়েছে।

ডিপসিক নিজেই একটি সাধারণ ভাষা মডেল, তাহলে এটি কীভাবে সমাধান করা যায়?

এতেই প্রবন্ধের শুরুতে উল্লিখিত এই “আঙ্গুলটি” তৈরি হয়েছে।

তারা প্রস্তাব করেছে যে “ভিজুয়াল প্রিমিটিভস” হল মূল ধারণা, যা বিশেষভাবে কম্পিউটার ভিশনের দুটি সবচেয়ে মৌলিক স্থানীয় মার্কার—বাউন্ডিং বক্স এবং পয়েন্ট—কে “চিন্তার সর্বনিম্ন একক” হিসাবে উত্থাপন করে।

পূর্বের মাল্টিমোডাল মডেলগুলি যদিও বস্তুগুলির বক্স চিহ্নিত করতে পারত, তবে শুধু শেষে ফলাফল দেখিয়ে প্রমাণ করত “আমি খুঁজে পেয়েছি।” যেন পরীক্ষায়, আপনি শুধু উত্তরটি জমা দেন, সমাধানের প্রক্রিয়া লিখেন না।

কিছু গবেষণায় এআই চিন্তার সময় বক্স আঁকে, কিন্তু উদ্দেশ্য শুধু “আরও সঠিকভাবে দেখা” — বক্সগুলি শুধু একটি সহায়ক টুল। যেমন আপনি গণিতের সমস্যা সমাধানের সময় কাগজে ক্র্যাফট করেন, ক্র্যাফট কাগজটি শুধু আপনাকে আরও পরিষ্কারভাবে গণনা করতে সাহায্য করে, সমাধানের ধারণার অংশ নয়।

ডিপসিক যা করতে চায় তা সম্পূর্ণ ভিন্ন।

তারা এই স্পেস মার্কারগুলিকে সরাসরি মডেলের ইনফারেন্স প্রক্রিয়ায় এমবেড করে, যাতে এগুলি ইনফারেন্সের একটি জৈবিক অংশ হয়ে ওঠে। মডেলটি চিন্তা করার সময়, শুধুমাত্র ভাষার মাধ্যমে “আমি একটি কুকুর দেখেছি” বলে না, বরং একসাথে আউটপুট দেয় “আমি একটি কুকুর দেখেছি, এটি এখানে: [[x1,y1,x2,y2]]”。

এই প্রক্রিয়াটিকে DeepSeek এর “যখন যুক্তি দেয় তখন ইঙ্গিত করুন” (point while it reasons) নামে অভিহিত করা হয়।

DeepSeek

প্রতিটি ধাপের চিন্তাভাবনা চিত্রের নির্দিষ্ট স্থানাঙ্কের সাথে সংযুক্ত।

টেকনিক্যাল রিপোর্টে একটি উদাহরণ দেওয়া হয়েছে: মডেলটি শুরু থেকে শুরু করে অনুসন্ধান, পিছনে ফিরে আসা এবং আবার চেষ্টা করে, শেষ পর্যন্ত একটি সম্পূর্ণ স্থানাঙ্ক পথ আউটপুট করে, যেখানে প্রতিটি স্থানাঙ্ক ম্যাজ এর একটি অতিক্রান্ত বিন্দুকে নির্দেশ করে।

এইভাবে, মডেলটি যুক্তি প্রক্রিয়ার সময় “হারিয়ে যাবে না”। এটি নিজের কথা বা ইঙ্গিতের বিষয়বস্তু বুঝতে পারবে না। প্রতিটি দৃশ্যমান বস্তুর জন্য একটি স্পষ্ট স্থানীয় অ্যানকর রয়েছে, যার ফলে যুক্তি প্রক্রিয়াটি ট্র্যাক করা এবং যাচাই করা যায়।

এই প্রযুক্তিগত পথটি ওপেনএআইয়ের দিকের সাথে একটি আকর্ষণীয় তুলনা গঠন করে।

OpenAI-এর o3 এবং o4-mini-এর অফিসিয়াল বিবরণে "চিত্রের সাথে চিন্তা করা" ধারণাটি স্পষ্টভাবে উল্লেখ করা হয়েছে, যার অর্থ মডেলটি চিত্রগুলিকে যুক্তিসঙ্গত শৃঙ্খলের অংশ হিসাবে অন্তর্ভুক্ত করতে পারে এবং চিত্রগুলিকে কাটা, বড় করা, ঘোরানো ইত্যাদি পদ্ধতিতে প্রক্রিয়া করতে পারে। এই দিকটির মূল ফোকাস হলো চিত্রগুলিকেই যুক্তিসঙ্গত শৃঙ্খলের অংশ হিসাবে পরিণত করা, যাতে মডেলটি যুক্তিসঙ্গত প্রক্রিয়ার সময় নতুন চিত্র তৈরি, চিত্র সংশোধন বা চিত্রের সাথে অপারেশন করতে পারে।

OpenAI-এর রুট ম্যাপটি সাধারণ ক্ষমতার উপর জোর দেয়, যেখানে ভিজুয়াল, কোড, সার্চ, ফাইল এবং টুল কল একসাথে কাজ করে। মডেলটির একটি শক্তিশালী "ভিজুয়াল ওয়ার্কবেঞ্চ" রয়েছে যা বিভিন্ন ভিজুয়াল টাস্ক পরিচালনা করতে সক্ষম।

ডিপসিকের পথটি আরও প্রতীকী। এটি স্থানাঙ্ককে চিন্তার শৃঙ্খলে প্রবেশ করায়। মডেলটি যুক্তিসঙ্গত টেক্সটে বর্গাকার এবং বিন্দুর স্থানাঙ্ক প্রকাশ করে, যা দৃশ্যমান বস্তুগুলিকে যুক্তিসঙ্গত সময়ে পুনর্ব্যবহারযোগ্য অ্যানকর পয়েন্টে রূপান্তরিত করে।

এর ফলে, OpenAI-এর ভিজুয়াল রিজনিং অভ্যন্তরীণভাবে ঘটে, ব্যবহারকারীরা শুধুমাত্র চূড়ান্ত উত্তর এবং প্রয়োজনীয় ব্যাখ্যা দেখতে পায়, মধ্যবর্তী ভিজুয়াল প্রক্রিয়াটি একটি ব্ল্যাক বক্স। DeepSeek পক্ষে, মধ্যবর্তী ভিজুয়াল অ্যানকরগুলিকে সচেতনভাবে প্রকাশ্য করা হয়েছে, যাতে রিজনিং প্রক্রিয়াটি সম্পূর্ণভাবে স্বচ্ছ হয়।

DeepSeek এটি করলে, যুক্তিপূর্ণ প্রক্রিয়াটি সহজে প্রশিক্ষণ, পরীক্ষা এবং স্কোর করা যায়। এটি ফরম্যাট, গুণগত মান এবং টাস্ক-লেভেল পুরস্কার ডিজাইন করাও সহজ করে তোলে। বিশেষ করে ল্যাবিরিন্থ, পথ ট্র্যাকিং এর মতো টাস্কগুলিতে, পথের বৈধতা, ট্র্যাজেক্টরি কভারেজ ইত্যাদির জন্য আরও সূক্ষ্ম ফিডব্যাক দেওয়া যায়।

মডেলটি শুধু সঠিক উত্তর আউটপুট দেওয়া শিখেনি, বরং ভিজুয়াল প্রিমিটিভ ব্যবহার করে যুক্তি প্রয়োগ করার পদ্ধতি শিখেছে।

02 দক্ষতাই হল মূল

ডিপসিকের এই রিপোর্টে একটি সহজেই উপেক্ষিত কিন্তু অত্যন্ত গুরুত্বপূর্ণ বিস্তারিত রয়েছে, তাদের মডেলটি চিত্র প্রক্রিয়াকরণের সময় অন্যান্য অগ্রণী মডেলের তুলনায় অনেক কম টোকেন ব্যবহার করে।

রিপোর্টে একটি তুলনামূলক চিত্র রয়েছে যা 800×800 রেজোলিউশনের একটি ছবি প্রক্রিয়াকরণের জন্য বিভিন্ন মডেল দ্বারা ব্যয় করা token-এর সংখ্যা দেখায়।

জেমিনি-3-ফ্ল্যাশ প্রায় ১১০০, ক্লাউড-সোনেট-৪.৬ প্রায় ৮৭০, জি পি টি-৫.৪ প্রায় ৭৪০, কুয়েন ৩-ভিএল প্রায় ৬৬০, ডিপসিক প্রায় ৩৬১, এবং KV ক্যাশেতে শুধুমাত্র প্রায় ৯০টি এন্ট্রি রাখা হয়।

এই পার্থক্য কিছুটা নয়। DeepSeek যে পরিমাণ টোকেন ব্যবহার করে, তা Gemini-এর এক-তৃতীয়াংশ এবং KV ক্যাশ এন্ট্রি প্রায় দশমাংশ।

এই চরম দক্ষতা কিভাবে অর্জন করা হয়?

ডিপসিক একটি "সংকুচিত স্পার্স অ্যাটেনশন" (Compressed Sparse Attention, CSA) মেকানিজম ব্যবহার করে।

আপনি যদি একটি পরিবারের ছবি আপনার বন্ধুকে দেখান, তাহলে আপনি বলবেন না যে “বাম দিক থেকে ২৩৭তম পিক্সেল থেকে একটি লাল অঞ্চল শুরু হয়েছে…”, আপনি সরাসরি বলবেন “বামে আমার মা, ডানে আমার বাবা।”

DeepSeek-ViT প্রথমে চিত্রকে কম দৃশ্য টোকেনে চাপিয়ে দেয়, তারপর CSA এই দৃশ্য টোকেনগুলির KV ক্যাশেতে প্রতিনিধিত্বকে আরও চাপিয়ে দেয়।

এই মেকানিজমটি DeepSeek-V4-Flash মডেলে ইতিমধ্যে ব্যবহার করা হয়েছিল, এখন এটি ভিজুয়াল মাল্টিমোডালে প্রয়োগ করা হয়েছে।

সুনির্দিষ্ট সংকুচিত প্রক্রিয়াটি নিম্নরূপ। 756×756 আকারের একটি চিত্রে 571536 পিক্সেল রয়েছে। এই পিক্সেলগুলি প্রথমে ViT দ্বারা প্রক্রিয়াকৃত হয়, যা 14×14 প্যাচ আকারে বিভক্ত হয়ে 2916টি প্যাচ টোকেন তৈরি করে। তারপর 3×3 স্থানীয় সংকোচন প্রক্রিয়ায়, প্রতিটি 9টি পাশাপাশির টোকেনকে চ্যানেল মাত্রায় একটিতে সংকুচিত করা হয়, যার ফলে 324টি ভিজুয়াল টোকেন তৈরি হয়।

এই ৩২৪টি টোকেন প্রিফিল করার জন্য বড় ভাষা মডেলে প্রবেশ করে। শেষে, CSA মেকানিজম এই ভিজুয়াল টোকেনগুলিকে KV ক্যাশেতে ৪ গুণ সংকুচিত করে, শেষ পর্যন্ত মাত্র ৮১টি এন্ট্রি রাখে।

571536 পিক্সেল থেকে 81 টি KV ক্যাশ এন্ট্রিতে, সম্পূর্ণ সংকুচন অনুপাত 7056 গুণ।

সাধারণত এআই বড় কোম্পানিগুলি গণনা সংস্থান জমা দিয়ে বলি পদ্ধতি ব্যবহার করে, কিন্তু DeepSeek তথ্য তত্ত্বের মাধ্যমে বাছাই করে, শুধুমাত্র সবচেয়ে সহজে বোঝা যায় এমন তথ্যগুলি রাখে।

এর সবচেয়ে সরাসরি ফলাফল হল যে বিশ্লেষণের গতি অনেক বেড়ে গেছে।

ছবির টোকেন সংখ্যা মডেলের ইনফারেন্স ল্যাটেন্সিকে প্রত্যক্ষভাবে প্রভাবিত করে। অটোরিগ্রেসিভ জেনারেশন প্রক্রিয়ায়, প্রতিটি নতুন টোকেন জেনারেট করার সময়, মডেলটিকে আগের সমস্ত টোকেনের KV ক্যাশের জন্য অ্যাটেনশন ক্যালকুলেশন করতে হয়। যদি একটি ছবি 1000টি টোকেন দখল করে, তাহলে প্রতিবার জেনারেশনের জন্য এই 1000টি টোকেনের জন্য অ্যাটেনশন করতে হবে। যদি শুধুমাত্র 90টি টোকেন দখল করে, তাহলে গণনার পরিমাণ অনেক বেশি কমে যায়।

রিয়েল-টাইম রেসপন্স প্রয়োজনীয় অ্যাপ্লিকেশনগুলির জন্য, যেমন রোবোটিক ভিশন, অটোনোমাস ড্রাইভিং, রিয়েল-টাইম ভিডিও বিশ্লেষণ, ইনফারেন্স স্পিডের উন্নতি একটি নির্ণায়ক ভূমিকা পালন করে।

এটি কম মেমোরি ব্যবহার করে।

KV ক্যাশ বড় মডেল ইনফারেন্সের মেমোরি বোতলমুখ। বিশেষ করে দীর্ঘ কনটেক্সট বা ব্যাচ ইনফারেন্স প্রক্রিয়াকরণের সময়, KV ক্যাশ ব্যাপক পরিমাণ জিপিইউ মেমোরি দখল করে। ডিপসিক দৃশ্যটোকেনের KV ক্যাশকে 90টি এন্ট্রিতে সংকুচিত করেছে, যার অর্থ একই হার্ডওয়্যারে আরও বেশি ছবি প্রক্রিয়াকরণ বা দীর্ঘতর মাল্টি-রাউন্ড ডায়ালগ প্রক্রিয়াকরণ সম্ভব।

এটি বাস্তব বাস্তবায়নের জন্য অত্যন্ত গুরুত্বপূর্ণ। অনেক কোম্পানির মাল্টিমোডাল মডেল ল্যাবে ভালো পারফর্ম করে, কিন্তু বাস্তব বাস্তবায়নে খরচের সমস্যায় পড়ে। প্রতিটি ছবির জন্য যত বেশি token খরচ হয়, তত বেশি ইনফারেন্স খরচ হয় এবং সমস্ত সমান্তরাল ব্যবহারকারীকে সমর্থন করা কম সম্ভব হয়। DeepSeek-এর দক্ষতার সুবিধা স্কেলিংয়ের সময় বাড়ে।

এছাড়াও মডেলের কনটেক্সট ক্ষমতা প্রত্যক্ষভাবে বৃদ্ধি পেয়েছে।

যদি একটি ছবি 1000 টোকেন ব্যবহার করে, তাহলে 128k কনটেক্সট উইন্ডোতে শুধুমাত্র 100টির বেশি ছবি রাখা যায়। যদি এটি মাত্র 300 টোকেন ব্যবহার করে, তাহলে 400টির বেশি ছবি রাখা যায়। এটি একাধিক ছবি সহ ডায়ালগ, দীর্ঘ ভিডিও বিশ্লেষণ এবং বড় পরিমাণ ডকুমেন্ট বুঝতে প্রয়োজনীয়।

ডিপসিকের মডেল একটি কথোপকথনে একাধিক ছবি প্রক্রিয়াকরণ করতে পারে, দশগুণ বা শতগুণ ছবির তুলনামূলক বিশ্লেষণ করতে পারে এবং ভিডিওতে দীর্ঘমেয়াদী পরিবর্তন ট্র্যাক করতে পারে।

সবচেয়ে গুরুত্বপূর্ণ হল প্রশিক্ষণ খরচ।

যদিও রিপোর্টটি মূলত যুক্তির দক্ষতা নিয়ে আলোচনা করে, এই কম্প্রেশন মেকানিজম ট্রেনিং পর্যায়েও কার্যকর। কম ভিজুয়াল টোকেনের অর্থ হল ছোট কম্পিউটেশনাল গ্রাফ, দ্রুত ট্রেনিং স্পিড এবং কম হার্ডওয়্যার প্রয়োজনীয়তা।

DeepSeek সর্বদা “কম সংস্থানে ভালো ফলাফল” এর জন্য পরিচিত। R1-এর রিইনফোর্সমেন্ট লার্নিং ট্রেনিং থেকে শুরু করে V4-এর MoE আর্কিটেকচার এবং বর্তমান ভিজুয়াল মাল্টিমোডাল পর্যন্ত, এই দক্ষতা-প্রাধান্য দর্শনটি সর্বদা বজায় রাখা হয়েছে।

কিন্তু এখানে একটি গুরুত্বপূর্ণ প্রশ্ন আছে। সংকুচিত করলে তথ্য হারাবে কি?

ডিপসিক কম্প্রেশনের ফলে তথ্যের ক্ষতি হয় না বলে অস্বীকার করেনি। এর দাবি হলো, এই সেটের স্পেসিয়াল রিজনিং এবং গণনা টাস্কগুলিতে, কম্প্রেসড রিপ্রেজেন্টেশন এখনও যথেষ্ট কার্যকর।

প্রতিটি কম্প্রেশন ধাপে যুক্তির জন্য সবচেয়ে গুরুত্বপূর্ণ তথ্য বজায় রাখা হয় এবং অপ্রয়োজনীয় ও শব্দ বাদ দেওয়া হয়।

আসলে আগে উল্লিখিত ডিপসিকের ভিজুয়াল প্রিমিটিভ মেকানিজমটিও এক ধরনের তথ্য সংকুচন। একটি বাউন্ডিং বক্সকে চারটি সংখ্যা দিয়ে একটি বস্তুকে সঠিকভাবে অবস্থান দেওয়া যায়, এবং একটি পয়েন্টকে দুটি সংখ্যা দিয়ে একটি অবস্থান চিহ্নিত করা যায়। এই বিচ্ছিন্ন প্রতীকগুলি মূল পিক্সেলের তুলনায় অনেক বেশি তথ্য ঘনত্ব বহন করে।

পরীক্ষামূলক ফলাফল অনুসারে, এই সংকুচনটি কার্যক্ষমতাকে ক্ষতি করেনি, বরং কিছু কাজে উন্নতি আনে।

এটি বোঝায় যে অনেক দৃশ্য যুক্তি কাজের জন্য সীমাবদ্ধতা কম পরিষ্কারভাবে দেখা নয়, বরং উপযুক্ত প্রতিনিধিত্ব পদ্ধতি খুঁজে পাওয়া যায়নি।

এই দক্ষতার সুবিধাটি প্রমাণ করে যে বহুমুখী বুদ্ধিমত্তা অবশ্যই বড় মডেল, বেশি ক্ষমতা বা উচ্চতর খরচ প্রয়োজন নয়।

ডিপসিকের জন্ম থেকে আজ পর্যন্ত, এই কোম্পানির একটি গোপন রেখা রয়েছে, "সত্যিকারের বুদ্ধিমত্তা ক্ষমতার উপর নয়, বরং সমস্যার মূল বিষয়কে বুঝতে পারার উপর নির্ভর করে।"

যখন আপনি বাস্তবিকভাবে বুঝতে পারেন যে দৃশ্য যুক্তির জন্য কী প্রয়োজন, তখন আপনার এত টোকেনের প্রয়োজন হয় না। যখন আপনি সঠিক প্রতিনিধিত্ব পদ্ধতি খুঁজে পান, তখন আপনার এত বড় মডেলের প্রয়োজন হয় না।

এই দৃষ্টিকোণ থেকে, ডিপসিকের চরম দক্ষতা লক্ষ্য নয়, বরং একটি পার্শ্বফল। প্রকৃত লক্ষ্য হল দৃশ্য যুক্তির সঠিক প্যারাডাইম খুঁজে পাওয়া। দক্ষতা শুধু এই প্যারাডাইমটি সঠিক বলে প্রমাণ করে।

03 অসমাপ্ত কাজ

DeepSeek রিপোর্টের সীমাবদ্ধতা বিভাগে বর্তমান পদ্ধতির কয়েকটি সমস্যা স্পষ্টভাবে উল্লেখ করেছে। এই সমস্যাগুলি কোনও টেকনিক্যাল ছোট ত্রুটি নয়, বরং ভিজুয়াল রিজনিংয়ের পরবর্তী পর্যায়ের দিকে ইঙ্গিত করে।

প্রথম সমস্যাটি হল ট্রিগার শব্দ নির্ভরশীলতা।

রিপোর্টে স্পষ্টভাবে উল্লেখ করা হয়েছে যে, বর্তমান “ভিজুয়াল প্রিমিটিভ দিয়ে চিন্তা করা” ক্ষমতাটি সক্রিয় করতে প্রত্যক্ষ ট্রিগার শব্দ (explicit trigger words) প্রয়োজন। অর্থাৎ, মডেলটি এখনও স্বাভাবিকভাবে বা স্বয়ংক্রিয়ভাবে নির্ধারণ করতে পারছে না যে “কখন বক্স আঁকবে বা পয়েন্ট দেবে”。

এর অর্থ মডেলটি এখনও শিখে নি যে কখন ভিজুয়াল প্রিমিটিভ ব্যবহার করতে হবে এবং কখন ভাষা মাত্র যথেষ্ট।

আদর্শ পরিস্থিতিতে, মডেলটি কাজের প্রকৃতির ভিত্তিতে নিজে থেকে সিদ্ধান্ত নেওয়া উচিত। কিন্তু যখন ব্যবহারকারী জিজ্ঞাসা করে “ছবিতে কয়টি কুকুর আছে?”, তখন মডেলটি স্বয়ংক্রিয়ভাবে ভিজুয়াল প্রিমিটিভ মোডে স্যুইচ করবে এবং গণনার জন্য বাউন্ডিং বক্স ব্যবহার করবে।

প্রযুক্তিগতভাবে, এটি মডেলে একটি মেটাকগনিটিভ লেয়ার তৈরি করার প্রয়োজন। এই মেটাকগনিটিভ লেয়ারটি বর্তমান কাজের জটিলতা মূল্যায়ন করতে পারে, শুধুমাত্র ভাষাগত যুক্তির পর্যাপ্ততা নির্ধারণ করতে পারে এবং দৃশ্যমান প্রাইমগুলি কল করার প্রয়োজনীয়তা নির্ণয় করতে পারে।

DeepSeek এখনও এই মেটাকগনিটিভ লেয়ারটি বাস্তবায়িত করেনি, তবে তারা দিকটি পরিষ্কারভাবে চিহ্নিত করেছে। ভবিষ্যতের সংস্করণগুলিতে মডেলটি বাহ্যিক ট্রিগারের উপর নির্ভর না করে স্বয়ংক্রিয়ভাবে যুক্তি কৌশল নির্ধারণ করতে শিখতে পারে।

দ্বিতীয় সমস্যাটি হল রেজোলিউশন সীমাবদ্ধতা।

রিপোর্টটি উল্লেখ করে যে, ইনপুট রেজোলিউশনের সীমাবদ্ধতার কারণে মডেলটি সূক্ষ্ম মাত্রার পরিস্থিতিতে যথেষ্ট ভালোভাবে কাজ করে না এবং আউটপুট ভিজুয়াল প্রিমিটিভগুলি কখনও কখনও যথেষ্ট সঠিক নয়।

এই প্রশ্নটি DeepSeek-এর দক্ষতা-প্রাধান্য কৌশলের সাথে সম্পর্কিত। টোকেন সংখ্যা নিয়ন্ত্রণের জন্য, তারা দৃশ্যমান টোকেনের পরিসরকে 81 থেকে 384-এর মধ্যে সীমাবদ্ধ করেছে। এই পরিসরের বাইরের ছবিগুলির জন্য স্কেলিং প্রক্রিয়া করা হয়।

এই ডিজাইনটি বেশিরভাগ পরিস্থিতিতে যুক্তিসঙ্গত, কিন্তু অত্যন্ত উচ্চ সঠিকতা প্রয়োজনীয় কিছু কাজে এটি বাধার সম্মুখীন হয়। যেমন: চিকিৎসা ছবি বিশ্লেষণে ক্ষুদ্র প্যাথোলজিক্যাল লেসিয়নগুলি শনাক্ত করা প্রয়োজন, শিল্প গুণগত নিয়ন্ত্রণে সূক্ষ্ম ত্রুটি খুঁজে বার করা প্রয়োজন, এই পরিস্থিতিগুলিতে রেজোলিউশনের প্রয়োজনীয়তা অত্যন্ত উচ্চ।

DeepSeek রিপোর্টে উল্লেখ করেছে যে এই সমস্যাটি বিদ্যমান হাই-রেজোলিউশন পদ্ধতিগুলি একীভূত করে সমাধান করা যায়। অর্থাৎ, তাদের ভিজুয়াল প্রিমিটিভ ফ্রেমওয়ার্ক এবং প্রচলিত হাই-রেজোলিউশন ক্রপিং পদ্ধতি পরস্পরবিরোধী নয়, বরং পরস্পরকে পূরক।

আমি মনে করি ডিপসিক একটি মিশ্র সমাধান চালু করতে পারে।

অধিকাংশ সাধারণ কাজের জন্য, কম্প্রেসড ভিজুয়াল রিপ্রেজেন্টেশন এবং ভিজুয়াল প্রিমিটিভ রিজনিং ব্যবহার করে উচ্চ দক্ষতা বজায় রাখুন। যে স্থানগুলিতে সূক্ষ্ম বিশ্লেষণের প্রয়োজন হয়, সেখানে ডাইনামিকভাবে হাই-রেজোলিউশন ক্রপ কল করুন, যাতে আরও বিস্তারিত ভিজুয়াল তথ্য পাওয়া যায়। এভাবে সামগ্রিক দক্ষতা বজায় রাখা হয় এবং স্থানীয় সূক্ষ্মতার প্রয়োজনীয়তা পূরণ করা হয়।

এই মিশ্রণ পদ্ধতির মূল বিষয় হল মডেলকে শেখানো যে কোন অঞ্চলগুলির জন্য উচ্চ রেজোলিউশন প্রক্রিয়াকরণের প্রয়োজন। তাই এটি আবার আগের মেটাকগনিটিভ প্রশ্নের দিকে ফিরে আসে।

তৃতীয় প্রশ্নটি হল স্কেনারিও-ব্যাপী সাধারণীকরণ।

রিপোর্টটি উল্লেখ করে যে, জটিল টপোলজিক্যাল যুক্তির সমস্যা সমাধানের জন্য পয়েন্টকে দৃশ্যমান প্রাইম হিসাবে ব্যবহার করা এখনও কঠিন, এবং মডেলের স্কেনারিও-পার্ক জেনারালাইজেশন ক্ষমতা সীমিত।

এই প্রশ্নটি ল্যাবি নেভিগেশন এবং পাথ ট্র্যাকিং টাস্কে পরিষ্কারভাবে দেখা যায়। যদিও DeepSeek তার নিজস্ব তৈরি টেস্ট সেটে 66.9% এবং 56.7% সঠিকতা অর্জন করেছে, যা অন্যান্য মডেলগুলির চেয়ে বেশি, কিন্তু এই সংখ্যাগুলি নিজেই যথেষ্ট নয়।

বেশি গুরুত্বপূর্ণ বিষয় হলো, এই কাজগুলি সবই সিনথেটিক ডেটাতে প্রশিক্ষিত এবং পরীক্ষা করা হয়েছে। ম্যাজ অ্যালগরিদমিকভাবে তৈরি করা হয়েছে এবং পাথ ট্র্যাকিংয়ের বক্ররেখাগুলি প্রোগ্রাম্যাটিকভাবে আঁকা হয়েছে। যখন মডেলটি বাস্তব জগতের টপোলজিক্যাল রিজনিং সমস্যার সম্মুখীন হয়, যেমন বাস্তব মানচিত্রে পথ পরিকল্পনা করা বা জটিল পাইপলাইন ডায়াগ্রামে কানেকশনগুলি ট্র্যাক করা, তখন এর পারফরম্যান্স হ্রাস পেতে পারে।

ডিপসিকের পদ্ধতি হল সাধারণীকরণ ক্ষমতা বাড়ানোর জন্য বড় পরিসরে এবং উচ্চ বৈচিত্র্যপূর্ণ ডেটা ব্যবহার করা। তারা 97984টি ডেটা সোর্স স্ক্র্যাপ করে, কঠোর ফিল্টারিংয়ের মাধ্যমে 31701টি রাখে এবং চূড়ান্তভাবে 4000 লক্ষেরও বেশি নমুনা পায়। ম্যাজ এবং পাথ ট্র্যাকিং টাস্কে, তারা বিভিন্ন টপোলজি, ভিজুয়াল স্টাইল এবং কঠিনতার মাত্রা ডিজাইন করেছে, যাতে সম্ভাব্য সমস্ত পরিবর্তনগুলি কভার করা যায়।

তবে ডেটার বৈচিত্র্য শুধুমাত্র সাধারণীকরণের একটি দিক। মডেলটি কি সত্যিই টপোলজিক্যাল যুক্তির মূল বিষয়টি বুঝতে পারছে, নাকি এটি শুধুমাত্র প্রশিক্ষণ ডেটার প্যাটার্নগুলি মনে রাখছে?

এছাড়াও, ডিপসিকের ভিজুয়াল প্রিমিটিভস হল একটি নতুন প্রতিনিধিত্ব সিস্টেম, যার জন্য বিশেষ ডেটা ফরম্যাট, ট্রেনিং প্রক্রিয়া এবং মূল্যায়ন পদ্ধতির প্রয়োজন। এটি বর্তমান মাল্টিমোডাল ইকোসিস্টেমের সাথে সম্পূর্ণরূপে সামঞ্জস্যপূর্ণ নয়।

অধিকাংশ মাল্টিমোডাল ডেটাসেট এবং মূল্যায়ন বেঞ্চমার্ক প্রাচীন “ছবি + টেক্সট” প্যারাডাইমের উপর ভিত্তি করে তৈরি করা হয়েছে, যা ভিজুয়াল প্রিমিটিভগুলির কথা বিবেচনা করেনি। যদি এই বেঞ্চমার্কগুলিতে DeepSeek-এর মডেলগুলির মূল্যায়ন করতে হয়, তবে বা তো ভিজুয়াল প্রিমিটিভ ফাংশনটি বন্ধ করতে হবে, অথবা মূল্যায়ন পদ্ধতিগুলি পুনর্নকশা করতে হবে।

অন্যান্য গবেষকদের জন্য যদি এই কাজটি পুনরায় তৈরি বা উন্নত করতে চান, তাহলে সম্পূর্ণ ডেটা এবং প্রশিক্ষণ প্রক্রিয়াটি পুনরায় তৈরি করতে হবে, যার বাধা অপেক্ষাকৃত বেশি।

DeepSeek এই সমস্যাগুলি রিপোর্টে উল্লেখ করতে পারে, যা তাদের নিজেদের কাজের প্রতি সচেতনতা প্রকাশ করে।

এটি পারফেক্ট উত্তর দেওয়ার চেয়ে বেশি মূল্যবান হতে পারে। কারণ সমাজের প্রগতিকে প্রকৃতপক্ষে চালিত করে প্রায়শই উত্তর নয়, বরং প্রশ্ন।