ডিপসিকের কৌশল: একটি $10 ট্রিলিয়নের এআই হার্ডওয়্যার বাস্তুতন্ত্র গড়ে তোলা

ডিপসিকের 10 ট্রিলিয়ন ডলারের বড় কৌশল

প্রাথমিক লেখক: @bookwormengr

পেগি, ব্লকবিটস

সম্পাদকীয় নোট: গত বছর, ডিপসিক নিয়ে আলোচনা বেশিরভাগই মডেলের কর্মক্ষমতা, ওপেন-সোর্স কৌশল এবং মূল্য যুদ্ধের উপর কেন্দ্রীভূত হয়েছিল। কিন্তু শুধুমাত্র ‘সাবস্ক্রিপশন বিক্রি করছে কি না’, ‘মাল্টিমোডাল আছে কি না’, ‘কোডিং এজেন্ট হতে পারে কি না’—এইভাবেই ডিপসিককে বুঝলে, এটি যা পরিবর্তন করতে চায় তার প্রকৃত সম্ভাবনাকে হ্রাস করা হয়েছে।

এই নিবন্ধটি একটি আরও আক্রমণাত্মক মনে করে: ডিপসিকের লক্ষ্য হতে পারে অল্প সময়ের মধ্যে অ্যাপ্লিকেশন লেয়ারের মাধ্যমে আয় করা, বরং একটি সিরিজের মাধ্যমে মৌলিক আর্কিটেকচার উদ্ভাবনের মাধ্যমে AI ট্রেনিং এবং ইনফারেন্সের খরচের কাঠামোকে পুনর্গঠন করা এবং পরোক্ষভাবে একটি নতুন হার্ডওয়্যার ইকোসিস্টেম গড়ে তোলা। MoE, MLA থেকে DSA, CSA, mHC, Engram, এবং Dual Path এবং TileLang-এর মধ্যে, ডিপসিকের প্রযুক্তি পথটি সবসময় একটি কেন্দ্রীয় প্রশ্নকে কেন্দ্র করে: HBM, উন্নত প্রক্রিয়া, প্যাকেজিং এবং CUDA ইকোসিস্টেমের সীমাবদ্ধতার মধ্যে, কম উচ্চ-পারফরম্যান্স কম্পিউটিংয়ের সাহায্যে কীভাবে শক্তিশালী মডেলগুলি চালানো যায়।

সবচেয়ে গুরুত্বপূর্ণ বিষয় হল যে “DeepSeek কি API বা সাবস্ক্রিপশনের মাধ্যমে কয়েকশ মিলিয়ন ডলার আয় করতে পারবে” নয়, বরং এটি কি মডেলের ক্ষমতা, মেমোরি সিস্টেম এবং দেশীয় হার্ডওয়্যার ইকোসিস্টেমকে একত্রিত করছে। KV Cache সংকুচন HBM-এর উপর নির্ভরশীলতা কমিয়ে দেয়, NAND এবং SSD দীর্ঘস্থায়ী ক্যাশে বহন করতে পারে, LPDDR ওজন স্ট্রিমিং লোডিং এবং Engram সংরক্ষণের জন্য ব্যবহার করা যেতে পারে, এবং TileLang CUDA-এর প্রতিরক্ষা প্রাচীরকে দুর্বল করার চেষ্টা করছে। যদি এই উদ্ভাবনগুলি ধারাবাহিকভাবে普及 হয়, তবে এর লাভপ্রাপ্তদের মধ্যে DeepSeek-এর চেয়েও বেশি হবে: স্টোরেজ, ASIC, GPU, নেটওয়ার্ক চিপস, এবং AI ইনফ্রাস্ট্রাকচারের সম্পূর্ণ শৃঙ্খলা।

অবশ্যই, যে দাবি যে “10 ট্রিলিয়ন ডলারের শিল্প ইকোসিস্টেম” এবং “1 ট্রিলিয়ন ডলারের মূল্যায়ন” এর কথা বলা হয়েছে, তা এখনও প্রচুর অনুমানের উপর নির্ভর করে। তবে এটি DeepSeek-কে বুঝতে একটি গুরুত্বপূর্ণ পথ প্রদান করে: ওপেন-সোর্স হওয়া অবশ্যই বাণিজ্যিককরণকে ত্যাগ করার অর্থ নয়, এবং কম দাম অবশ্যই শুধুমাত্র বাজারকে সাবসিডি দেওয়ার অর্থও নয়। DeepSeek-এর জন্য, প্রকৃত ব্যবসা সম্ভবত অ্যাপ্লিকেশন লেয়ারে নয়, বরং আরও বেশি হার্ডওয়্যারকে ব্যবহারযোগ্য করে তোলা, এবং আরও কম খরচে AI সরবরাহকে সম্ভবপর করে তোলা। অন্যভাবে বললে, এটি সম্ভবত মডেলটিই বিক্রি করছে না, বরং পরবর্তী-প্রজন্মের AI ইনফ্রাস্ট্রাকচারের可行性।

নিম্নলিখিত মূল পাঠ:

আপনি কি কখনও ভাবেন নি যে DeepSeek কীভাবে অর্জন করবে এবং সম্ভবত অনেক টাকা অর্জন করবে?

এটি GLM, MoonShot এবং MiniMax-এর মতো প্রতিযোগিতামূলক প্রোগ্রামিং সাবস্ক্রিপশন প্যাকেজ চালু করেনি; এটির মাল্টিমোডাল, অডিও এবং ভিডিও মডেলও নেই। এখনও এটির নিজস্ব হ্যান্ডল, অর্থাৎ মডেল কল, টুল এক্সেস এবং টাস্ক এক্সিকিউশনের জন্য বাইরের রানটাইম ফ্রেমওয়ার্কও নেই—যদিও তারা সাম্প্রতিককালে এই সিস্টেমটি তৈরির জন্য সংশ্লিষ্ট পদের জন্য নিয়োগ শুরু করেছে।

এর মধ্যে, ডিপসিক দীর্ঘমেয়াদি ভাবে ওপেন সোর্সের পক্ষে দৃঢ়ভাবে দাঁড়িয়েছে, এমনকি নিজের "রহস্য" প্রকাশ্যে শেয়ার করতেও প্রস্তুত। এটা কি পাগলামি নয়? কি অপচয় নয়? যারা এটিতে 100 বিলিয়ন ডলার বিনিয়োগ করতে চায়, তারা কি তাদের টাকা সিফনে ফেলছে?

আমার ব্যক্তিগত মতে, উত্তরটি ঠিক বিপরীত।

পরবর্তীতে, আমি ডিপসিক যা পর্যন্ত করেছে তার ভিত্তিতে কিছু পর্যবেক্ষণ উপস্থাপন করব এবং এটি যে কৌশলটি অনুসরণ করছে তা বিশ্লেষণ করব। ডিপসিকের সিইও লিয়াং উয়েনফেংয়ের লক্ষ্য হতে পারে শুধুমাত্র বর্তমান মডেল প্রতিযোগিতা নয়। তিনি হয়তো একটি বড় পুরস্কারের দিকে তাকাচ্ছেন: ডিপসিকের ১ ট্রিলিয়ন ডলারের মূল্যায়নের দিকে এগিয়ে যাওয়ার সুযোগ রয়েছে, একইসাথে ১০ ট্রিলিয়ন ডলারের একটি নতুন শিল্পকে গড়ে তোলার।

TechInAsia-এর ডিপসিকের সর্বশেষ ফান্ডিং সম্পর্কিত প্রতিবেদন

ডিপসিকের "হিরো'স জার্নি" পুনরায় দেখুন

ডিপসিক সর্বদা বিপরীত বাতাসের বিরুদ্ধে এগিয়ে যাচ্ছে। এটি ধারাবাহিকভাবে কিছুটা বেশি শক্তিশালী মডেল চালু করে এবং তাদের প্রোগ্রামিং সাবস্ক্রিপশনের মতো সরাসরি আয়ের অ্যাপ্লিকেশনে প্যাকেজ করার পথ বেছে নেয়নি। ২০২৫ সালের ২৭ জানুয়ারি, আমি একটি ব্যাপকভাবে শেয়ার করা টুইট পোস্ট করেছিলাম, যেখানে আমি আমার দৃষ্টিতে ডিপসিকের 'হিরো'স জার্নি' বর্ণনা করেছিলাম। আজ, এই গল্পটি আরও আকর্ষণীয় হয়ে উঠেছে।

যখন অন্যরা ঘন মডেল তৈরি করার চেষ্টা করছে, তখন DeepSeek বেশি কঠিন প্রশিক্ষণযোগ্য এক্সপার্ট মিক্সচার মডেল (Mixture of Experts, MoE) বেছে নিয়েছে।

তারা «প্রথম নীতি» পদ্ধতি ব্যবহার করে একটি নতুন GRPO অ্যালগরিদম আবিষ্কার করেছে, যা বর্তমানে জনপ্রিয় কিন্তু বাস্তবায়নের খরচ বেশি হওয়া PPO শক্তিশালী শিক্ষা অ্যালগরিদমের পরিবর্তে ব্যবহার করা হয়।

তারা পায় যে, যাচাইকৃত পুরস্কার থেকে শিক্ষা (Reinforcement Learning from Verified Rewards, RLVR) হল মডেলের যুক্তিসঙ্গত ক্ষমতা বাড়ানোর মূল কৌশল।

তারা একটি সহজ অনুমানমূলক ডিকোডিং কৌশলও প্রস্তাব করেছে যা «মাল্টি টোকেন প্রেডিকশন» (Multi Token Prediction) এর মাধ্যমে করা হয়েছে, যার ফলে ট্রেনিং সিগন্যালগুলি আরও ঘন হয়েছে।

তারা সীমিত GPU সম্পদের ব্যবহার দক্ষতা বাড়ানোর জন্য «জিরো বাবল» (ZERO bubble) পাইপলাইনটি উন্নত করেছে।

তারা একটি এক্সপার্ট লোড ব্যালেন্সার প্রকাশ করেছে, যার মাধ্যমে সবাই সহজেই MoE মডেল ডিপ্লয় করতে পারবে। বিশেষ করে, 'ওয়াইড এক্সপার্ট প্যারালাল' কৌশলের মাধ্যমে, মডেলটিকে বড় ব্যাচ দিয়ে সার্ভ করা যায়, যা ইনফারেন্স খরচকে প্রচুর কমিয়ে দেয়।

তারা KV Cache-এর প্রয়োজনীয়তা কমানোর জন্য MLA, DSA, CSA, HCA ইত্যাদি মেকানিজম উদ্ভাবন করেছে এবং কনটেক্সট দৈর্ঘ্য বৃদ্ধির সাথে বৃদ্ধি পাওয়া ক্যালকুলেশনের চাহিদা যতটা সম্ভব ধ্রুবক রাখার চেষ্টা করেছে।

তারা এনগ্রাম আবিষ্কার করেছে, যেখানে মেমোরির বিনিময়ে ক্যালকুলেশন দক্ষতা পাওয়া যায়।

তারা আরও mHC আবিষ্কার করেছে, যার ফলে মডেলের আকার বৃদ্ধির সময়ও স্থিতিশীল প্রশিক্ষণ সম্ভব হয়েছে। এর মতো অনেক উদাহরণ আছে।

在「英雄之旅」这一最普遍的叙事结构中，英雄从来不会一开始就决定自己的旅程究竟通向哪里。他是在一路学习中，逐渐发现自己真正伟大的使命，并在重重阻碍之下完成它。他会遇到许多质疑者，但他选择无视他们。他也会遇到许多恶意行动者。他有明显的缺陷或短板，但最终会克服这些问题，完成自己的使命。他面对看似无法跨越的挑战，却能找到结盟的方法，并学会如何明智地使用有限而珍贵的资源。正是这一点，让观众愿意为英雄加油。这也是 DeepSeek 赢得追随者、全球尊重以及反对者的原因。

যেমন আমি পরবর্তীতে বিস্তারিত ব্যাখ্যা করব, ডিপসিক এই পথে দীর্ঘদিন ধরে এগিয়ে চলেছে এবং ধীরে ধীরে নিজের চূড়ান্ত ভাগ্য খুঁজে পেয়েছে: এর লক্ষ্য হল প্রোগ্রামিং সাবস্ক্রিপশন প্যাকেজ বিক্রি করা নয়, বরং 10 ট্রিলিয়ন ডলারের চীনা AI হার্ডওয়্যার ইকোসিস্টেমকে উৎসাহিত করা এবং নিজেকে 1 ট্রিলিয়ন ডলারের মূল্যায়নে পৌঁছানো। এই প্রক্রিয়ায়, এটি পশ্চিমা হার্ডওয়্যার ইকোসিস্টেমের অনেক নতুন প্রবেশকারীদেরও সুযোগ তৈরি করবে।

কিছু আকর্ষণীয় KV Cache গণনা দিয়ে শুরু করুন

@SemiAnalysis_-এর এই সম্প্রতি পোস্টটি দেখুন:

DeepSeek এটি আগের যেকোনো কেউ থেকে ভালোভাবে সমাধান করেছে!

চলুন কিছু মজার KV Cache গণনা করি। চিন্তা করবেন না, যদি আপনি গণিত পছন্দ না করেন। আমরা সাম্প্রতিকভাবে প্রকাশিত KV Cache ক্যালকুলেটরটি ব্যবহার করে দেখব যে DeepSeek V4 Pro কতটা KV Cache সঞ্চয় করে, এবং এটিকে সর্বশেষ GLM এবং Qwen মডেলগুলির সাথে তুলনা করব।

আমি এখানে 100 লক্ষ কনটেক্সট দৈর্ঘ্য ধরে গণনা করেছি, ধরে নিয়েছি যে KV প্রিসিশন 8 বিট এবং ইন্ডেক্সার প্রিসিশন 16 বিট। আপনি নিজেও এই ক্যালকুলেটরটি খুলে চেষ্টা করতে পারেন:https://kvcache.ai/tools/kv-cache-calculator/

আপনি নিজেই ক্যালকুলেটর খুলে চেষ্টা করতে পারেন!

100 লক্ষ কনটেক্সট দৈর্ঘ্যে:

·DeepSeek V4 এর জন্য মাত্র 5.48GB HBM প্রয়োজন;

·GLM-5 এর জন্য 60GB HBM প্রয়োজন;

·Qwen3-235B-A22B-এর জন্য প্রায় 89GB HBM প্রয়োজন।

দ্রষ্টব্য:

·ডিপসিক হল একটি 1.6 ট্রিলিয়ন প্যারামিটার মডেল;

·GLM-5 প্রায় 7000 বিলিয়ন প্যারামিটার এবং ইতিমধ্যে DeepSeek-এর MLA এবং DSA গ্রহণ করেছে, তবে সর্বশেষ কম্প্রেশন অ্যাটেনশন মেকানিজম ব্যবহার করেনি;

·Qwen3-235B-A22B প্রায় 2350 বিলিয়ন প্যারামিটার বহন করে এবং GQA অ্যাটেনশন মেকানিজম ব্যবহার করে।

DeepSeek মেমোরি চাপ হ্রাসে মৌলিক অবদান রেখেছে। যদি এই ধরনের উদ্ভাবনগুলি প্রসারিত হয়, তবে দীর্ঘ-সময়ের Agent-এর চালানোর খরচ উল্লেখযোগ্যভাবে কমে যাবে এবং পরবর্তী প্রজন্মের নতুন অ্যাপ্লিকেশন স্কেনারিওগুলি উন্মুক্ত হবে।

100 লক্ষ টোকেন কনটেক্সট এবং মডেল স্কেলের অধীনে KV ক্যাশে ব্যবহারের তুলনা

"ফ্রেনজি" এর পিছনের পদ্ধতি

KV ক্যাশের আকার এতটাই ছোট হওয়ার কারণ হল মডেলের গুণগত মানকে বিলুপ্ত না করে ডিপসিক দীর্ঘসময়ের জন্য ক্যাশে প্রদানের অত্যন্ত কম মূল্যে সক্ষম হওয়া—এর মূল্য এমনকি Sonnet 4.6 ক্যাশে হিটের মূল্যের 3% এরও কম, এবং DeepSeek ক্যাশেকে ঘন্টার পর ঘন্টা ধরে রাখতে পারে।

দীর্ঘ পিরিয়ডের কাজের জন্য, ছোট KV Cache অর্থ এটিকে SSD-এ অধিক অর্থনৈতিকভাবে আনুলোড করা এবং প্রয়োজনে পুনরায় লোড করা। এতে HBM-এর উপর নির্ভরশীলতা কমে যায়। চীনা AI হার্ডওয়্যার শিল্পের দৃষ্টিকোণ থেকে, HBM শুধুমাত্র সরবরাহের অভাবের সম্মুখীন, বরং এটি তৈরি করা সবচেয়ে কঠিন মেমোরি টাইপগুলির মধ্যে একটি।

এছাড়াও, ডিপসিক এসএসডি থেকে কেভি ক্যাশে আরও দ্রুত লোড করার জন্য একটি প্রযুক্তি বিকাশ করেছে, যা তাদের ডুয়াল প্যাথ পেপারে বর্ণিত হয়েছে।

DeepSeek V4-এর KV Cache-এর সংকুচন এতটাই বড় যে এই ধাপটি হয়তো আর প্রয়োজন হবে না।

তাহলে, KV ক্যাশে সংকুচনের সবচেয়ে প্রত্যক্ষ লাভবান কে?

কে বড় পরিসরে SSD সরবরাহ করছে? মনে রাখবেন, YMTC (Yangtze Memory) 3D NAND ক্ষেত্রে একটি বিশাল প্রতিষ্ঠান হয়ে উঠছে। NAND দিয়ে DeepSeek কেভির পুনরাবৃত্তি গণনা এড়াতে পারে। বিপরীতভাবে, DeepSeek NAND এবং SSD-এর জন্য একটি বিশাল বাজার তৈরি করছে—যা শুধুমাত্র Yangtze Memory-কেই নয়, অন্যান্য সংশ্লিষ্ট প্রতিষ্ঠানগুলিকেও উপকৃত করবে।

তবে, এটি শুধুমাত্র NAND এবং SSD-এর বিষয় নয়।

LPDDR মেমোরিরও বিশাল সম্ভাবনা রয়েছে। এটি মডেল ওয়েটগুলি সংরক্ষণের জন্য ব্যবহার করা যেতে পারে এবং প্রয়োজনে এই ওয়েটগুলিকে HBM-এর দিকে স্ট্রিম করে HBM-এর চাহিদা কমাতে পারে। SGLang টিম এই বিষয়ে একটি অসাধারণ ব্লগ পোস্ট প্রকাশ করেছিল। নিচের চিত্রটি এই পদ্ধতির কার্যপ্রণালী দেখায়।

ডিপসিক এই সমাধানের জন্য কোনো বিশেষ ডিজাইন করেনি, তবে এর MoE আর্কিটেকচার, বহু এক্সপার্ট মডেল এবং 4 বিট ওয়েট বৈশিষ্ট্য এই সমাধানটি বাস্তবায়নকে সহজ করেছে।

এই চিত্রটি দেখায় যে মেমোরি কীভাবে ব্যবহার করা যেতে পারে এবং মডেল ওয়েটগুলি কীভাবে LPDDR থেকে HBM-এ স্ট্রিম হয়। SGLang-এর ব্লগ পোস্টটি পড়ার জন্য শক্তিশালীভাবে সুপারিশ করা হচ্ছে।

এই উদ্ভাবনটি অত্যন্ত সংকুচিত এবং ক্ষতিহীন KV Cache-এর সাথে একীভূত হলে HBM-এর প্রয়োজনীয়তা উল্লেখযোগ্যভাবে কমে যাবে।

তাহলে চীনে কে এলপিডিডিআর উৎপাদন করছে? উত্তর হলো CXMT, যা চাংশিন স্টোরেজ। তারা এলপিডিডিআর গতিতে মাত্র অর্ধ-প্রজন্ম পিছিয়ে, ঘনত্বে এক প্রজন্ম পিছিয়ে, যা বড় পার্থক্য নয়।

পর্যাপ্ত NAND-এর পাশাপাশি, চীনের এআই ইকোসিস্টেম শীঘ্রই পর্যাপ্ত LPDDR সরবরাহও অর্জন করবে। এটি কি ক্যালকুলেশন চাপ কমাবে? উত্তর: হ্যাঁ। আরও পড়ুন।

স্মৃতির বুদ্ধিমত্তার সাথে ব্যবহার করে জিপিইউ / এএসআইসির চাপও কমানো যায়

NAND ব্যবহার করে KV Cache সংরক্ষণের কাজটি বুঝতে সহজ: এটি KV Cache কে দীর্ঘস্থায়ী করে তোলে, HBM-এর চাপ কমায়, এবং KV Cache-এর পুনরাবৃত্তি গণনা এড়ায়, যার ফলে GPU এবং ASIC-এর গণনা বোঝা কমে।

তাহলে, কি LPDDR ও একইভাবে কাজ করতে পারে? এটি কি HBM-এ ওজনগুলি প্রয়োজন অনুযায়ী স্ট্রিম করার জন্য একটি মেমোরি লোকেশন হিসাবে কাজ করার পাশাপাশি গণনার চাপও আরও কমাতে পারে?

উত্তর হল: হ্যাঁ।

LPDDR ব্যবহার করে বিপুল পরিমাণ Engram নামক কনটেন্ট সংরক্ষণ করা যায়। DeepSeek-এর Engram পেপারে, তারা উল্লেখ করেছেন যে MoE শর্তাধীন গণনার মাধ্যমে মডেলের ক্ষমতা বাড়াতে পারে, কিন্তু Transformer নিজেই একটি ন্যাটিভ 'জ্ঞান অনুসন্ধান' মেকানিজম বহন করে না। ফলে, Transformer-এর প্রায়শই অকার্যকরভাবে রিট্রিভাল প্রক্রিয়াকে গণনার মাধ্যমে অনুকরণ করতে হয়।

এই সমস্যা সমাধানের জন্য, DeepSeek এনগ্রাম মডিউল প্রস্তাব করেছে। এটি ক্লাসিক N-gram এমবেডিংকে আধুনিকীকরণ করে একটি হ্যাশ-ভিত্তিক O(1) খোঁজার ব্যবস্থায় রূপান্তরিত করে, যা তাদের দ্বারা "শর্তাধীন মেমোরি" নামে পরিচিত একটি পূরক স্পার্সিফিকেশন পথ তৈরি করে।

এই পদ্ধতিটি গণনা সংরক্ষণ করে, কিন্তু এমবেডিং টেবিল ধারণের জন্য মেমোরির প্রয়োজন হয়, যা নিজেই খুব বড় হতে পারে।

এটি মূলত একটি প্রচলিত “মেমোরির বদলে কম্পিউটেশন” সমাধান। কিন্তু এর মূল পর্যবেক্ষণ হল: প্রতি বিট ডেটা পড়ার খরচের দিক থেকে, “মেমোরি” পাশটি অনেক বেশি সস্তা—একবার LPDDR অনুসন্ধান, ডেটাকে একাধিক Transformer স্তর দিয়ে একবার ফরওয়ার্ড ক্যালকুলেশনের মধ্যে দিয়ে যাওয়ার চেয়ে অনেক কম খরচে। তাই, বড় স্কেলের পরিস্থিতিতে, এটি একটি খুবই লাভজনক বিনিময়।

এটি হল DeepSeek-এর কিছু মেমোরি বিসর্জন দিয়ে গণনা সংরক্ষণের পদ্ধতি।

যোগ্য পরিবর্তন

একই স্তরের চিপ ট্রানজিস্টর ঘনত্ব এবং EUV না থাকায়, চীনা GPU এবং ASIC মূল FLOPs ক্ষমতায় দীর্ঘমেয়াদে পশ্চিমা GPU-এর পিছনে থাকবে। এগুলির উন্নত প্যাকেজিংয়েও এখনও স্পষ্ট ব্যবধান রয়েছে। তাই, বিশেষ করে চীন যদি NAND এবং LPDDR মেমোরির বড় পরিমাণে উৎপাদন করতে পারে, তবে এই ধরনের বিনিময় করা অত্যন্ত যৌক্তিক।

ডিপসিকের দীর্ঘমেয়াদী কৌশলের পুনর্বিবেচনা

এই উদ্ভাবনগুলি থেকে বোঝা যায় যে ডিপসিকের লক্ষ্য মুহূর্তের জন্য কয়েকশ মিলিয়ন ডলার লাভ করা নয়। এর আগের অনেক পছন্দই এটিকে নিশ্চিত করে: এখনও মাল্টিমোডাল, ভয়েস মডেল, বা ভিডিও মডেল নেই।

এটি প্রকৃতপক্ষে একটি দীর্ঘমেয়াদী খেলায় অংশগ্রহণ করছে, যার পরিসর হতে পারে 10 ট্রিলিয়ন ডলার: একটি বিকল্প AI হার্ডওয়্যার ইকোসিস্টেম গড়ে তোলা।

এটি শুধু চীনা মেমোরি প্রস্তুতকারকদের চীন এবং বিশ্বব্যাপী এআই হার্ডওয়্যার বাজারে একটি গুরুত্বপূর্ণ খেলোয়াড় হিসেবে স্থাপনের জন্য নয়, বরং এআই মডেলের প্রশিক্ষণ এবং সেবা করার জন্য সম্পদের চাহিদা মৌলিকভাবে কমানোর জন্যও। এইভাবে, অনেক GPU, ASIC এবং নেটওয়ার্ক চিপ প্রস্তুতকারকদের জন্য সম্ভাব্য বিকল্প হওয়ার সুযোগ থাকবে।

এর সাথে সাথে, এই নবায়নগুলি পশ্চিমা ওপেন সোর্স ইকোসিস্টেম এবং নতুন প্রজন্মের হার্ডওয়্যার নির্মাতাদেরও সুবিধা দেবে।

সব লক্ষণই আসলে প্রকাশ পেয়েছে। আসুন আমরা ডিপসিক এখন পর্যন্ত যে সব উদ্ভাবন পেশ করেছে তা বিস্তারিতভাবে পুনরালোচনা করি:

1. ডিপসিক V2-এ প্রবর্তিত এক্সপার্ট মিক্সড মডেল (MoE) এবং MLA

DeepSeek V2-এ MoE এবং MLA চালু করা হয়েছে। MoE প্রায় 40% থেকে 50% পর্যন্ত উচ্চ-বুদ্ধিমত্তাবিশিষ্ট মডেল প্রশিক্ষণের জন্য প্রয়োজনীয় গণনার পরিমাণ কমিয়েছে; MLA দ্বারা KV Cache 90% কমেছে।

এটি KV Cache কে SSD-এ আনলোড করাকে প্রায় দক্ষ করে তোলে।

এই ধারণাগুলি প্রথম দেখা যায় ২০২৪ সালের মে মাসে DeepSeek দ্বারা প্রকাশিত DeepSeek V2 পেপারে। পরবর্তীতে, এগুলি DeepSeek V3-এর প্রশিক্ষণের ভিত্তি হয়ে ওঠে। সেই সময়, DeepSeek কেবলমাত্র ২০৪৮টি পারফরম্যান্স-সীমাবদ্ধ H800 GPU ব্যবহার করে একটি সিস্টেম প্রশিক্ষণ দেয়, যা বন্ধ সোর্স মডেলের স্তরের কাছাকাছি পারফরম্যান্স দেয়।

2、DSA: দীর্ঘ কনটেক্সট সিনারিওতে গণনার খরচ কমাতে এবং HBM ব্যান্ডউইথের চাপ হ্রাস করতে DeepSeek V3.2 Exp-এ চালু করা হয়েছে।

DSA-এর মূল ভূমিকা হল গণনার পরিমাণ প্রসঙ্গের দৈর্ঘ্য বাড়ার সাথে সাথে অবিরামভাবে বৃদ্ধি না পাওয়ার নিশ্চয়তা দেওয়া। নিচের চার্টটি দেখুন: প্রসঙ্গের দৈর্ঘ্য বাড়ার সাথে সাথে, DeepSeek-V3.2-এর প্রক্রিয়াকরণ সময় প্রায় স্থির থাকে।

3. mHC: 2025 সালের ডিসেম্বরে DeepSeek দ্বারা প্রবর্তিত হয়েছে পেপারটির মাধ্যমে: “mHC: Manifold-Constrained Hyper-Connections”

mHC হল DeepSeek-এর ম্যাক্রো আর্কিটেকচার লেভেলে একটি নবাচার, যা Transformer স্তরগুলির মধ্যে তথ্য প্রবাহকে পুনর্নকশা করে।

গতকাল পর্যন্ত, রেসনেটের পর থেকে, মডেলগুলি সাধারণত স্ট্যান্ডার্ড রেসিডুয়াল কানেকশন, অর্থাৎ x + F(x) ব্যবহার করত। mHC-এর পদ্ধতি হল রেসিডুয়াল ফ্লোকে একাধিক সম song তথ্য চ্যানেলে বিস্তারিত করা এবং মডেলকে এই চ্যানেলগুলির মধ্যে শিক্ষযোগ্য মিশ্রণের অনুমতি দেওয়া। মূল বিষয়টি হল, এটি মিশ্রণ ম্যাট্রিক্সকে ডুয়াল-স্টোকাস্টিক ম্যাট্রিক্স হিসাবে সীমাবদ্ধ করে, অর্থাৎ এটিকে Birkhoff বহুফলকের উপর Sinkhorn-Knopp প্রজেকশন দ্বারা সীমাবদ্ধ করে। এইভাবে, গণিতের দৃষ্টিকোণ থেকে নিশ্চিত হওয়া যায় যে, মডেলটি যতই গভীর হোক না কেন, সংকেতের পরিমাণ স্থির থাকবে।

এটি আগের অনিয়ন্ত্রিত হাইপার-কানেকশনগুলির সামনে দাঁড়ানো দুর্ভোগজনক অস্থিরতার সমস্যা সমাধান করে। হাইপার-কানেকশনগুলি প্রথমে বাইটডান্স দ্বারা প্রস্তাবিত হয়েছিল, কিন্তু অনিয়ন্ত্রিত অবস্থায়, 270 বিলিয়ন প্যারামিটার স্কেলে সংকেত বিবর্ধন 3000 গুণ পর্যন্ত বৃদ্ধি পায়, যা চূড়ান্তভাবে প্রশিক্ষণকে সম্পূর্ণভাবে বিনষ্ট করে দেয়।

mHC-এর গণনার খরচ খুব কম: এটি মনোযোগ স্তর বা FFN স্তরের FLOPs-এর কোনো পরিবর্তন করে না, শুধু এই স্তরগুলির আউটপুটের লেয়ারের মধ্যে রাউটিং পদ্ধতি পরিবর্তন করে, ফলে এটি প্রকৃত ট্রেনিং সময়ে মাত্র প্রায় 6.7% বৃদ্ধি ঘটায়।

কিন্তু এটি উল্লেখযোগ্য পারফরম্যান্স বৃদ্ধি আনে: 27 বিলিয়ন প্যারামিটার স্কেলে, mHC বিগ-বেঞ্চ হার্ড রিজনিং টাস্কে 7.2 পয়েন্ট, DROP-এ 3.2 পয়েন্ট, GSM8K ম্যাথ টাস্কে 2.8 পয়েন্ট এবং MMLU জেনারেল কিনোলেজ টাস্কে 1.4 পয়েন্ট বৃদ্ধি করে। এই সমস্ত উন্নতি একই মডেল স্কেল এবং প্রায় একই কম্পিউটেশনাল বাজেটে অর্জন করা হয়েছে।

মূলত, mHC প্রায় কোনও অতিরিক্ত FLOPs যোগ না করে নেটওয়ার্কের জন্য একটি আরও সমৃদ্ধ এবং বেশি প্রকাশক্ষম ক্রস-লেয়ার ইনফরমেশন রাউটিং টপোলজি প্রদান করে একক প্যারামিটার বুদ্ধিমত্তা বাড়ায়।

mHC একটি জটিল আর্কিটেকচার ডিজাইন, কিন্তু এটি আরও স্থিতিশীল ট্রেনিং প্রক্রিয়া এবং উচ্চতর ইউনিট প্যারামিটার বুদ্ধিমত্তা প্রদান করে।

4, CSA, HSA: DeepSeek 2026 এর এপ্রিলে V4-এ চালু করা হয়েছে।

CSA এবং HSA-এর লক্ষ্য হল KV Token কম্প্রেস করে KV Cache-এর প্রয়োজনীয়তা আরও 90% কমিয়ে আনা এবং প্রয়োজনীয় FLOPs-এর পরিমাণ উল্লেখযোগ্যভাবে কমিয়ে একসাথে HBM এবং GPU/ASIC-এর চাপ কমানো।

৫। এনগ্রাম: ২০২৬ এর প্রথম ত্রৈমাসিকে ডিপসিক দ্বারা চালু করা হয়েছে, যা মূলত কিছুটা মেমোরি, অর্থাৎ LPDDR মেমোরির সাথে গণনা দক্ষতা বিনিময় করে।

নিচের বিস্তারিত চার্টটি দেখায় যে, মোট প্যারামিটার বাজেট একই থাকার শর্তে, এনগ্রাম উল্লেখযোগ্য পারফরম্যান্স বৃদ্ধি আনে।

6. এনগ্রাম: ২০২৬ এর প্রথম ত্রৈমাসিকে ডিপসিক দ্বারা চালু করা হয়েছে, যা মূলত কিছুটা মেমোরি, অর্থাৎ LPDDR মেমোরি, ব্যবহার করে গণনা দক্ষতা বাড়ায়।

এটি ডিপসিক যা তাদের V4 পেপারে হার্ডওয়্যার প্রস্তুতকারকদের পরামর্শ দিয়েছে। আমি নিশ্চিত যে, অফলাইন আলোচনায় তারা আরও বেশি ফিডব্যাক দেবে।

7, টাইলল্যাঙে বিনিয়োগও একই দিকে ইঙ্গিত করে: ডিপসিক শুধু নিজের ক্যালকুলেশন বাধা সমাধান করছে না, বরং চীনের হার্ডওয়্যার ইকোসিস্টেমকে পশ্চিমা ইকোসিস্টেমের সাথে প্রতিযোগিতার ক্ষমতা দিয়ে দিচ্ছে।

টাইলল্যাঙ্গের সাহায্যে, ডেভেলপাররা শুধুমাত্র একবার কার্নেল—যা গণনার জন্য বেসমেন্ট কোড—লিখতে পারেন, এবং যদি সেই প্ল্যাটফর্মগুলিতে সংশ্লিষ্ট টাইলল্যাঙ্গ ব্যাকএন্ড সমর্থন থাকে, তবে এটিকে বিভিন্ন হার্ডওয়্যার প্ল্যাটফর্মে সফলভাবে চালানো যায়।

আমি প্রত্যাশা করি যে অন্যান্য চীনা এআই পরীক্ষাগারও ধীরে ধীরে এতে যোগ দেবে। এটি চীনা হার্ডওয়্যার প্রস্তুতকারকদের পক্ষে সোজাসুজি 'কিউডার খাল' প্রতিহত করতে সাহায্য করবে। এছাড়াও, এটি এএমডি-এর মতো পশ্চিমা হার্ডওয়্যারের বেশি সম্ভাবনা খুলে দেবে।

উল্লেখ্য যে, চীনের অনেক এআই হার্ডওয়্যার প্ল্যাটফর্ম ইতিমধ্যেই CUDA সামঞ্জস্যতা বা CUDA ট্রান্সলেশন লেয়ার প্রদান করে। উদাহরণস্বরূপ, মোয়ার টেকনোলজি, মু সি, বিলেন এবং টিয়ানশু জিনশিন হল সেই চীনা চিপ প্রস্তুতকারকদের মধ্যে যারা CUDA-এর উচ্চ সামঞ্জস্যতা অর্জনের জন্য ট্রান্সলেশন লেয়ার ব্যবহার করে। তাই তাত্ত্বিকভাবে, এদের জন্য TileLang-এর প্রয়োজন হওয়ার কথা নয়।

বড় পরিসরের শিক্ষণ এবং RSI

ডিপসিক যত বেশি ক্যালকুলেশন সোর্স পাবে, অর্থাৎ বিকল্প হার্ডওয়্যার বাড়বে, এবং মডেলটির ক্যালকুলেশন রিসোর্সের প্রয়োজনীয়তা কমবে, ততই এটি আরও আকাঙ্ক্ষী ট্রেনিং প্রকল্পগুলি—বিশেষ করে রিইনফোর্সমেন্ট লার্নিং-এর পরের ট্রেনিং—এগিয়ে নিতে পারবে।

শক্তিশালী শিক্ষা ব্যাপক ট্রাজেক্টরি জেনারেশন প্রয়োজন, অর্থাৎ ট্রিলিয়ন টোকেন জেনারেশন। এই প্রক্রিয়াটি খুব দ্রুত অত্যন্ত ব্যয়বহুল হয়ে উঠবে। আরও এগিয়ে, যদি 1 মিলিয়ন কনটেক্সট দৈর্ঘ্যের মডেল ট্রেন করতে হয়, তাহলে একই দৈর্ঘ্যের ট্রাজেক্টরি জেনারেট করতে হবে। শুধুমাত্র এই অতি-দীর্ঘ ট্রাজেক্টরিতে মডেল ট্রেন করলেই দীর্ঘ-সময়কালীন টাস্কগুলির সমর্থন করা সম্ভব।

এছাড়াও, হার্ডওয়্যার বিকল্পগুলি বৃদ্ধি পাওয়ার কারণে, ডিপসিক যে হার্ডওয়্যার সংস্থানগুলি ব্যবহার করতে পারবে তা বৃদ্ধি পাবে, যা স্বয়ংক্রিয় গবেষণা, অর্থাৎ RSI-কে উৎসাহিত করবে। RSI বলতে AI-এর নিজের দ্বারা পরীক্ষা ডিজাইন করা এবং সম্পাদন করা বোঝায়। এই পদ্ধতিটি অসংখ্য পরীক্ষা-ভুলের সমন্বয় করবে এবং খরচও দ্রুত বৃদ্ধি পাবে। তবে RSI-এর মাধ্যমেই মডেল ডিজাইন স্পেসের সম্পূর্ণ অন্বেষণ সম্ভব। AGI-এর দিকে এগিয়ে যাওয়ার আগে, এবং তারপর ASI-এর দিকে এগিয়ে যাওয়ার আগে, ডিপসিককে RSI-এর ক্ষমতা অর্জন করতে হবে।

ডিপসিক আজ যা করছে, পুরো শিল্প কাল তা অনুসরণ করবে

ডিপসিক দ্বারা এক্সপার্ট মিক্সচার মডেল, MLA, DSA ইত্যাদি দিকে অবিষ্কারগুলি ধাপে ধাপে বিশ্বব্যাপী এবং চীনের অন্যান্য এআই পরীক্ষাগারগুলি দ্বারা গৃহীত হয়েছে।

উদাহরণস্বরূপ, GLM সিরিজ মডেলের বিকাশকারী ZAI MLA এবং DSA ব্যবহার করেছে। Kimi, যা Moonshot, এছাড়াও MLA গ্রহণ করেছে এবং স্পষ্টভাবে ঘোষণা করেছে যে এর আর্কিটেকচার DeepSeek আর্কিটেকচারের উপর ভিত্তি করে তৈরি। বিপরীতভাবে, DeepSeek এছাড়াও Muon অপ্টিমাইজার ব্যবহার করে, যা Muon সর্বপ্রথম Kimi (Moonshot) দ্বারা বড় পরিসরের প্রশিক্ষণে ব্যবহৃত হয়েছিল।

দয়া করে উল্লেখ করুন:

MoE প্রথম 2017 সালে Google দ্বারা প্রস্তাব করা হয়, মূল লেখক হলেন নোয়াম শাজার। ডিপসিকের অবদান হল MoE কে বড় পরিসরে প্রয়োগ করা এবং নিজস্ব সমর্থনকারী কৌশলগুলি আবিষ্কার করা।

Muon, যা নিউটন-শুল্জ অপ্টিমাইজার দ্বারা অর্থোগোনালাইজড মোমেন্টাম, 2024 সালের শেষের দিকে মেশিন লার্নিং গবেষক কেলার জর্ডান দ্বারা প্রস্তাবিত হয়। কিমি (Moonshot) দলটি এটিকে বৃহৎ স্কেলে প্রশিক্ষণের জন্য প্রথম দল হিসাবে ব্যবহার করে।

তাহলে লাভের প্রশ্নটা কী করবেন?

আমরা ওপেনএআই এই আকর্ষণীয় উদাহরণটি দেখতে পারি।

OpenAI এমডি এবং সিরিব্রাসের শেয়ার কম দামে ক্রয়ের জন্য ওপশন বা ওয়ার্রেন্ট পেয়েছে, যেগুলো এর কম্পিউটিং ব্যবহারের মাইলস্টোনের সাথে সংযুক্ত। এমডি এবং সিরিব্রাসের জন্য এটি খুবই লাভজনক চুক্তি, কারণ OpenAI যদি তাদের হার্ডওয়্যার ব্যবহারের প্রতিশ্রুতি দেয়, তাহলে তাদের দীর্ঘমেয়াদী সফলতার সম্ভাবনা উল্লেখযোগ্যভাবে বৃদ্ধি পায়।

AMD-এর ঘোষণায় এই অংশটি রয়েছে:

প্রোটোকলের অংশ হিসেবে, উভয় পক্ষের কৌশলগত স্বার্থ আরও ভালোভাবে সমন্বিত করার জন্য, AMD একটি ওয়ারেন্ট জারি করেছে যা OpenAI-কে সর্বোচ্চ 160 মিলিয়নটি AMD সাধারণ শেয়ার ক্রয়ের অধিকার দেয়, এবং এটি নির্দিষ্ট মাইলস্টোনের পূরণের সাথে ধাপে ধাপে সম্পত্তিরূপে প্রদান করা হবে। প্রথম ধাপটি 1 গিগাওয়াট বিনিয়োগ সম্পন্নের সাথেই সম্পত্তিরূপে প্রদান করা হবে, এবং পরবর্তী ধাপগুলি 6 গিগাওয়াট পর্যন্ত ক্রয়ের পরিসর বৃদ্ধির সাথে ধাপে ধাপে সম্পত্তিরূপে প্রদান করা হবে। সম্পত্তিরূপে প্রদানের শর্তগুলি AMD-এর নির্দিষ্ট শেয়ারমূল্যের লক্ষ্যে পৌঁছানো, এবং OpenAI-এর AMD-এর বড়পরিসরের বিনিয়োগের জন্যপ্রয়োজনীয় প্রযুক্তিগত এবং 商業মাইলস্টোনগুলি অর্জনেরও সঙ্গে সম্পৃক্ত।

আমি প্রত্যাশা করি যে ডিপসিকও চীনা মেমোরি, ASIC, CPU এবং নেটওয়ার্ক টেকনোলজি স্ট্যাক প্রস্তুতকারকদের সাথে এই ধরনের চুক্তিতে পৌঁছাবে এবং এই প্রস্তুতকারকদের হার্ডওয়্যার স্ট্যাককে অগ্রণী AI ওয়ার্কলোড পরিচালনার যোগ্য করে তুলতে গভীরভাবে সহযোগিতা করবে।

সমস্ত পশ্চিমা দেশ, যার মধ্যে পূর্ব এশিয়ার মিত্রদেরও অন্তর্ভুক্ত রয়েছে, এবং AI শেয়ারের মোট বাজার মূল্য 10 ট্রিলিয়ন ডলারেরও বেশি হয়ে গেছে, এই “সহযোগিতার মাধ্যমে শেয়ারের রিটার্ন পাওয়া” পদ্ধতির মাধ্যমে DeepSeek-এর জন্য চীনকে একই পরিমাণের শিল্প গড়ে তোলার সুযোগ করে দেওয়া হবে এবং সেখানে নিজেদের অংশটি পাবে, যার ফলে এর 1 ট্রিলিয়ন ডলারের মূল্যায়ন অর্জন করা সম্ভব হবে।

এটি শুধুমাত্র ডিপসিককে পারম্পরিক অ্যাপ সাবস্ক্রিপশন ব্যবসার চেয়ে অনেক বেশি আয় করতে দেবে, একইসাথে এটির দাবি করা “প্রতিটি মানুষের জন্য এজিআইকে সুলভ করা” লক্ষ্যটিও অর্জন করবে। লিয়াং উয়েনফেং জিম সিমনসের একজন অনুরাগী এবং যথেষ্ট বুদ্ধিমান মূলধন খেলোয়াড়, তিনি এই বিষয়টি উপেক্ষা করতে পারেন না।

যদি তুমি ডিপসিক এখন পর্যন্ত যা করেছে তার প্রতিটি পদক্ষেপের প্রতি পিছনে ফিরে তাকাও, তাহলে এটাই একমাত্র ব্যাখ্যা যা যুক্তিসঙ্গত।

এগুলি প্রধান এআই শেয়ার। হাইপারস্কেলার, অর্থাৎ অতিপ্রচুর ক্লাউড প্রদানকারী এবং অন্যান্য অনেক সংশ্লিষ্ট কোম্পানি চিত্রে অন্তর্ভুক্ত করা হয়নি।

ওয়েবসাইটের মূল লিঙ্ক