ডিপসিক V4 স্থানীয় এআই চিপগুলিতে স্থিতিশীল পারফরম্যান্স প্রদর্শন করে

লেখক: ওয়ার্ল্ড মডেল ওয়ার্কশপ

ডিপসিক V4, আবার পুরো চীনকে কাঁপিয়ে দিয়েছে।

প্যারামিটার সাইজ, কনটেক্সট লেংথ, বেঞ্চমার্ক স্কোর... এই প্রযুক্তিগত সূচকগুলি বিভিন্ন প্রতিবেদনে বারবার তুলনা করা হয়েছে।

কিন্তু শুধু পৃষ্ঠের ডেটাতে থেকে গেলে, এই প্রকাশের সবচেয়ে কৌশলগত মূল বিষয়টি হারিয়ে ফেলা হয়।

গত তিন বছর ধরে, চীনের বড় মডেলগুলি একটি অস্বস্তিকর বাস্তবতার মধ্যে আটকা পড়েছিল: প্রশিক্ষণের জন্য নিভিয়াড়ার উপর নির্ভরশীল, যুক্তির জন্যও নিভিয়াড়ার উপর নির্ভরশীল, এবং দেশীয় চিপগুলি শুধুমাত্র ব্যাকআপ বিকল্প হিসাবে বিবেচিত।

নিভিয়াডিয়া সরবরাহ বন্ধ করলে চীনের সমস্ত মডেল সম্প্রদায় উদ্বিগ্ন হয়ে উঠবে।

কিন্তু আজ, ডিপসিক V4 তার ক্ষমতা দিয়ে প্রমাণ করেছে:

একটি অগ্রণী ট্রিলিয়ন প্যারামিটার স্কেলের বড় মডেল, যা দেশীয় ক্যালকুলেশন প্ল্যাটফর্মে স্থিতিশীল এবং দক্ষভাবে চালানো যায়।

এই ঘটনার তাৎপর্য মডেলের টেকনিক্যাল ইন্ডিকেটরগুলির চেয়ে বেশি।

স্থানীয়করণের বিপ্লব

এই দেশীয়করণ সামঞ্জস্যের কঠিনতা বুঝতে হলে প্রথমে নভিডিয়ার চিপ সাম্রাজ্যটি বুঝতে হবে।

নভেডিয়ার শুধু চিপ নয়, একটি উচ্চ-বন্দী সম্পূর্ণ ইকোসিস্টেমও রয়েছে:

হার্ডওয়্যারে, GPU চিপ ফ্যামিলি এবং NVLink, NVSwitch ব্যবহার করে চিপগুলির মধ্যে হাই-স্পিড নেটওয়ার্ক তৈরি করা হয়;

সফটওয়্যারে, CUDA হল নভেডিয়ার দশকের প্রচেষ্টায় তৈরি একটি AI অপারেটিং সিস্টেম।

এটি একটি অত্যন্ত অপ্টিমাইজড ফ্যাক্টরির মতো, যেখানে সবচেয়ে নিচের অপারেটর (মডেল গণনার মৌলিক ইউনিট) থেকে শুরু করে সম song গণনা, মেমোরি ম্যানেজমেন্ট, ডিস্ট্রিবিউটেড কমিউনিকেশন পর্যন্ত সমস্ত লিঙ্ক নভিডিয়া GPU-এর জন্য বিশেষভাবে তৈরি।

অন্যভাবে বললে, নভিডিয়া শুধু ইঞ্জিন বিক্রি করে না, এটি রাস্তা, গ্যাস স্টেশন, মেরামতির দোকান এবং নেভিগেশন সিস্টেমও ঠিক করে দিয়েছে।

বিশ্বের শীর্ষস্থানীয় বড় মডেলগুলির প্রায় সবগুলি এই ইকোসিস্টেমে বেড়ে উঠেছে।

স্থানীয় ক্যালকুলেশন ক্ষমতায় স্যুইচ করলে, সম্পূর্ণ ভিন্ন পরিস্থিতির সম্মুখীন হতে হয়।

হার্ডওয়্যার আর্কিটেকচার ভিন্ন, ইন্টারকানেকশন পদ্ধতি ভিন্ন, সফটওয়্যার স্ট্যাকের পরিপক্কতা ভিন্ন, এবং টুল ইকোসিস্টেম এখনও দ্রুত অনুসরণ করছে।

ডিপসিক স্থানীয় চিপগুলির সাথে সামঞ্জস্য করতে চায়, এটি শুধু একটি ইঞ্জিন বদলানোর মতো সহজ কিছু নয়, বরং একটি হাইওয়েতে দ্রুত গতিতে চলছে এমন রেসিং কারের জন্য এখনও নির্মাণাধীন একটি পাহাড়ি রাস্তায় স্যুইচ করা।

একটু ভুল করলেই ঝাপটা, গতি হ্রাস বা পুরো গাড়ি অগ্রসর হতে অক্ষম হয়ে পড়তে পারে।

এবার, DeepSeek V4 শুধুমাত্র CUDA পথে অপ্টিমাইজেশন চালিয়ে যাওয়ার পরিবর্তে দেশীয় ক্যালকুলেশন সফটওয়্যার স্ট্যাকের সামঞ্জস্যতা চেইনেও একসাথে প্রবেশ করেছে।

প্রকাশ্য তথ্য অনুযায়ী, V4 স্থানীয় উপলব্ধ ইনফারেন্স চিপের উপর ভিত্তি করে বিপ্লব ঘটিয়েছে, হুয়াওয়ে আসেন 950 চিপের সাথে গভীরভাবে অ্যাডাপ্টেড এবং মডেল প্রকাশের দিনই মিডওয়ার্ক চিপে স্থিতিশীলভাবে চলছে, যা বাস্তবিক Day 0 অ্যাডাপ্টেশন অর্জন করেছে।

এর অর্থ হলো, অগ্রণী মডেলগুলি স্থানীয় চিপসেট সিস্টেমে বাস্তবায়নের সম্ভাবনা অর্জন করছে।

DeepSeek V4 কিভাবে এটি করে?

প্রথম ধাপটি মডেল আর্কিটেকচার স্তরে ঘটে।

V4 স্থানীয় চিপগুলিকে 1M কনটেক্সট বহনের জন্য জোর দিয়েছে না, বরং প্রথমে মডেলটিকেই আরও কম খরচে করেছে।

অফিসিয়াল টেকনিক্যাল রিপোর্টের সবচেয়ে গুরুত্বপূর্ণ ডিজাইন হল CSA + HCA মিশ্র মনোযোগ মেকানিজম এবং KV ক্যাশ কম্প্রেশনসহ দীর্ঘ কনটেক্সট অপ্টিমাইজেশন।

সহজ কথায়, প্রাচীন দীর্ঘ প্রেক্ষাপট যুক্তি হল মডেলকে প্রতিবার প্রশ্নের উত্তর দেওয়ার জন্য একটি সম্পূর্ণ লাইব্রেরি বিছিয়ে দেওয়া, যাতে মেমোরি, ব্যান্ডউইথ এবং কম্পিউটিং পাওয়ার দ্রুত শেষ হয়ে যায়।

V4-এর পদ্ধতি হল প্রথমে লাইব্রেরিতে থাকা তথ্যগুলিকে পুনরায় ইনডেক্স করা, সংকুচিত করা এবং ফিল্টার করা, যাতে কেবল সবচেয়ে গুরুত্বপূর্ণ তথ্যগুলিকেই কম্পিউটেশনাল লাইনে পাঠানো যায়।

এভাবে, 1M কনটেক্সট এখন শুধুমাত্র হার্ডওয়্যারের বলের উপর নির্ভর করে না, বরং প্রথমে অ্যালগরিদম ব্যবহার করে কম্পিউটেশন এবং VRAM বিল ছোট করে।

এটি দেশীয় চিপের জন্য অত্যন্ত গুরুত্বপূর্ণ।

যদি মডেলটি এখনও গ্রাফিক্স মেমরি ব্যান্ডউইথ এবং পরিপক্ক CUDA লাইব্রেরির উপর অত্যধিক নির্ভরশীল থাকে, তবে দেশীয় চিপগুলি যদিও চালানো যায়, তবুও এগুলি সস্তা এবং স্থিতিশীলভাবে চালানো কঠিন হবে।

V4 প্রথমে ইনফারেন্স লোড কমায়, যা মূলত স্থানীয় ক্যালকুলেশন ক্ষমতাকে চাপ কমাচ্ছে।

দ্বিতীয় পদক্ষেপটি MoE আর্কিটেকচার এবং এক্টিভেশন প্যারামিটার স্তরে ঘটে।

V4-Pro এর মোট প্যারামিটার 1.6 ট্রিলিয়ন হলেও, প্রতিটি ইনফারেন্সে প্রায় 49 বিলিয়ন প্যারামিটার সক্রিয় হয়; V4-Flash এর মোট প্যারামিটার 284 বিলিয়ন, যার প্রতিটি ইনফারেন্সে প্রায় 13 বিলিয়ন প্যারামিটার সক্রিয় হয়।

এর অর্থ এটি প্রতিবার কল করার সময় সমস্ত প্যারামিটার নিয়ে গণনা করে না, বরং একটি বড় বিশেষজ্ঞ দলের মতো, যেখানে কাজ আসলে সংশ্লিষ্ট বিশেষজ্ঞদের কেবল নিয়োগ করা হয়।

দেশীয় চিপের জন্যও এটি একই প্রাধান্য বহন করে।

এটি প্রতিটি ইনফারেন্সের জন্য বহন করতে হওয়া গণনার চাপ কমিয়ে দেয় এবং দীর্ঘ কনটেক্সট এবং এজেন্ট স্কেনারিওগুলিকে ইনফারেন্স কার্ডগুলি সহজেই সমর্থন করতে দেয়।

তৃতীয় ধাপটি হল অপারেটর এবং কার্নেল স্তরের সামঞ্জস্যকরণ।

CUDA একোসিস্টেমের সবচেয়ে শক্তিশালী দিক হল বড় পরিমাণে নিম্ন স্তরের গণনা ইন্টেল দ্বারা পরিপক্ক করা হয়েছে, যার অনেকগুলি উচ্চ কর্মক্ষমতা গণনা সরাসরি কল করা যায়।

V4-এর গুরুত্ব হলো, এটি নভেডিয়ার ব্ল্যাকবক্স থেকে কিছু কী গণনা বের করে আরও স্থানান্তরযোগ্য এবং সামঞ্জস্যযোগ্য কাস্টম গণনা পথে পরিণত করে।

সহজ ভাষায়, V4 হল এমন একটি ইঞ্জিন যার সবচেয়ে গুরুত্বপূর্ণ অংশগুলি খুলে ফেলা হয়েছে, যাতে হুয়াওয়ে সেঞ্চুয়েন, হানওয়ুজি ইত্যাদি প্রতিষ্ঠানগুলি তাদের নিজস্ব চিপ স্ট্রাকচারের সাথে পুনরায় ক্যালিব্রেট করতে পারে।

চতুর্থ ধাপটি হল যুক্তিগত ফ্রেমওয়ার্ক এবং সার্ভিস লেয়ার।

যদি দেশীয় চিপ সামঞ্জস্যতা শুধুমাত্র "ডেমো চালানো" পর্যন্ত সীমাবদ্ধ থাকে, তবে শিল্পগত অর্থ খুব কম। আসলে যা মনোযোগ দেওয়ার মতো, তা হলো এটি কি কাজে লাগানো এবং চার্জ করা যায় এমন সেবা ব্যবস্থায় প্রবেশ করতে পারে কিনা।

অভ্যন্তরীণ পরীক্ষার মাধ্যমে প্রমাণিত হয়েছে যে, Ascend 950PR-এ V4 ইনফারেন্স গতি পূর্ববর্তী সংস্করণের তুলনায় উল্লেখযোগ্যভাবে বৃদ্ধি পেয়েছে এবং শক্তি খরচও উল্লেখযোগ্যভাবে কমেছে। নির্দিষ্ট লো-প্রিসিশন সিনারিওতে একটি কার্ডের পারফরম্যান্স নভিডিয়ার এক্সক্লুসিভ H20-এর দ্বিগুণের বেশি।

ডিপসিকের অফিসিয়াল বলেছে যে বর্তমানে V4-Pro উচ্চ ক্ষমতার কম্পিউটিং পাওয়ারের কারণে সার্ভিস থ্রুপুট সীমিত, এবং এই বছরের শেষের দিকে শেংটেং 950 সুপার নোডগুলির ব্যাচ মার্কেটে আসার পর দাম উল্লেখযোগ্যভাবে কমে যাবে।

এটি নির্দেশ করে যে, শেংটেং ইত্যাদি দেশীয় হার্ডওয়্যারের ব্যাচ উৎপাদন বৃদ্ধির সাথে সাথে V4-এর ভবিষ্যতের থ্রুপুট এবং মূল্য-প্রতি-কার্যকারিতা আরও উন্নত হবে।

তবে মনে রাখা প্রয়োজন যে, V4 এখনও নভিডিয়ার GPU এবং CUDA-কে সম্পূর্ণভাবে প্রতিস্থাপন করেনি। মডেল ট্রেনিংয়ের জন্য এখনও নভিডিয়ার প্রয়োজন হতে পারে, কিন্তু ইনফারেন্স ধীরে ধীরে দেশীয়করণ করা যাচ্ছে।

এটি বাস্তবিক ব্যবসায়িক পথ।

ট্রেনিং পর্যায়ক্রমিক বিনিয়োগ, একবার ট্রেন করুন, একবার অ্যাডজাস্ট করুন, একবার ইটারেট করুন। ইনফারেন্স হল ধারাবাহিক খরচ, প্রতিদিন কোটি, বিলিয়ন ব্যবহারকারীর কল, প্রতিবার ক্যালকুলেশন পাওয়ার খরচ হয়।

মডেল কোম্পানিগুলির প্রকৃত ব্যয়ের বড় অংশ দীর্ঘমেয়াদে যুক্তিসঙ্গত চাহিদা পূরণের দিকে বেশি ঝুঁকবে। যে কেউ যুক্তিসঙ্গত চাহিদা সস্তায় এবং স্থিতিশীলভাবে পূরণ করতে পারবে, তিনিই শিল্পের প্রয়োগে প্রকৃত সুবিধা অর্জন করবেন।

DeepSeek V4 প্রথমবারের মতো চীনের অগ্রণী মডেলের ইনফারেন্স ডিপ্লয়মেন্টের জন্য নভেডিয়া CUDA-কে ডিফল্ট পূর্বশর্ত হিসাবে ধরে নেওয়ার একটি পথ তৈরি করেছে।

এই ধাপটি ইতিমধ্যে যথেষ্ট গুরুত্বপূর্ণ।

V4-এর শিল্প প্রয়োগের উপর প্রভাব

যদি দেশীয় চিপ সামঞ্জস্য প্রশ্নটি হয় যে এটি চালানো সম্ভব কিনা, তবে মূল্য অন্য একটি বাস্তবসম্মত প্রশ্নের উত্তর দেয়:

কি ব্যবসায়িক প্রতিষ্ঠানগুলি এটি ব্যবহার করতে পারবে?

গতকাল ডিপসিকের সবচেয়ে বড় শক্তি ছিল এটির ক্ষমতা যা অগ্রগামী মডেলের ক্ষমতাকে অত্যন্ত কম দামে চাপিয়ে দেয়।

V3, R1 যেমন ছিল, V4 তেমনই আছে।

এবার এটি সাধারণ কনটেক্সট উইন্ডোতে মূল্য যুদ্ধ করছে না, বরং 1M কনটেক্সট + এজেন্ট ক্ষমতার প্রেক্ষাপটে মূল্য কমাচ্ছে।

ডিপসিকের অফিসিয়াল মূল্য অনুযায়ী:

V4-Flash-এর ক্যাশ হিট ইনপুট 0.2 টাকা/মিলিয়ন টোকেন, ক্যাশ মিস ইনপুট 1 টাকা/মিলিয়ন টোকেন, আউটপুট 2 টাকা/মিলিয়ন টোকেন;

V4-Pro-এর ক্যাশ হিট ইনপুট: ১ যুয়ান/মিলিয়ন টোকেন, ক্যাশ মিস ইনপুট: ১২ যুয়ান/মিলিয়ন টোকেন, আউটপুট: ২৪ যুয়ান/মিলিয়ন টোকেন।

এটিকে সমান শ্রেণীর দেশীয় মডেলগুলিতে দেখুন:

256K-1M স্তরে আলিবাবা Qwen3.6-Plus-এর তুলনায় V4-Pro-এর আউটপুট মূল্য প্রায় অর্ধেক, এবং V4-Flash তারও কম।

256K-1M ব্যান্ডে মিয়াও মিমো প্রো সিরিজের তুলনায় V4-Flash এবং V4-Pro উভয়ই স্পষ্টভাবে কম দামে।

কিমি K2.6-এর কনটেক্সট 256K, যেখানে V4-Pro-এর কনটেক্সট দীর্ঘতর এবং দাম কম; V4-Flash তখনই হাই-ফ্রিকোয়েন্সি কলের খরচকে আরেক মাত্রায় নামিয়ে আনে।

This has tremendous significance for enterprise applications.

1M কনটেক্সটের কারণে, মডেলটি একবারে পুরো কোড রিপোজিটরি, পাতার সংখ্যা বেশি চুক্তির প্যাকেজ, শতাধিক পৃষ্ঠার আইপিও প্রস্তাবনা, দীর্ঘ মিটিং মিনিট বা একটি এজেন্টের ক্রমাগত কার্যক্রমের ইতিহাস পড়তে পারে।

অনেক কোম্পানি এই বিষয়ে আটকে গিয়েছিল: মডেলের ক্ষমতা যথেষ্ট, কিন্তু কনটেক্সট অপর্যাপ্ত; কনটেক্সট যথেষ্ট, কিন্তু দাম খুব বেশি; দাম গ্রহণযোগ্য, কিন্তু মডেলের ক্ষমতা স্থিতিশীল নয়।

উদাহরণস্বরূপ, একটি কোম্পানি একটি ইনভেস্টমেন্ট রিসার্চ এজেন্ট তৈরি করে, যাতে মডেলটি একসাথে কোম্পানির বার্ষিক প্রতিবেদন, আয় কল, শিল্প প্রতিবেদন, প্রতিযোগীর সংবাদ এবং অভ্যন্তরীণ মেমো পড়তে পারে।

যখন কনটেক্সট শুধুমাত্র 128K বা 256K হয়, তখন সিস্টেম প্রায়শই স্লাইস, রিট্রিভ এবং সারাংশ করতে বাধ্য হয়, যার ফলে তথ্য একাধিক কম্প্রেশনে হারিয়ে যায়।

1M কনটেক্সট মডেলকে আরও বেশি মূল উপাদান ধরে রাখতে এবং হারিয়ে যাওয়া বা বিচ্ছিন্নতা কমাতে সাহায্য করে।

আবার কোড এজেন্টের ক্ষেত্রে।

এটি কয়েক লাইন কোড একবারে লেখার ব্যাপার নয়, বরং রিপোজিটরি পড়া, ডিপেন্ডেন্সি বুঝা, ফাইল পরিবর্তন করা, টেস্ট চালানো এবং ত্রুটির ভিত্তিতে আবার ঠিক করা। এই প্রক্রিয়াটি পুনরাবৃত্তি হয়ে টোকেন খরচ করে।

যদি প্রতিটি পদক্ষেপ খুব ব্যয়বহুল হয়, তাহলে এজেন্ট শুধুমাত্র ডেমো করতে পারবে, কিন্তু যদি টোকেনগুলি যথেষ্ট সস্তা হয়, তাহলে এটি বাস্তব গবেষণা ও উন্নয়ন প্রক্রিয়ায় প্রবেশ করতে পারবে।

এটি হল V4-এর শিল্প মূল্য।

এটি সবচেয়ে শক্তিশালী মডেল নাও হতে পারে, কিন্তু ব্যবসায়িক ক্ষেত্রে সবচেয়ে বেশি ব্যবহৃত মডেল হতে পারে।

ডিপসিক আবার এআইকে কয়েকটি বড় কোম্পানির একচেটিয়া খেলনা থেকে সব শিল্পে ব্যাপকভাবে বাস্তবায়নযোগ্য উৎপাদনশীল টুলে পরিণত করেছে।

V4-এর প্রকৃত মূল্য

যখন 1M কনটেক্সট অত্যন্ত কম দামে শিল্পের সামনে চলে আসে, তখনই DeepSeek V4-এর প্রকৃত মূল্য প্রকাশ পায়।

এই সবকিছু দেশীয় ক্যালকুলেশন ক্ষমতা এখনও পর্যাপ্ত পরিপক্ক নয় এমন ভিত্তির উপর গড়ে উঠেছে।

ডিপসিক দল স্থানীয় চিপ ইকোসিস্টেমের ব্যাপক ব্যবধানের সম্মুখীন হয়েও ইকোসিস্টেম পরিপক্ক হওয়ার জন্য অপেক্ষা করেননি।

তারা প্রকাশের সময়সীমা বারবার স্থগিত করেছে, হুয়াওয়ে এর মতো পার্টনারদের সাথে গভীরভাবে সমন্বিত টেস্টিংয়ের জন্য মাসের পর মাস ব্যয় করেছে—এই প্রকৌশলগত জটিলতা বাইরের মানুষের কল্পনার অতিক্রম করেছে।

এজন্যই V4-এর স্থানীয় ক্যালকুলেশন ক্ষমতায় শীর্ষস্থানীয় বন্ধ মডেলের মতো উপসংহার এবং এজেন্ট ক্ষমতা অর্জন করা বিশেষভাবে কঠিন।

V4 নিজেকে প্রমাণ করেছে যে, হার্ডওয়্যার ইকোসিস্টেমের পর্যায়ক্রমিক ব্যবধানের মুখোমুখি হয়েও, চীনা দল এখনও চরম ইঞ্জিনিয়ারিং বিনিয়োগ এবং সফটওয়্যার-হার্ডওয়্যার সমন্বয়ে নতুন উদ্ভাবনের মাধ্যমে প্রতিযোগিতামূলক পারফরম্যান্স অর্জন করতে পারে।

অবশ্যই, সম্পূর্ণ পরিণত হওয়ার জন্য এখনও দূরত্ব রয়েছে।

অস্টেন প্ল্যাটফর্মের টুলচেইনের পূর্ণতা, অতিবৃহৎ ক্লাস্টারের স্থিতিশীলতা এবং আরও বেশি উল্লেখযোগ্য স্কেনারিওর গভীর অপ্টিমাইজেশনের জন্য শিল্পের সকল পক্ষকে একসাথে কাজ করতে হবে।

কিন্তু V4-এর সাফল্য পরবর্তী মডেলগুলির জন্য একটি অনুসরণযোগ্য পথ প্রশস্ত করেছে।

এটি সম্পূর্ণ AI সরবরাহ শৃঙ্খলের স্বায়ত্তশাসন এবং নিয়ন্ত্রণের জন্য একটি শক্তিশালী উত্তেজক হিসেবে কাজ করেছে।

বর্তমানে বাহ্যিক পরিস্থিতি অনিশ্চিত হওয়ার মধ্যেও, সীমাবদ্ধতার মধ্যে দ্রুত এগিয়ে যাওয়ার এই দৃঢ়তা শুধুমাত্র প্যারামিটারের তুলনায় বেশি সম্মাননীয়।

প্রশংসায় ভুলিবেন না, নিন্দায় ভয় পাবেন না, পথের অনুসরণ করুন এবং নিজেকে সঠিকভাবে রাখুন।

এটি ডিপসিকের অফিসিয়াল থেকে আসা একটি বাক্য, যা এর সেরা ব্যাখ্যা।