জিপু এআই-এর স্টক ৪০০ টোকেন/সেকেন্ড এপিআই চালুর পর ২৬% বৃদ্ধি পায়

লেখক: AIDeepDive

আজ, "বিশ্বের প্রথম বৃহৎ মডেল কোম্পানি" জিজং (02513.HK) আবার দ্রুত বৃদ্ধি পেয়েছে।

মধ্যে মধ্যে বৃদ্ধি 30% এর বেশি ছাড়িয়েছিল। বন্ধ হওয়ার সময় 1282 হংকং ডলারে বন্ধ হয়েছিল, পুরো দিনের বৃদ্ধি 26% এর বেশি ছিল, এবং বাজার মূল্য 5715.7 বিলিয়ন হংকং ডলারে পৌঁছেছিল, যা আবার ইতিহাসের সর্বোচ্চ পর্যায়ে পৌঁছেছিল।

বড় মডেল

এই বৃদ্ধির পেছনে একটি নির্দিষ্ট প্রযুক্তিগত সূচক রয়েছে: 400 tokens/s।

মে 22 তারিখে, জিজিপু প্রতিষ্ঠানগুলির জন্য GLM-5.1 হাই-স্পিড API (GLM-5.1-highspeed) চালু করেছে, যার সবচেয়ে গুরুত্বপূর্ণ মূল প্যারামিটারটি হল: মডেলের আউটপুট গতি 400 টোকেন/সেকেন্ড, যা বিশ্বের সমস্ত বড় মডেল প্রস্তুতকারকদের API গতির সর্বোচ্চ সীমা নতুনভাবে আপডেট করেছে।

আমি মনে করেছিলাম এটি আবারও একটি চীনা বড় মডেলের প্রচারমূলক প্যাকেজিং, কিন্তু প্রযুক্তিগত বিস্তারিতগুলি ভালোভাবে দেখার পর আমি বাজারের পিছনের যুক্তি বুঝতে পেরেছি।

400 টোকেন/সেকেন্ড মানে কী?

মডেলটি প্রতি সেকেন্ডে প্রায় ২০০টি চীনা অক্ষর তৈরি করতে পারে, যা একজন পেশাদার লেখকের এক মিনিটের উচ্চ চাপের উৎপাদনকে এক সেকেন্ডের মধ্যে সংকুচিত করে।

একজন ক্রিয়েটর যে পরিমাণ লেখা কয়েক দিন ধরে বসে লিখেন, GLM-5.1 হাই-স্পিড ভার্সন এক মিনিটের মধ্যেই সেটা প্রদান করে দেয়; একজন ইঞ্জিনিয়ার যে কাজ ৩ দিন ধরে করেন, সেটা এক কাপ কফি পান করার মধ্যেই শেষ করে ফেলে।

01 গতি, যা তোমার চেয়ে বেশি গুরুত্বপূর্ণ

গতি হল এআই মডেলের প্রতিযোগিতায় সবচেয়ে বেশি উপেক্ষিত মাত্রা।

গত তিন বছরে, বড় মডেলের অস্ত্রাগার প্রতিযোগিতা দুটি পথে কেন্দ্রীভূত হয়েছিল: প্যারামিটার স্কেল (মডেল বড় এবং বুদ্ধিমান) এবং মূল্য যুদ্ধ (টোকেন সস্তা এবং সর্বজনীন)। "দ্রুত" কখনই মুখ্য চরিত্র ছিল না।

কারণ অতীতে “দ্রুত” হওয়া সাধারণত মডেলের প্যারামিটার কমিয়ে অর্জন করা হত। দ্রুততা বাড়ানোর জন্য ছোট এবং সরল মডেল ব্যবহার করতে হত, যার ফলে ক্ষমতা হ্রাস পায়।

GLM-5.1 হাই-স্পিড ভার্সনের এই সংস্করণের গুরুত্ব হলো, এটি ফ্ল্যাগশিপ স্তরের পূর্ণাঙ্গ বেস ক্ষমতা বজায় রেখে গতি বাড়িয়ে 400 টোকেন/সেকেন্ডে নিয়ে এসেছে।

দেশীয় মডেলের ক্ষেত্রে বা আন্তর্জাতিক পরিসরে, "ফ্ল্যাগশিপ ক্ষমতা" এবং "অত্যন্ত নিম্ন ল্যাটেন্সি" প্রথমবারের মতো কোনো সমঝোতা ছাড়াই অর্জন করা হয়েছে।

বড় মডেল

কেন গতি এত গুরুত্বপূর্ণ? কারণ এআই-এর মূল ক্ষেত্রে মৌলিক স্থানান্তর ঘটছে।

যখন এআই চ্যাটবট থেকে এজেন্ট যুগে প্রবেশ করে, তখন প্রশ্ন-উত্তর এআইয়ের প্রধান স্কেনারিও থাকে না, এবং এজেন্ট একটি কাজ সম্পন্ন করতে প্রায় দশটি থেকে শতাধিক পুনরাবৃত্তির মাধ্যমে নিজেকে কল করে: কোড লিখা, ইন্টারফেস কল করা, তথ্য অনুসন্ধান করা, টুলস ব্যবহার করা...

এই কাজের মোডে, প্রতিটি কলের মধ্যে বিলম্ব নির্মমভাবে জমা হয়ে বাড়তে থাকে। ৫০টি কল প্রয়োজন এমন একটি কাজে, যদি প্রতিবার ১ সেকেন্ড বাঁচানো যায়, তাহলে সম্পূর্ণ কাজটি প্রায় ১ মিনিট দ্রুত শেষ হয়। AI প্রোগ্রামিং সহায়ক, ভয়েস ইন্টারঅ্যাকশন, এবং ব্যবসায়িক সিদ্ধান্ত ব্যবস্থার জন্য এই পার্থক্য জীবন-মৃত্যুর সিদ্ধান্ত নির্ধারণকারী হতে পারে।

গভীরভাবে বলা যায়, একটি নির্দিষ্ট সময় বাজেটের মধ্যে দ্রুত যুক্তিসঙ্গত প্রক্রিয়া মডেলকে আরও গভীর যুক্তিসঙ্গত পথ এবং বেশি রাউন্ডের নিজের যাচাইকরণ সম্পন্ন করতে দেয়। গতি, এখন সিস্টেমের একটি মেট্রিক থেকে বুদ্ধিমত্তার সীমানা হয়ে উঠছে।

02 গতির বিষয়টি কতটা কঠিন?

এখন শিল্পে গতির পরিমাণ কতটা?

শীর্ষ প্রস্তুতকারকদের মধ্যে, OpenAI-এর GPT-4o প্রায় 100–150 টোকেন/সেকেন্ড, Anthropic-এর Claude Sonnet সিরিজ প্রায় 80–120 টোকেন/সেকেন্ড, এবং দেশীয় প্রধান ফ্ল্যাগশিপ মডেল API-গুলি সাধারণত 50–100 টোকেন/সেকেন্ড পরিসরে। 400 টোকেন/সেকেন্ড প্রায় শিল্পের গড় হারের 3 থেকে 5 গুণ।

এর চেয়ে গুরুত্বপূর্ণ বিষয় হলো, এই ব্যবধানটি আরও বেশি ক্যালকুলেশন ক্ষমতা ব্যয় করে পূরণ করা যায় না।

8টি H200 গ্রাফিক্স কার্ড সহ একটি সার্ভার তাত্ত্বিকভাবে প্রতি সেকেন্ডে 38TB ডেটা স্থানান্তর করতে পারে। GLM-5.1-এর জন্য, প্রতিটি টোকেন জেনারেট করতে প্রায় 42GB এক্টিভেশন প্যারামিটার পড়তে হয়, শুধুমাত্র তাত্ত্বিকভাবে অনুমান করলে, এটি প্রায় 1000 টোকেন/সেকেন্ড পৌঁছাতে পারে।

কিন্তু বাস্তব সিস্টেমগুলি প্রায়শই শুধুমাত্র কয়েক দশটি টোকেন/সেকেন্ড চালাতে পারে।

বড় মডেল

এটি একটি পরিমাণগত ব্যবধান। GPU যথেষ্ট দ্রুত নয়, বরং অসংখ্য সময় অপেক্ষা, নিষ্ক্রিয় থাকা এবং অকার্যকর সময়সূচীকরণে নষ্ট হয়ে যায়।

চিগ্লু এবার রিজনিং ইঞ্জিন, প্যারালাল স্ট্র্যাটেজি এবং নেটওয়ার্ক আর্কিটেকচার—এই তিনটি স্তরে একসাথে নতুন উদ্ভাবন করে চূড়ান্ত গতির বিপ্লব ঘটিয়েছে।

বড় মডেল

03 তিনটি স্তরের প্রযুক্তি সংযোজন করে হার্ডওয়্যারের ভৌত সীমার কাছাকাছি যাওয়া হচ্ছে

বড় মডেলগুলি এভাবে কাজ করে, বড় মডেলগুলিকে একক অপারেটরে বিভক্ত করা হয়, প্রতিটি অপারেটর একবার ক্যালকুলেশন কোর (কার্নেল) শুরু করে, গণনা শেষ হলে থামে, সিঙ্ক্রোনাইজড অপেক্ষা করে, তারপর পরবর্তীটি শুরু করে।

প্রশিক্ষণ পর্যায়ে, প্রতিবার গণনা করতে কয়েক সেকেন্ড থেকে কয়েক মিনিট সময় লাগে, এই শুরু এবং অপেক্ষার খরচ সম্পূর্ণভাবে উপেক্ষা করা যায়। কিন্তু উপসংহারের সময়, প্রতিবার একটি টোকেন তৈরি করা হয়, কিছু গুরুত্বপূর্ণ ধাপ শুধুমাত্র কয়েক দশমিক মাইক্রোসেকেন্ড সময় নেয়, তখন শুরু এবং অপেক্ষার খরচ আপেক্ষিকভাবে অগ্রহণযোগ্য হয়ে ওঠে।

TileRT-এর মূল ধারণা: সম্পূর্ণ মডেলটিকে একটি চলমান ইঞ্জিনে কম্পাইল করা, একবার শুরু করুন, কখনও বন্ধ করবেন না।

TileRT কোড কম্পাইলেশন পর্যায়ে মডেলের সমস্ত গণনা লজিককে স্ট্যাটিকভাবে একটি নিরবচ্ছিন্ন পাইপলাইনে প্রসারিত করে, যাতে রানটাইমে GPU সর্বদা উচ্চ গতিতে চলে। গণনা, ডেটা ট্রান্সফার এবং যোগাযোগ সমান্তরালে এগিয়ে যায়, এবং মধ্যবর্তী ফলাফলগুলি যতটা সম্ভব GPU-এর অভ্যন্তরীণ হাই-স্পিড ক্যাশেতেই রাখা হয়, যাতে ধীর ভিডিও মেমোরিতে পুনরায় লিখতে এবং পুনরায় পড়তে হয় না।

বড় মডেল

একটি গুরুত্বপূর্ণ ডিজাইন বিস্তারিত রয়েছে: ওয়ার্প স্পেশালাইজেশন।

Warp বুঝতে হলে GPU কিভাবে কাজ করে তা বুঝতে হবে। CPU-এর সাথে GPU-এর প্রধান পার্থক্য হল এটির ভিতরে হাজার হাজার সাপেক্ষিকভাবে সরল ক্যালকুলেশন ইউনিট থাকে, যেগুলো 32টি করে একটি গ্রুপে বান্ডিল করা হয়, এই গ্রুপকেই Warp বলে।

একই ওয়ার্প-এর ৩২টি ইউনিট সর্বদা সিঙ্ক্রোনাইজড ভাবে একই নির্দেশ বাস্তবায়ন করে, যেমন একটি সেনাবাহিনীর ক্লাসে ক্লাস কমান্ডার সবাইকে একসাথে একই কাজ করতে আদেশ দেন।

প্রাচীন কাঠামোতে, সমস্ত Warp একই নির্দেশনা অনুসরণ করে; TileRT বিভিন্ন Warp গ্রুপকে বিভিন্ন দায়িত্ব দেয়: একটি গ্রুপ পরবর্তী ডেটা আগে থেকেই আনার জন্য বিশেষায়িত, অন্যটি গণিতীয় গণনার জন্য বিশেষায়িত, এবং আরেকটি অন্যান্য GPU-এর সাথে যোগাযোগের জন্য বিশেষায়িত। তিনটি দল একসাথে কাজ করে, প্রবাহিতভাবে সমন্বিতভাবে, একে অপরের অপেক্ষা করে না।

এটি ঠিক এমন যেন "একজন শ্রমিক একসাথে ইট বহন, দেয়াল গড়া এবং পরীক্ষা করে" থেকে "ইট বহন দল, দেয়াল গড়া দল এবং পরীক্ষা দল একসাথে কাজ করছে"।

একক কার্ডের দক্ষতা সমাধান করা হয়েছে, এখন একাধিক কার্ড সম song করার নতুন চ্যালেঞ্জ দেখা দিয়েছে।

টেনসর প্যারালাল (Tensor Parallel) হল শিল্পের মানক পদ্ধতি: মডেলের ওজন ম্যাট্রিক্সকে কয়েকটি অংশে বিভক্ত করা হয়, প্রতিটি GPU একটি অংশ দায়িত্ব পায়, এবং প্রতিটি গণনা শেষে ফলাফলগুলি হাই-স্পিড ইন্টারকানেকশন (NVLink) এর মাধ্যমে একত্রিত হয়।

এই পদ্ধতিটি ম্যাট্রিক্স গুণনের মতো সুসংগঠিত ঘন গণনার জন্য খুব ভালো কাজ করে, এটি বর্তমানে প্রায় সমস্ত বড় মডেল ইনফারেন্স ফ্রেমওয়ার্কের স্ট্যান্ডার্ড মাল্টি-জিপিইউ সমাধান।

GLM-5.1 ব্যবহার করে **MLA (Multi-head Latent Attention, মাল্টি-হেড ল্যাটেন্ট অ্যাটেনশন), যা DeepSeek দ্বারা প্রস্তাবিত একটি অ্যাটেনশন মেকানিজম।

প্রাচীন মনোযোগ কৌশলটি প্রতিটি ধাপে গণনা করা বহু মধ্যবর্তী ডেটা (KV Cache) সম্পূর্ণভাবে সংরক্ষণ করে, যা গ্রাফিক্স মেমোরির জন্য খুবই ব্যয়বহুল; MLA-এর পদ্ধতিটি হল এই মধ্যবর্তী ডেটাগুলিকে একটি সংকুচিত "লেটেন্ট ভেক্টর" হিসাবে সংকুচিত করে সংরক্ষণ করা, যখন প্রয়োজন হবে তখন এটিকে পুনরুদ্ধার করা, যার ফলে গ্রাফিক্স মেমোরির প্রয়োজনীয়তা ব্যাপকভাবে কমে যায় এবং উপসংহার দক্ষতা বৃদ্ধি পায়।

কিন্তু MLA গণনা প্রক্রিয়ায় একটি বিশেষ ধাপ রয়েছে: বড় পরিমাণে ঐতিহাসিক তথ্য থেকে স্পার্স ইনডেক্সিং করা প্রয়োজন: যেমন একটি বিশাল লাইব্রেরিতে প্রথমে সবচেয়ে সংশ্লিষ্ট কয়েকটি বই দ্রুত খুঁজে বার করা, তারপর এই কয়েকটি বইয়ের বিস্তারিত পড়া।

"খোঁজা" ধাপটি গ্লোবাল তথ্যের উপর নির্ভরশীল, যা মাল্টি-গিগাপিইতে বিভক্ত করা উপযুক্ত নয়; "গভীরভাবে পড়া" হল মাল্টি-গিগাপিইয়ের জন্য উপযুক্ত ঘন গণনা। যদি সমস্ত 8টি GPU-কে "খোঁজা"-এ অংশগ্রহণের জন্য বাধ্য করা হয়, তবে GPU-গুলির মধ্যে সিঙ্ক্রোনাইজেশন যোগাযোগের উপর বহু সময় ব্যয় হবে।

TileRT-এর সমাধান হল GPU-কে হাইব্রিডভাবে চালানো: GPU 0 কে বিশেষভাবে "লাইব্রেরি রিট্রিভার" হিসাবে নিযুক্ত করা হয়, যা স্পার্স ইনডেক্সিং এবং রাউটিং সিদ্ধান্ত নেয়; GPU 1–7 কে "ডিটেইলড অ্যানালিস্ট" হিসাবে নিযুক্ত করা হয়, যারা ঘন মনোযোগ গণনা এবং ম্যাট্রিক্স অপারেশন সম্পাদন করে। উভয় ধরনের কর্মীরা নিজেদের জন্য সবচেয়ে উপযুক্ত সম songায়িত কৌশল ব্যবহার করে পুরো কম্পিউটেশন লেয়ারটি সম্পন্ন করে।

বড় মডেল

পরবর্তীতে, টাইলআরটি জিপিইউগুলির মধ্যে যোগাযোগ অপারেশনগুলিকেও সরাসরি এক্সিকিউশন পাইপলাইনে এমবেড করে, যা আগের মতো স্বতন্ত্র ধাপ হিসাবে থাকে না। বাহিরের দিক থেকে, সম্পূর্ণ 8-কার্ড সিস্টেমটি একটি মনোযোগ গণনা সম্পন্ন করতে শুধুমাত্র একবার কার্নেল শুরু করে, এবং অভ্যন্তরীণ যোগাযোগ এবং গণনা দুটিই নিরবচ্ছিন্নভাবে পাইপলাইনের মধ্যে সম্পন্ন হয়।

উপরের দুটি স্তর একক মেশিনের সীমার মধ্যে সমস্যাগুলি সমাধান করে। যখন ক্লাস্টারটি শত শত বা হাজার হাজার GPU-এ বিস্তৃত হয়, তখন GPU-এর মধ্যে ডেটা ট্রান্সফার নিজেই একটি নতুন সীমানা হয়ে দাঁড়ায়।

শিল্পের মানক পদ্ধতি হল ROFT (Rail-Optimized Fat-Tree), যা NVIDIA দ্বারা অনুমোদিত এবং শিল্পের অপরিহার্য মানক।

এর গঠন একটি গাছের মতো: সার্ভার প্রথমে লিফ সুইচে (অ্যাক্সেস লেয়ার, সার্ভারের সরাসরি সংযোগের জন্য) সংযুক্ত হয়, এবং লিফ সুইচ স্পাইন সুইচে (ব্যাকবোন লেয়ার, বিভিন্ন লিফের মধ্যে সংযোগের জন্য, যেন হাইওয়ে হাব) উপরের দিকে সংযুক্ত হয়। দুটি GPU-এর মধ্যে ডেটা প্রেরণের জন্য, "প্রথমে স্পাইনের দিকে আরোহণ করতে হবে, তারপর লক্ষ্য লিফের দিকে অবতরণ করতে হবে", যা কমপক্ষে 3টি হপ অতিক্রম করে।

কম সংখ্যক লিংকে ট্রাফিক কেন্দ্রীভূত হওয়া এড়াতে, এই আর্কিটেকচার ECMP অ্যালগরিদমের উপর নির্ভর করে ডেটাকে একাধিক পথে বণ্টন করে, যা ইন্টারনেট ট্রাফিকের "পরিসংখ্যানগতভাবে সমান" পরিস্থিতিতে ভালোভাবে কাজ করে।

কিন্তু রিজনিং স্কেনারিওর ট্রাফিক সম্পূর্ণ অসম। বিভিন্ন অনুরোধের কনটেক্সট দৈর্ঘ্যের পার্থক্য দশগুণ পর্যন্ত হতে পারে, GPU-এর মধ্যে KV Cache-এর ট্রান্সমিশন দিশা প্রায় র‍্যান্ডম, কিছু Leaf সুইচ পর্যায়ক্রমে হটস্পট হয়ে উঠে ব্যাকপ্রেশার মেকানিজমকে ট্রিগার করে, যা স্থানীয় সংকুচনকে সম্পূর্ণ লিঙ্কে ছড়িয়ে দেয়। এই সংকুচনটি প্রোটোকল টিউনিং দিয়ে সমাধান করা যায় না, এটি টপোলজির নিজস্ব ফলাফল।

বড় মডেল

জিকিউবের মৌলিক বিপ্লব: এই ধরনের সংকীর্ণতাকে পদ্ধতিগতভাবে অসম্ভব করে তোলা।

মূল ডিজাইন দুটি ধাপে বিভক্ত:

প্রথম ধাপ, স্পাইন স্তরটি বাতিল করুন, সম্পূর্ণ নেটওয়ার্ককে সমতল করুন। সমস্ত লিফ সুইচকে বিজোড় এবং জোড় নম্বরের ভিত্তিতে দুটি গ্রুপে ভাগ করুন, এবং দুটি গ্রুপের মধ্যে সম্পূর্ণভাবে পরস্পরের সাথে সংযুক্ত করুন। যেকোনো একটি বিজোড় সুইচ সমস্ত জোড় সুইচের সাথে সংযুক্ত, এবং তার বিপরীতেও। যেকোনো দুটি GPU-এর মধ্যে সর্বোচ্চ দুটি সুইচের মাধ্যমেই যাওয়া যায়, হপ সংখ্যা 3-এর পরিবর্তে 2-এ নেমে আসে।

বড় মডেল

দ্বিতীয় ধাপ, যা সবচেয়ে সূক্ষ্ম: প্রতিটি GPU নেটওয়ার্ক কার্ড দুটি আলাদা সেটের সুইচে দুটি সম্পূর্ণ ভিন্ন উপায়ে সংযুক্ত হয়। এই বিশেষ টপোলজি একটি গুরুত্বপূর্ণ গাণিতিক বৈশিষ্ট্য তৈরি করে: পুরো নেটওয়ার্কের যেকোনো দুটি GPU-এর মধ্যে শুধুমাত্র একটি সেরা পথ রয়েছে।

বড় মডেল

"একমাত্র পথ" সরাসরি বন্ধের মূল কারণ দূর করে। প্রচলিত আর্কিটেকচারে হটস্পট তৈরি হওয়ার কারণ হল বিভিন্ন পথ থাকা; লোড ব্যালেন্সিং অ্যালগরিদম ভুল পথ বেছে নিলে ট্রাফিক একত্রিত হয়ে যায়। ZCube-এর ডিজাইনে "পছন্দ করা" বিষয়টিই অপসারণ করা হয়েছে: কারণ কোনো শাখা নেই, তাই ব্যালেন্সিংয়ের প্রয়োজনই নেই।

04 একই হার্ডওয়্যার শর্তে, হিসাবটি কীভাবে করা হয়?

গ্লিম-৫.১ প্রোডাকশন ক্লাস্টারটিকে প্রাচীন ROFT থেকে ZCube-এ আপগ্রেড করার পর, জিচু তিনটি সংখ্যা পেয়েছে:

সারাংশে, একই GPU বিনিয়োগে, ক্লাস্টার আরও বেশি ব্যবহারকারীকে সেবা দিতে পারে; একই ইউজার অভিজ্ঞতার প্রয়োজনীয়তায়, ক্লাস্টার নেটওয়ার্ক ডিভাইসের এক-তৃতীয়াংশ কম কিনতে পারে। দক্ষতা এবং খরচ উভয়ই উন্নতি পায়।

বড় মডেল

বিশেষভাবে বলা যায়, থ্রুপুট 15% বৃদ্ধি পাওয়ার মানে হলো 15% অতিরিক্ত কম্পিউটিং পাওয়ার বিনামূল্যে। GPU-এর সংখ্যা অপরিবর্তিত রেখে থ্রুপুট 15% বেড়ে গেলে, প্রতি token-এর জন্য হার্ডওয়্যার খরচ প্রায় 13% কমে যায়, অথবা একই খরচে 15% বেশি ব্যবহারকারীকে সার্ভ করা সম্ভব।

যদি একটি ক্লাস্টারে 1000টি GPU থাকে, তবে এই আপগ্রেডটি বর্তমানে অতিরিক্ত 150টি কার্ডের উৎপাদন ক্ষমতা যোগ করে, যা বর্তমান হাই-এন্ড ইনফারেন্স কার্ডের বাজার মূল্য অনুযায়ী কয়েকশত কোটি ডলারের ক্যালকুলেশন মূল্য।

পিছনের দেরি 40.6% কমেছে, যা গড় গতি নয়, বরং স্থিতিশীলতা সমাধান করে। 50 রাউন্ডের কল প্রয়োজন এমন একটি এজেন্ট টাস্কের ক্ষেত্রে, যদি প্রতিবার পিছনের দেরি 1 সেকেন্ড কমে, তাহলে টাস্কটির সর্বাধিক সময় প্রায় 1 মিনিট কমে যায়।

খরচ এক-তৃতীয়াংশ কমে যায়, যা নির্মাণ স্তরে সরাসরি সঞ্চয়। ZCube Spine স্তর বাতিল করেছে, যার ফলে একই ক্লাস্টার আকারে প্রয়োজনীয় সুইচ এবং অপটিক্যাল মডিউলের সংখ্যা সরাসরি এক-তৃতীয়াংশ কমে যায়। জিজ্ঞাপের হিসাব অনুযায়ী, দশহাজার কার্ড স্কেলের ক্লাস্টারে, একমাত্র এই বিষয়টিতে ২.১ থেকে ৬.৪ কোটি যুয়ান পর্যন্ত সঞ্চয় হতে পারে।

দীর্ঘমেয়াদে, ক্লাস্টার আকারের সূচকীয় বৃদ্ধির সাথে জিপিইউ মধ্যে যোগাযোগের জটিলতা কয়েকগুণ বেড়ে যায়, যার ফলে সংকুচনের সম্ভাবনা এবং প্রভাবও সমানুপাতিকভাবে বৃদ্ধি পায়। এর অর্থ হল যে ZCube-এর মতো আর্কিটেকচার-লেভেলের উদ্ভাবনের মূল্য অনুমান ক্লাস্টারের অবিরাম বিস্তারের সাথে ত্বরান্বিতভাবে প্রকাশ পাবে। আগামীকাল ১০,০০০-কার্ড লেভেলের ক্লাস্টারের লাভ আজকের ১৫% -এর চেয়েও বেশি হতে পারে।

05 শেষে লেখা

চিপু এর প্রযুক্তিগত রিপোর্টটি পড়ের পর, আমি ভাবছি, এটি কি ডিপসিকের মতো আবিষ্কারের মতো শিল্পে একটি ঝড় তৈরি করবে?

ভাবুন তো, দুটির প্রভাব আসলে ভিন্ন দিকে। ডিপসিক আসার সময়, এটি প্রমাণ করেছিল যে একই বুদ্ধিত্বকে অনেক কম ক্যালকুলেশন শক্তি দিয়েই অর্জন করা যায়। বাজার ভয় পেয়েছিল "GPU-এর প্রয়োজনীয়তা কমে গেল", ফলে নভেম্বরের সেই দিন নভেডিয়ার বাজার মূল্য 6000 বিলিয়ন ডলার হারিয়েছিল।

কিন্তু আজ জিজং-এর প্রযুক্তিগত প্রমাণ দেখায়: একই ক্ষমতা দিয়ে আরও বেশি উৎপাদন করা যায়। এটি "GPU-এর বাইরে, অন্যান্য অবকাঠামো কীভাবে দেখতে হবে" তা পুনর্গঠন করছে।

সংক্ষিপ্ত মেয়াদে, নভিডিয়া প্রভাবিত হবে না, কিন্তু দীর্ঘমেয়াদে, GPU + NVLink ইন্টারকানেকশন + InfiniBand নেটওয়ার্ক + CUDA সফটওয়্যার ইকোসিস্টেমের প্রতিরক্ষামূলক বাধা ধীরে ধীরে ক্ষয়প্রাপ্ত হচ্ছে, বিশেষ করে 2019 সালে নভিডিয়া যে 69 বিলিয়ন ডলারে Mellanox কেনে, তার InfiniBand—এটি নভিডিয়ার নেটওয়ার্ক প্রিমিয়ামকে প্রচণ্ডভাবে ক্ষয় করবে।

এছাড়াও, ZCube স্পাইন লেয়ার বাতিল করেছে, কিন্তু এর ফলে লিফ সুইচের পোর্ট ঘনত্বের প্রয়োজনীয়তা বেড়েছে। উচ্চ ঘনত্ব এবং বড় পোর্ট লিফ সুইচ তৈরি করতে পারা প্রস্তুতকারকদের (জেরিয়ান, Arista, Broadcom সুইচ চিপ) এই পরিবর্তনের সুবিধা হচ্ছে, যখন স্পাইন লেয়ারের হাই-এন্ড সুইচের উপর নির্ভরশীল এবং প্রিমিয়াম মূল্য কামনা করা প্রস্তুতকারকদের ক্ষতি হচ্ছে।

২০২৫ সালে সেলেস্টিকা এবং নভিডিয়া একত্রে এআই ব্যাকএন্ড নেটওয়ার্ক সুইচের প্রায় ৫০% বাজার অংশ দখল করেছে, যা জেকিউব প্যারাডাইমের বিস্তারের পর পুনর্গঠনের মুখোমুখি হবে।

অপটিক্যাল মডুল এই সাপ্লাই চেইন পরিবর্তনের সবচেয়ে প্রত্যক্ষ লাভবান দিক, যার যুক্তি খুব স্পষ্ট। দেশীয় অপটিক্যাল মডুল প্রস্তুতকারকদের (Zhongji旭创, Tianfu Communication ইত্যাদি) জন্য, এটি একটি গঠনগত সুবিধা: শুধুমাত্র মোট পরিমাণ বাড়ছে, বরং ZCube প্যারাডাইমের অধীনে হাই-স্পিড অপটিক্যাল মডুল (800G, 1.6T) এর চাহিদা প্রচলিত আর্কিটেকচারের চেয়ে আরও কেন্দ্রীয় এবং জরুরি।

TileRT বা ZCube আর্কিটেকচারের কোনোটিই নয়, এটি একটি স্ট্যান্ডার্ড GPU-এ চলা শুধুমাত্র সফটওয়্যার ইনফারেন্স ইঞ্জিন, যা নভেডিয়ার প্রোপ্রাইটারি হার্ডওয়্যার ফিচারের উপর নির্ভর করে না, এবং ততদূর তাত্ত্বিকভাবে হুয়াওয়ে আসেন ইত্যাদি দেশীয় চিপে পোর্ট করা যায়। এই দিকটি যদি সফল হয়, তবে দেশীয় AI চিপগুলির জন্য ইনফারেন্স সিনেরিওতে সফটওয়্যার স্ট্যাকের বাধা উল্লেখযোগ্যভাবে কমে যাবে।

এটিই হয়তো এই প্রযুক্তিগত উদ্ভাবনের পেছনের বড় অর্থ।