সিরিব্রাসের ওয়াফার-স্কেল এআই চিপ ইনফারেন্স যুগে মেমোরি ওয়াল ভাঙ্গল

২০২৬ সালে, বিশ্বব্যাপী এআই-এর উন্নয়ন একটি ঐতিহাসিক মোড় পেল—অতিপ্রচুর ক্লাউড প্রদানকারীদের উপস্থাপনার বিনিয়োগ প্রথমবারের মতো প্রশিক্ষণ বিনিয়োগকে ছাড়িয়ে গেল। শিল্পের কেন্দ্রবিন্দু “বড় মডেল তৈরি” থেকে “বড় মডেল ব্যবহার”-এ সরে গেল, যা ক্যালকুলেশন চাহিদার গঠনকে মৌলিকভাবে উল্টে দিল।

ট্রেনিং যুগে, ক্যালকুলেশন ক্ষমতার মূল দ্বন্দ্ব ছিল "ডাবল প্রিসিশন ফ্লোটিং পয়েন্ট এবং ক্লাস্টার স্কেল"; যখন ইনফারেন্স যুগে প্রবেশ করা হয়, তখন মূল দ্বন্দ্ব পরিবর্তিত হয়ে "মেমোরি ব্যান্ডউইথ এবং কমিউনিকেশন ল্যাটেন্সি" হয়ে ওঠে।

বড় মডেল ইনফারেন্সের বাধা এখন শুধুমাত্র গণনা নয়, বরং ডেটা ট্রান্সফার—মডেল ওয়েট, মধ্যবর্তী এক্টিভেশন এবং KV ক্যাশেকে প্রায়শই বাইরের DRAM (যেমন HBM) এবং GPU-এর মধ্যে স্থানান্তর করতে হয়, মডেলটি যত বড় হয়, ডেটা স্থানান্তরের শক্তি এবং ল্যাটেন্সি তত বেশি হয়, যা শেষপর্যন্ত গণনার নিজস্ব শক্তির চেয়েও বেশি হয়ে যায়, ফলে মেমোরি ওয়াল তৈরি হয়।

নভিডিয়ার GPU গুলি CUDA এবং NVLink এর মাধ্যমে একটি শক্তিশালী দুর্গ গড়ে তুলেছে, তবুও ব্যান্ডউইথ বন্ধনীর কারণে GPU-এর খালি ঘূর্ণন এড়ানো যায় না।

চীনা ডেভেলপার জিজং একটি সহজ পরীক্ষা করেছে: 512 জিপিইউ বিশিষ্ট একটি ইনফারেন্স ক্লাস্টারে, GPU, মডেল এবং কোড অপরিবর্তিত রেখে, শুধুমাত্র নেটওয়ার্ক ব্যান্ডউইথ সীমা 200GB/s থেকে 400GB/s-এ পরিবর্তন করলে, ইনফারেন্স থ্রুপুট 10% বৃদ্ধি পায় এবং প্রথম টোকেনের আউটপুট ল্যাটেন্সি 19% কমে। এটি খুবই সহজ: যদি রাস্তা প্রসারিত করা যায়, তবে গাড়িগুলি দ্রুততর গতিতে চলবে।

তবে, সিরিব্রাসের মতো জিপিইউ-বাহির আর্কিটেকচারগুলি মেমোরি ওয়ালে একটি ফাঁক তৈরি করছে বলে মনে হচ্ছে।

ওয়াফার-লেভেল চিপ

সিরিব্রাস ওয়েসি-3 চিপ এবং এনভিডিয়া বি২০০ জিপিইউ-এর আকারের তুলনা

Cerebras-এর সারমর্ম: একটি SRAM-ভিত্তিক নিকট-স্মৃতি গণনা মেশিন

সিরিব্রাস সিস্টেমস অ্যান্ড্রু ফেল্ডম্যান এবং অন্যান্যদের দ্বারা সিলিকন ভ্যালির মধ্যে প্রতিষ্ঠিত হয়েছিল, এবং প্রাথমিক প্রতিষ্ঠাতা দলটি সম্পূর্ণরূপে SeaMicro নামক একটি নিম্ন শক্তি মাইক্রো সার্ভার কোম্পানি থেকে এসেছিল, যে কোম্পানিটি পরে AMD দ্বারা অধিগ্রহণ করা হয়, তারপর:

২০১৫ সালে, প্রতিষ্ঠাতা দল “ওয়েফার-লেভেল কম্পিউটিং” পথ নির্ধারণ করে;

২০১৬ সালে, রেজিস্ট্রেশন এবং সিরিজ এ ফান্ডিং সম্পন্ন হয়, এবং গোপন গবেষণা ও উন্নয়ন পর্যায়ে প্রবেশ করা হয়;

2019 সালে, প্রথম পণ্য WSE-1 চিপ এবং CS-1 সিস্টেম চালু করা হয়, যা TSMC-এর 16nm প্রক্রিয়া ভিত্তিক;

2021 সালে, ট্রানজিস্টর প্রক্রিয়ায় তাইওয়েন সেমিকন্ডাক্টর ম্যানুফ্যাকচারিং কর্পোরেশনের 7nm প্রযুক্তি ব্যবহার করে দ্বিতীয় প্রজন্মের পণ্য প্রকাশ করা হয়;

2024 সালে, তৃতীয় প্রজন্মের পণ্য (WSE-3 / CS-3) প্রকাশ করা হয়, যা টাইওয়ান সেমিকন্ডাক্টর ম্যানুফ্যাকচারিং কোম্পানির 5nm প্রক্রিয়ায় তৈরি এবং চিপ এবং সিস্টেম উভয়ই মার্কিন যুক্তরাষ্ট্রে উৎপাদিত, যা একটি পুরোপুরি মার্কিন প্রস্তুতকৃত চিপ সিস্টেম।

ওয়াফার-লেভেল চিপ

CS-3 সিস্টেম কনফিগারেশন, 1টি WSE-3 চিপ সহ

সিরেব্রাসের ওয়াফার-স্কেল ইঞ্জিন (Wafer-Scale Engine, WSE) আর্কিটেকচারের দর্শন সরল এবং সোজা: ডেটা স্থানান্তরের দেরি কমানোর জন্য ভৌত স্থানের চরম বৃদ্ধি।

সাধারণ চিপগুলি একটি ওয়েফারকে অনেকগুলি ছোট চিপে কেটে ফেলে, যেমন নভিডিয়া জিপিইউ। সিরিব্রাস এটির বিপরীত: এটি কাটে না, বরং প্রায় সম্পূর্ণ ওয়েফারকে একটি অতি-বড় চিপে পরিণত করে, যার নাম Wafer-Scale Engine, WSE।

প্রাচীন চিপগুলি 300 মিমি ব্যাসের একটি পুরো ওয়েফারকে কেটে শত শত ছোট চিপে পরিণত করে; কিন্তু Cerebras পুরো ওয়েফারটিকে একটি একক চিপ হিসাবে ব্যবহার করে। সর্বশেষ WSE-3-এ 4 ট্রিলিয়ন ট্রানজিস্টর এবং 900,000 AI কোর রয়েছে, যেখানে প্রতিটি কোরে 48KB স্থানীয় SRAM রয়েছে, যার ফলে পুরো চিপের উপর-চিপ SRAM 44GB এবং 21PB/সেকেন্ডের উপর-চিপ মেমোরি ব্যান্ডউইথ (on‑chip memory bandwidth) এবং 214Pb/সেকেন্ডের নেটওয়ার্ক ব্যান্ডউইথ (fabric bandwidth) প্রদান করে, যা প্রচলিত HBM ব্যান্ডউইথের হাজার হাজার গুণ।

ওয়াফার-লেভেল চিপ

Cerebras WSE-এর মেমোরি ব্যান্ডউইথ নভিডিয়া B200 প্যাকেজ চিপের 2625 গুণ, যা বড় মডেল ইনফারেন্স স্কেনারিওতে মেমোরি ব্যান্ডউইথ বাধা ভাঙ্গে।

সিরেব্রাসের আর্কিটেকচারে, মডেল ওয়েট কখনই SRAM-এ থাকে না, বরং এগুলি বাইরের মেমোরি MemoryX-এ সংরক্ষিত থাকে এবং ধাপে ধাপে বড় চিপের দিকে স্থানান্তরিত হয়। এটি নিউরাল নেটওয়ার্ক মডেলের ওয়েট সংরক্ষণ এবং কম্পিউটেশনাল ইউনিটকে পৃথক করে অর্জন করা হয়।

সমস্ত মডেল ওজন মেমোরি এক্সটেনশন মডিউল MemoryX-এ বাইরে সংরক্ষণ করা হয়, এবং নেটওয়ার্কের প্রতিটি স্তরের গণনার জন্য প্রয়োজনীয় ওজনগুলি প্রয়োজন অনুযায়ী ধাপে ধাপে CS-3 সিস্টেমে প্রেরণ করা হয়। ওজনগুলি MEMORY X-এর DRAM এবং ফ্ল্যাশ মেমোরিতে সংরক্ষিত হয় এবং পূর্ণ ব্যান্ডউইথে CS-3 সিস্টেমে প্রেরণ করা হয়। এই ওজনগুলি CS-3 সিস্টেমে সংরক্ষিত হয় না, এমনকি অস্থায়ী ক্যাশেও রাখা হয় না, CS-3 কেবলমাত্র কোর লেয়ারের ডেটা ফ্লো মেকানিজমের উপর নির্ভর করে গণনা সম্পন্ন করে।

Cerebras এর ওয়াফার-লেভেল আর্কিটেকচারের কারণে, মেমোরি ব্যান্ডউইথে সীমাবদ্ধ LLM ইনফারেন্সে এটি একটি অত্যন্ত শক্তিশালী বাধা তৈরি করে। প্রতিটি টোকেন জেনারেট করার সময়, ওয়েটসগুলি স্তরভিত্তিকভাবে বাইরের MemoryX থেকে CS-3-এ স্ট্রিম হয়, এবং বিভিন্ন মডেল চালানোর সময়, টোকেন রেট নভিডিয়া B200-এর 1.5–5 গুণ।

ওয়াফার-লেভেল চিপ

নভেডিয়া DGX B200 GPU এবং সিরিব্রাস CS-3 চিপের তুলনায় বিভিন্ন বড় মডেলের টোকেন রেট

এর প্রধান সুবিধা হলো: CS-3-এর 44GB অন-চিপ SRAM 21 PB/s (B200-এর 2625 গুণ) অত্যন্ত উচ্চ ব্যান্ডউইথ এবং 214 Pb/s ইন্টারকানেকশন প্রদান করে, যা ওজন স্ট্রিমিংকে HBM ইন্টারফেসের সীমাবদ্ধতা থেকে মুক্ত করে। ফলে TTFT (Time To First Token, অনুরোধ প্রেরণ থেকে মডেল প্রথম token প্রত্যাবর্তনের সময়), দীর্ঘ কনটেক্সট এবং এজেন্ট ওয়ার্কলোডে এটি বিশেষভাবে উল্লেখযোগ্য পারফরম্যান্স দেখায়।

যদিও ওজনগুলি MemoryX এর বাইরে রাখা হয় এবং প্রয়োজন অনুযায়ী স্তর অনুযায়ী লোড করা হয় এবং চিপের উপরে ক্যাশে করা হয় না, CS-3 SRAM-এ সম্পূর্ণ FP16 প্রেসিশনে ক্ষতিহীন অপারেশন সম্পাদন করে; এর লিনিয়ার পারফরম্যান্স স্কেলিংয়ের কারণে, এটি একাধিক ব্যবহারকারীর একসাথে ইনফারেন্সের সময় অসাধারণ মোট থ্রুপুট প্রকাশ করে।

ব্যান্ডউইথের পাশাপাশি শক্তি খরচেরও সুবিধা রয়েছে। সম্প্রতি, জংঝি সুয়াং-এর চেয়ারম্যান লিউ শেং একটি বক্তৃতায় উল্লেখ করেন যে গ্রাহকদের আলোকীয় মডিউলের জন্য প্রয়োজন 1 pJ/bit, যখন বর্তমানে এটি 10 pJ/bit। Cerebras চিপে, ইন্টারকানেকশনের শক্তি খরচ মাত্র 0.15 pJ/bit, যখন বর্তমান GPU-এর ইন্টারকানেকশনের শক্তি খরচ 10 pJ/bit।

ওয়াফার-লেভেল চিপ

Cerebras ইন্টারকানেক্ট এবং GPU ইন্টারকানেক্ট আর্কিটেকচারের ব্যান্ডউইথ এবং শক্তি খরচের তুলনা

এটি দেখায় যে, যদি Cerebras-এর ওয়াফার-লেভেল বড় চিপ আর্কিটেকচার AI ইনফারেন্স বা ট্রেনিংয়ের জন্য প্রচলিত হয়, তবে এটি পারম্পরিক অপটিক্যাল মডিউল এবং CPO (কো-প্যাকেজড অপটিক্স) এর বিক্রয়ের উপর উল্লেখযোগ্য প্রভাব ও গঠনগত পরিবর্তন আনতে পারে। মূল যুক্তি হল: অপটিক্যাল মডিউল এবং CPO-এর উচ্চ চাহিদা মূলত GPU ক্লাস্টারের “চিপ-বিচ্ছিন্ন সংযোগ” এবং “নোড-বিচ্ছিন্ন সংযোগ”-এর ব্যান্ডউইথ বন্ধনী দূর করার জন্য; আর Cerebras-এর আর্কিটেকচারটি “বিতরণকৃত সংযোগকে অপসারণ” করেই এই সমস্যা সমাধান করে।

অপ্রত্যাশিত: ওয়েফার-লেভেল বড় চিপের "সত্য-মিথ্যা" দুর্বলতা

চিপের মূল কথা হলো ট্রেড অফ। সিরিব্রাস চিপের উপরের SRAM-এর চরম ব্যান্ডউইথের জন্য কিছু সমস্যা তৈরি করেছে।

নিম্ন উৎপাদন হার?

বর্তমানে, একটি এআই কোরের আকার হ্রাস পেয়ে ০.০৫ বর্গ মিলিমিটার (H100 একক প্রসেসিং কোরের আকারের ১%) হয়েছে, যার ফলে উৎপাদন ক্ষমতা বৃদ্ধি পেয়েছে। চিপের ভিতরে রাউটিংয়ের মাধ্যমে, দোষপূর্ণ কোরগুলি বন্ধ করা বা এড়িয়ে যাওয়া যায়, যার ফলে প্রচলিত মাল্টি-কোর প্রসেসরের তুলনায় দোষ-সহনশীলতা ১০০ গুণ বৃদ্ধি পেয়েছে। আসলে, সমগ্র চিপে ১০ লক্ষটি এআই কোর রয়েছে, কিন্তু উৎপাদন ক্ষমতা বিবেচনা করে, ৯ লক্ষটি এআই কোর হিসাবে ঘোষণা করা হয়েছে।

শুধু যুক্তি করতে পারেন, প্রশিক্ষণ দিতে পারেন না?

সিরেব্রাস প্রতিষ্ঠার কয়েক বছর পরে প্রশিক্ষণ প্রধান বিষয় হয়ে উঠেছিল, তাই কোম্পানিটি সবসময় প্রশিক্ষণের উপর বেশি জোর দিয়েছিল, কিন্তু যখন ইনফারেন্সের চাহিদা বেড়ে গেল, তখন বুঝতে পারা গেল যে এটির ইনফারেন্সের ক্ষেত্রে বেশি সুবিধা রয়েছে।

বাস্তবে, সরলীকৃত বিতরণ গণনা কোডের জটিলতা এবং যোগাযোগের খরচ কমানোর সুবিধা আনে।

4000টি GPU-এ 1750 বিলিয়ন প্যারামিটারের মডেল ট্রেন করতে সাধারণত প্রায় 20,000 লাইন ডিস্ট্রিবিউটেড ট্রেনিং কোড প্রয়োজন।

Cerebras 565 লাইন কোডের সমতুল্য প্রশিক্ষণ অর্জন করেছে—সম্পূর্ণ মডেলটি ওয়াফারের উপর ইনস্টল করা যায় এবং ডেটা প্যারালালিজমের জটিলতা প্রক্রিয়াকরণের প্রয়োজন হয় না।

SRAM স্কেলিং মৃত, কোর সুবিধা ভৌত সীমার সম্মুখীন।

তৃতীয় প্রজন্মের পণ্যটি টাইওয়ান সেমিকন্ডাক্টর ম্যানুফ্যাকচারিং কোম্পানির 5nm প্রক্রিয়ায় তৈরি, যার SRAM ক্ষমতা শুধুমাত্র 7nm প্রক্রিয়ায় তৈরি দ্বিতীয় প্রজন্মের পণ্যের চেয়ে 10% বেশি। 5nm-এর পরে, SRAM ইউনিটের ক্ষেত্রফল প্রক্রিয়া উন্নতির সাথে প্রায় কমে না।

এর অর্থ হল সিরেব্রাস এখন প্রাক্তনের মতো টাইওয়ান সেমিকন্ডাক্টর ম্যানুফ্যাকচারিং করপোরেশনের প্রক্রিয়াকে আপগ্রেড করে (যেমন 5nm থেকে 3nm-এ) তার মূল সুবিধা (SRAM ক্ষমতা) উল্লেখযোগ্যভাবে বাড়াতে পারবে না।

ওয়েফার আকার, তাপ বিচ্ছুরণ ক্ষমতা এবং উৎপাদন খরচের কারণে, চিপের উপর SRAM সহ স্টোরেজ সম্পদ গণনা কোরের সাথে রৈখিকভাবে সম্প্রসারিত হতে পারে না, যার ফলে সম্পদের অনুপাতের সীমাবদ্ধতা দেখা দেয়। এটি এর উন্নয়নের পথকে প্রায় বন্ধ করে দেয়।

ওয়াফার-লেভেল চিপ

Cerebras তৃতীয় প্রজন্মের পণ্য টেকনিক্যাল স্পেসিফিকেশন

শীতলীকরণ, প্রক্রিয়া এবং ইকোসিস্টেমের ত্রিগুণ দুর্গতি।

পুরো ওয়াফার জুড়ে তাপ কেন্দ্রীভূত হয়, যার তাপ প্রবাহ ঘনত্ব বেশি, যার জন্য কাস্টমাইজড ডেটা সেন্টার এবং স্পেশালাইজড লিকুইড কুলিং সিস্টেমের প্রয়োজন হয়। এছাড়াও, ইকোসিস্টেমের সাধারণীকরণের অর্থ হল গ্রাহকদের তাদের কাস্টমাইজড সফটওয়্যার স্ট্যাকের সাথে খাপ খাইয়ে নিতে হবে, যা বিদ্যমান CUDA এবং অন্যান্য সাধারণ প্রোগ্রামিং ফ্রেমওয়ার্কগুলির সাথে সামঞ্জস্যপূর্ণ নয়, ফলে সফটওয়্যার ট্রান্সপোর্ট এবং অ্যাডাপ্টেশনের খরচ অত্যন্ত বেশি।

বাইরের ব্যান্ডউইথ কম হওয়ায় এটি বিস্তারের “দ্বীপ” হয়ে দাঁড়ায়।

ওয়েফার-লেভেল ফিজিক্যাল ডিজাইনের সীমাবদ্ধতার কারণে, WSE-এর প্রান্তে শুধুমাত্র অত্যন্ত সীমিত সংখ্যক I/O পিন প্রত্যাহার করা যায়, যার ফলে এর I/O ব্যান্ডউইথ মাত্র 150 GB/s হয়। এটি নভিডিয়ার NVLink-এর 1.8 TB/s-এর দ্বিমুখী ব্যান্ডউইথের তুলনায় একটি কচ্ছপের মতো। এর অর্থ হলো WSE-কে বাইরের দিকে দ্রুত স্কেল করা অত্যন্ত কঠিন। যদিও Cerebras-এর SwarmX ইন্টারকানেকশন একাধিক সিস্টেমকে একত্রিত করার ক্ষেত্রে ভালোভাবে কাজ করে, তবুও একাধিক চিপের দ্রুত ইন্টারকানেকশনের প্রয়োজনীয়তা থাকা অতি-বড় মডেলগুলির ক্ষেত্রে, অত্যন্ত কম আউট-অফ-চিপ ব্যান্ডউইথই একটি গঠনগত ভৌত বন্ধনী হয়ে দাঁড়ায়।

রুট বিবাদ: বড় কোম্পানির নিজস্ব ডেভেলপমেন্ট, Cerebras-এর উইন্ডো পিরিয়ড এখনও কতক্ষণ বাকি?

বড় কোম্পানিগুলি "উপস্থাপনার জন্য বেশি ব্যান্ডউইথ এবং কম ল্যাটেন্সির প্রয়োজনীয়তা" সমাধানের জন্য শুধুমাত্র wafer-scale পথ নয়, তারা একইসাথে তিনটি পথে কাজ করে স্টার্টআপগুলির প্রযুক্তিগত সুবিধার উপর ঘিরাঘিরি করছে।

① স্ব-উন্নয়নকৃত ASIC চিপ

Google TPU v8 এখন ট্রেনিং-বিশেষ এবং ইনফারেন্স-বিশেষ দুটি সংস্করণে বিভক্ত; AWS Trainium 4 এখনই আসছে; Microsoft Maia Azure-এর অভ্যন্তরে ব্যবহার করা হচ্ছে, TSMC-এর 3nm প্রক্রিয়ায় তৈরি, ন্যাটিভ FP8/FP4 টেনসর কোর, পুনর্ডিজাইন করা মেমোরি সিস্টেম, 216GB HBM3e এবং 272MB অন-চিপ SRAM সহ; এমনকি Anthropicও নিজস্ব ইনফারেন্স চিপ মূল্যায়ন শুরু করেছে।

এই পথের সম্ভাবনা অত্যন্ত উচ্চ, যা 2028 সালের TAM (মোট পৌঁছানো যায় এমন বাজার) এ “থার্ড-পার্টি ইনফারেন্স ক্রয়” কে সরাসরি প্রভাবিত করবে, যার উপরের সীমা 10% থেকে 25% পর্যন্ত কমে যাবে।

② স্ট্যান্ডার্ড প্যাকেজিং রুটের প্রক্রিয়া সাধারণীকরণ

এটি সিরিব্রাসের জন্য সবচেয়ে সরাসরি ডাইমেনশনাল ড্রপ।

TSMC-এর SoW (System-on-Wafer) এখন গ্রাহকদের জন্য প্রসারিত হয়েছে, এবং CoWoS 9.5x interposer 2027 সালে চালু হবে।

এই দুটি পণ্য যা করে — ওয়াফার লেভেলে একাধিক ডাইকে স্টিচিং করা — তা মূলত সিরিব্রাসের ভৌত প্রক্রিয়াকে সাধারণীকরণ এবং সাধারণের জন্য উপলব্ধ করে তোলে।

NVIDIA-এর Vera Rubin 2026 এর দ্বিতীয় অর্ধেকে এই ইকোসিস্টেমে প্রবেশ করবে।

সেরাব্রাসের নিজস্ব ক্রস-রেটিকল স্টিচিং যদিও একচেটিয়া, তবে একচেটিয়া সময়কাল সর্বোচ্চ 2 থেকে 3 বছর মাত্র, এবং 2027-2028 এর পরে, এর প্রক্রিয়া বাধা টাইওয়ান সেমিকন্ডাক্টর ম্যানুফ্যাকচারিং কর্পোরেশনের উন্নত প্যাকেজিং দ্বারা কমিয়ে দেওয়া হবে।

③ অপটিক্যাল ইন্টারকানেকশন/অপটিক্যাল কম্পিউটিংয়ের বিপ্লব

ইলেকট্রনিক চিপের ইন্টারকানেকশন এবং মেমোরি ওয়াল এখন সীমান্তে পৌঁছেছে; ফটনিকের উচ্চ ব্যান্ডউইথ, কম ল্যাটেন্সি এবং শূন্য ক্রসটক হল চূড়ান্ত সমাধান।

লুমেনটামের মতো অপটিক্যাল রুট উঠে আসছে। ওয়াফার-স্কেলের সর্বাধিক সুবিধা হল চিপের উপর গণনা, কিন্তু মডেলগুলি অবশ্যই বড় হতে থাকবে, ওয়াফার-স্কেলের উপরে হাই-স্পিড ইন্টারকানেকশন একটি প্রয়োজনীয়তা।

CPO (কো-প্যাকেজড অপটিক্স) এবং অপটিক্যাল ইন্টারকানেকশনের পরিপক্কতার সাথে সাথে, ভবিষ্যতে আমরা খুব সম্ভবত দেখতে পাব যে অপটিক্যাল I/O সরাসরি WSE ওয়েফারে যোগ করা হচ্ছে, যা বৈদ্যুতিক ইন্টারকানেকশনের বন্ধন ভাঙবে; এবং নভিডিয়াও সম্ভবত LPU (যেমন Groq) এর মতো নির্দিষ্ট আর্কিটেকচারের সুবিধা রাখা কোম্পানিগুলির অধিগ্রহণের মাধ্যমে, অপটিক্যাল ইন্টারকানেকশনকে একীভূত করে, বিদ্যমান NV সুপার-নোড সফটওয়্যারের সাথে সামঞ্জস্যপূর্ণ ওয়েফার-লেভেল সিস্টেম তৈরি করতে পারে।

ঘাটের ওপর দৌড়: Cerebras-এর ব্যবসা এবং ডেলিভারি

Cerebras এখন বিশাল অর্ডারের চাপে একটি প্রান্তিক দ্রুতগতিতে দৌড়াচ্ছে।

OpenAI এর মতো শীর্ষস্থানীয় গ্রাহকদের সাথে ব্যবসা করার কারণে, Cerebras একটি চিপ কোম্পানি থেকে একটি নতুন ধরনের ক্লাউড সার্ভিস প্রদানকারীতে রূপান্তরিত হয়েছে। এটি শুধুমাত্র হার্ডওয়্যার বিক্রি করা বন্ধ করেছে, বরং সংক্ষিপ্ত সময়ের মধ্যে বিশাল পরিমাণ ডেটা সেন্টার বিদ্যুৎ এবং সুবিধা নিশ্চিত করতে এবং নির্মাণ করতে হয়েছে।

চুক্তির শর্ত অনুযায়ী, সিরেব্রাসকে ২০২৬-২০২৮ সালের প্রতিবছর ২৫০ এমডব্লিউ ডেটা সেন্টার ক্ষমতা সরবরাহ করতে হবে। তবে, ওয়েফার-লেভেল সিস্টেমগুলির রুমের প্রয়োজনীয়তা অত্যন্ত উচ্চ, যা পারম্পরিক বাতাস-শীতল ID সি-তে সরাসরি ফিট করা যায় না। বর্তমানে, সিরেব্রাস ডেটা সেন্টার ক্ষমতা প্রস্তুতিতে চুক্তির প্রয়োজনীয়তার তুলনায় প্রকটভাবে পিছিয়ে।

প্রস্তুতি থেকে কারখানা নির্মাণ, বিদ্যুৎ অনুমোদন থেকে শীতলন সিস্টেম স্থাপন—এটি একটি ভারী সম্পদ এবং দীর্ঘ চক্রের কাদামাটি।

শেষ: বামে নাকি ডানে?

প্রাথমিক প্রস্তাবনায় ফিরে যাই, যখন গণনা ক্ষমতার মোড় এসে গেছে, তখন ক্ষমতা স্ট্রাকচারের মূল বিষয় হল বিকল্প নির্বাচন।

কোনো পরম সঠিক বা ভুল নেই, শুধু সবচেয়ে বেশি লোডের অধীনে আপেক্ষিকভাবে সেরা সমাধান আছে। লোড আসলেই পরিবর্তন হচ্ছে।

সিরেব্রাস বাম দিকে যায়, একটি পুরো ওয়েফার এবং প্রচুর SRAM ব্যবহার করে একটি একক টাস্কের জন্য চরম নিম্ন ল্যাটেন্সির জন্য চরম ভৌত অপ্টিমাইজেশন বেছে নেয়, যা প্রথম টোকেন ল্যাটেন্সির প্রতি অত্যন্ত সংবেদনশীল পরিস্থিতিতে অজেয়।

নভিডিয়া ডানদিকে যায়, সাধারণ সামর্থ্য বজায় রাখে, HBM + NVLink + অতিবৃহৎ ক্লাস্টার থ্রুপুট ব্যবহার করে বিভিন্ন লোডের প্রতিক্রিয়া জানায়, অপরিবর্তিত থাকে।

ঝড় উঠেছে, ভবিষ্যত অনিশ্চিত। এই প্রযুক্তি এবং ব্যবসার দ্বৈত অনিশ্চয়তাই বিপ্লবের সম্ভাবনা জন্ম দিয়েছে। AGI-এর দিকে যাওয়ার গণনা প্রবাহে, এখনই সিদ্ধান্ত নেওয়া অতি শীঘ্র—কারণ অনিশ্চয়তাই সুযোগ তৈরি করে।

এই লেখাটি ওয়েইচ্যাট গ্রুপ "ডেলিক গ্রেন ল্যাব" থেকে এসেছে, লেখক: পাওয়ার রেঞ্জার