এআই কম্পিউট সরবরাহ চেইন বাধাগুলি GPU থেকে পাওয়ার এবং কুলিংয়ে স্থানান্তরিত হয়েছে।

লেখক: qinbafrank

ফেব্রুয়ারিতে, "এই মূলধন ব্যয়ের যুদ্ধটির অর্থ কী?" এর মধ্যে আলোচনা করা হয়েছিল যে ক্যাপাসিটি সংক্রান্ত শৃঙ্খলের মূল পর্যায়গুলি—যেমন চিপ, প্যাকেজিং ও টেস্টিং, স্টোরেজ, অপটিক্যাল মডিউল—এখনও সর্বাধিক মূল্য অর্জন করতে পারে: যেসব উৎপাদন ক্ষমতা দ্রুত বাড়ানো কঠিন, যেসবের অত্যন্ত উচ্চ প্রতিবন্ধকতা রয়েছে, তারা বিশাল মূলধন ব্যয়ের সুবিধা পাবে;

এখনও বড় দক্ষতা উন্নতির সম্ভাবনা রয়েছে: ইনফারেন্স প্রান্তে ডিস্টিলেশন, কোয়ান্টাইজেশন, MoE, স্পেশালাইজড চিপ, লিকুইড কুলিং, ফিউশন (দীর্ঘমেয়াদি) ইত্যাদি প্রযুক্তি একক কম্পিউটেশনাল ক্ষমতার শক্তি খরচ এবং খরচকে 10–100 গুণ কমাতে পারে। এই ধাপগুলিতে সুযোগ খুঁজুন।

সাম্প্রতিক সময়ে, মরগান স্ট্যানলি, জেপি মরগ্যান, ব্যাংক অফ আমেরিকা, গোল্ডম্যান স্যাক্স, UBS, সিটিগ্রুপ, বার্নস্টাইন এবং HSBC সহ বেশ কয়েকটি বিনিয়োগ ব্যাংক কৃত্রিম বুদ্ধিমত্তা/সেমিকনডাক্টর/বিদ্যুৎ/স্টোরেজ সংক্রান্ত আপডেট রিপোর্ট প্রকাশ করেছে। AI হার্ডওয়্যারের বাধা এখন "GPU সরবরাহ" একক দিক থেকে বিদ্যুৎ, চিপ, স্টোরেজ, সরঞ্জাম এবং উপকরণ—এই পাঁচটি দিকের সমন্বিত চাপে বিস্তৃত হয়েছে।

AI-এর চাহিদার পরিমাণ পারম্পরিক বিদ্যুৎ পরিকল্পনা, সেমিকন্ডাক্টর সরঞ্জামের উৎপাদন ক্ষমতা, স্টোরেজ মূল্য মডেল এবং রোবোটিক্স ইনস্টলেশনের ধারণার সমস্ত পূর্বানুমানের পরিসরকে অতিক্রম করেছে।

মোরগান স্ট্যানলির গ্লোবাল থিম রিসার্চ রিভিউয়ে বলা হয়েছে, বিশ্বব্যাপী সপ্তাহিক বড় ভাষা মডেল টোকেন খরচ ৩ মাসে ৬.৪ ট্রিলিয়ন থেকে বেড়ে ২২.৭ ট্রিলিয়নে পৌঁছেছে, যা ২.৫ গুণ বৃদ্ধি; মার্কিন যুক্তরাষ্ট্রে ২০২৫-২৮ সালের মধ্যে ডেটা সেন্টারের বিদ্যুৎ ঘাটতি ৫৫ গিগাওয়াট; জেপি মরগানের ডেটা সেন্টারের হাই-পারফরম্যান্স কম্পিউটিং প্রকল্পের জন্য প্রথমবারের মতো "পরবর্তী ৫ বছরে ১২২ গিগাওয়াট ফাইন্যান্সিংয়ের প্রয়োজন" এই ঘাটতির সংখ্যা উল্লেখ করা হয়েছে, মার্কিন যুক্তরাষ্ট্রে ৫ বছরের বিদ্যুৎ পরিকল্পনা ১০১ গিগাওয়াট থেকে ২৩০ গিগাওয়াটে বেড়েছে, ৪৪% নতুন প্রকল্পের গ্রিড-কানেকশনের অপেক্ষা সময় ৪ বছরেরও বেশি; ব্যাংক অফ আমেরিকা-এর Alphabet-এর সর্বশেষ লক্ষ্যমাত্রা রিপোর্টে, ২০২৬ সালের মূলধন ব্যয় ১,৮১৫ বিলিয়ন ডলারে সংশোধন করা হয়েছে, যা গতবছরের তুলনায় দ্বিগুণ, এবং মুক্ত নগদপ্রবাহ ৬২% হ্রাসপায়। এই তিনটি ডেটা একই ফ্রেমওয়ার্কের আউটপুট নয়, বরং তিনটি স্বতন্ত্র প্রতিষ্ঠান বিভিন্ন গবেষণা পথের মধ্যে স্বতন্ত্রভাবে প্রস্তুতকৃত।

সেমিকন্ডাক্টর সাপ্লাই চেইন (বিশেষ করে AI ক্যালকুলেশন ক্ষেত্রে) এর বাধা বিকাশ স্পষ্টভাবে “গণনা (GPU) → স্টোরেজ (HBM ইত্যাদি) → অপটিক্যাল ইন্টারকানেকশন → বিদ্যুৎ/তরল শীতলীকরণ” এই ক্রমে ঘটেছে। এটি 2025-2026 এর শিল্প সমঝোতা, যখন AI ট্রেনিং/ইনফারেন্স ক্লাস্টারগুলি একক ক্যাবিনেট (দশকগুলি GPU) থেকে অতিবৃহৎ (হাজার থেকে দশহাজার GPU) এর দিকে বিস্তৃত হচ্ছে, প্রতিটি বাধা সমাধানের পর পরবর্তী ভৌত/সরবরাহ চেইন সীমাবদ্ধতা তৎক্ষণাৎ প্রকাশিত হয়, যা “লিওনটিফ-ধরনের” পরস্পরসম্পৃক্ত সীমাবদ্ধতা (একটি অভাবেই উৎপাদন বন্ধ) তৈরি করে।

অপটিক্যাল মডিউল

এই বিকাশের কারণ, বর্তমান অবস্থা এবং এর পিছনের পদার্থবিদ্যা/প্রকৌশল কারণগুলি বুঝতে প্রয়োজন:

1. প্রথম পর্যায়ের বাধা: GPU ক্যালকুলেশন (2022-2024 সালের প্রধান নিয়ন্ত্রণ) মূল সীমাবদ্ধতা:

উচ্চ প্রদর্শন গ্রাফিক্স প্রসেসর (যেমন NVIDIA Hopper H100 → Blackwell B200 → Rubin) এর নিজস্ব ওয়েফার উৎপাদন ক্ষমতা + উন্নত প্যাকেজিং।

কেন বাধা: এআই বড় মডেলগুলির প্রচুর সম song গণনার প্রয়োজন হয়, যার ফলে TSMC 4nm/3nm/2nm লজিক প্রসেসিং + CoWoS (2.5D/3D প্যাকেজিং) উৎপাদন ক্ষমতা একসময় সবচেয়ে বড় বাধা হয়ে দাঁড়ায়। যদিও ফ্রন্ট-এন্ডের ওয়েফার যথেষ্ট থাকে, তবুও ব্যাক-এন্ডে লজিক চিপ + HBM স্ট্যাকিং ও প্যাকেজিংয়ের ক্ষমতা অনুসরণ করতে পারে না, ফলে পুরো GPU তৈরি হয় না।

পরিস্থিতি উন্নতি: TSMC CoWoS-এর উৎপাদন ক্ষমতা দ্বিগুণ করছে (2024-2025 এর জন্য), NVIDIA Blackwell ব্যাপকভাবে বিতরণ করা হয়েছে। কিন্তু এটি শুধুমাত্র “কম্পিউটিং” ধাপটি খুলে দিয়েছে, এর পর তাত্ক্ষণিকভাবে নতুন সমস্যা প্রকাশ পায়।

2. দ্বিতীয় পর্যায়ের বাধা: স্টোরেজ (HBM হাই-ব্যান্ডউইথ মেমোরি, 2024-2025 এর মধ্যে সবচেয়ে বেশি অভাব হবে)

মূল সীমাবদ্ধতা: HBM3/HBM3e/HBM4 উৎপাদন ক্ষমতা।

কেন রিলে বাধার কারণ হয়ে দাঁড়াচ্ছে: GPU ক্ষমতা বেড়েছে, কিন্তু মডেলের প্যারামিটার বিস্ফোরিতভাবে বৃদ্ধি পাচ্ছে (ট্রিলিয়ন বা দশ ট্রিলিয়ন প্যারামিটার), ডেটা স্থানান্তর (মেমোরি ব্যান্ডউইথ) “মেমোরি ওয়াল” হয়ে দাঁড়িয়েছে। HBM প্রতি সেকেন্ডে কয়েক TB ডেটা স্থানান্তর করতে পারে, যা সাধারণ DDR মেমোরির চেয়ে ২০ গুণ বেশি দ্রুত। HBM যেহেতু লজিক চিপের খুব কাছাকাছি অবস্থিত, তাই ডেটা দীর্ঘ দূরত্ব অতিক্রম করতে হয় না, ফলে শক্তির খরচ কমে।

একটি B200 GPU এর জন্য 192GB+ HBM3e প্রয়োজন, একটি সিঙ্গেল র্যাক (NVL72) এ HBM এর মোট পরিমাণ পৌঁছেছে 30-40TB এবং ব্যান্ডউইথের চাহিদা প্রচলিত DRAM-এর চেয়ে অনেক বেশি।

সাপ্লাই চেইনের বর্তমান অবস্থা: কেবল এসকে হাইলিস, স্যামসাং এবং মাইক্রন তিনটি কোম্পানি হাইব্রিড মেমোরি ব্যান্ড (HBM) বড় পরিমাণে উৎপাদন করতে পারে, যার প্রক্রিয়াটি জটিল (সিলিকন থ্রু-ভিয়া (TSV) + স্ট্যাকিং), 2025 সালের জন্য সমস্ত HBM বিক্রি হয়ে গেছে, 2026 সালেও চাহিদা সরবরাহের চেয়ে বেশি থাকবে, এবং মূল্য 246% বেড়েছে। যদিও GPU চিপগুলি প্রস্তুত থাকে, HBM না থাকলে সংযোগ এবং ডেলিভারি সম্ভব হয় না, যা AI ক্লাস্টার বাস্তবায়নকে বিলম্বিত করে।

ফলাফল: স্টোরেজ এখন "পণ্য" থেকে কৌশলগত সীমাবদ্ধতায় পরিণত হয়েছে, যেখানে মূলধন ব্যয়ের 30% পর্যন্ত স্টোরেজের জন্য ব্যয় হয়।

৩. তৃতীয় পর্যায়ের বাধা: অপটিক্যাল ইন্টারকানেকশন (2025-2026 এ স্যুইচিং চলছে)

মূল সীমাবদ্ধতা: তামা ক্যাবল (NVLink/NVSwitch) এর ব্যান্ডউইথ, দূরত্ব, শক্তি খরচ এবং ওজনের ভৌত সীমাবদ্ধতা।

কেন আলোকে যাওয়া অপরিহার্য: একটি একক ক্যাবিনেটের মধ্যে (72টি GPU) তামা ক্যাবল ব্যবহার করা যায়, কিন্তু একাধিক ক্যাবিনেটে বা হাজার হাজার GPU-এর মধ্যে সংযোগ করতে গেলে তামা ক্যাবলের ক্ষয় অত্যন্ত বেশি (1.8TB/s ব্যান্ডউইথে কার্যকর দূরত্ব <1 মিটার), ওজন বিস্ফোরিত হয় (NVL72 ক্যাবিনেটের তামা ক্যাবল 5,000টিরও বেশি, মোট ওজন 1.36 টন), এবং শক্তি খরচ বেশি (প্লাগ-ইন অপটিক্যাল মডিউল দিয়ে তামা ক্যাবল প্রতিস্থাপন করলে 20,000 ওয়াট অতিরিক্ত শক্তি খরচ হয়)। সংকেতের সম্পূর্ণতা, ল্যাটেন্সি, এবং তাপ নিয়ন্ত্রণ বড় ক্লাস্টারকে সমর্থন করতে পারছে না।

সমাধান: প্রকাশ ইন্টারকানেকশন (CPO কো-প্যাকেজড অপটিক্স + সিলিকন ফটনিক্স প্রযুক্তি) এর দিকে যান। অপটিক্যাল ইঞ্জিনটিকে সরাসরি GPU/ASIC-এর পাশে প্যাকেজ করুন, ফাইবার দিয়ে Scale-Out করুন, যাতে ব্যান্ডউইথ ঘনত্ব বেশি, প্রতি বিটের শক্তি খরচ কম এবং দূরত্ব বেশি।

অপটিক্যাল মডিউল

NVIDIA 2026 সালের GTC-এ প্রচুর বিনিয়োগ করেছে অপটিক্যাল কোম্পানিগুলিতে, যার ফলে 800G/1.6T অপটিক্যাল মডিউলের চাহিদা বিস্ফোরিত হয়েছে। lite, Broadcom, Coherent, Ayar Labs ইত্যাদি নতুন বিজয়ীদের মধ্যে পরিণত হয়েছে।

বর্তমান অগ্রগতি: তামা ক্যাবল এর সীমানা পৌঁছেছে, অপটিক্যাল ইন্টারকনেকশন এখন "অপশনাল" থেকে "অপরিহার্য" হয়ে উঠেছে এবং AI ডেটা সেন্টারের পারফরম্যান্সের সীমানা ভেদ করছে।

৪. চতুর্থ পর্যায়ের বাধা (বর্তমানের সবচেয়ে এগিয়ে থাকা সীমানা): বিদ্যুৎ + তরল শীতলীকরণ (২০২৬ থেকে চূড়ান্ত ভৌত সীমাবদ্ধতা হয়ে উঠবে) মূল সীমাবদ্ধতা: শক্তি খরচের দেয়াল + তাপ বিকিরণের দেয়াল + বিদ্যুৎ জালিকার সংযোগ।

কেন এটি চূড়ান্ত বাধা: প্রতিটি GPU 300W থেকে 700-1200W এ বৃদ্ধি পাচ্ছে, একক ক্যাবিনেট 10-20kW (CPU যুগ) থেকে 120-200kW+ বা তারও বেশি পর্যন্ত বৃদ্ধি পাচ্ছে। প্রাচীন বাতাস প্রশীতনের ভৌত সীমা মাত্র 20-50kW, শব্দ, বাতাসের পরিমাণ এবং শক্তি খরচ অগ্রহণযোগ্য।

পাওয়ার সাইড: ডেটা সেন্টারগুলির GW স্তরের বিদ্যুৎ প্রয়োজন, গ্রিডে সংযোগের জন্য কতক্ষণ অপেক্ষা করতে হতে পারে কয়েক বছর, ট্রান্সফরমার, সলিড-স্টেট ট্রান্সফরমার ইত্যাদি সরঞ্জামের ডেলিভারি সময় 100 সপ্তাহে বাড়িয়ে দেওয়া হয়েছে। মাইক্রোসফটের সিইও সরাসরি বলেছিলেন, "GPU আছে, কিন্তু প্লাগ করার জন্য বিদ্যুৎ নেই।"

তরল শীতলন পাশ: অবশ্যই ডাইরেক্ট-টু-চিপ (সরাসরি চিপ তরল শীতলন) বা ডুবন্ত তরল শীতলনে স্যুইচ করতে হবে, যা মাইক্রোফ্লুইডিক, কুলিং প্লেট ইত্যাদি প্রযুক্তির সাথে একীভূত। টাইওয়ান সেমিকনডাক্টর ম্যানুফ্যাকচারিং কোম্পানি (TSMC) CoWoS প্ল্যাটফর্মে সিলিকন-ভিত্তিক তরল শীতলন প্রদর্শন করেছে, যা >2.6kW TDP সমর্থন করে। Vertiv (VRT) এর মতো তরল শীতলন/তাপ ব্যবস্থাপনা ফার্মগুলি অবকাঠামোর নতুন কেন্দ্রবিন্দু হয়ে উঠছে।

শৃঙ্খল প্রতিক্রিয়া: পিইই (বিদ্যুৎ ব্যবহার দক্ষতা) প্রয়োজনীয়তা <1.2, অতিরিক্ত তাপ পুনঃব্যবহার, পারমাণবিক বা নতুন শক্তির গ্রিডে যোগ হওয়া সবই নতুন বিষয় হয়ে উঠেছে। যদিও আগের সমস্ত ধাপগুলি সমাধান করা হয়, বিদ্যুৎ এবং শীতলীকরণ না থাকলে ক্যাবিনেটগুলি স্থাপন বা চালু করা যাবে না।

অপটিক্যাল মডিউল

এআই ক্যালকুলেশন সাপ্লাই চেইনের বাধা স্থানান্তরের মূল যুক্তি: এআই ক্যালকুলেশন একটি “একক বিন্দু” সমস্যা নয়, বরং একটি সিস্টেম-লেভেল লিওন্টিফ উৎপাদন ফাংশন—GPU, HBM, ইন্টারকানেকশন, বিদ্যুৎ, শীতলীকরণ সবকিছু সর্বনিম্ন দুর্বল লিঙ্কের সাথে মেলাতে হবে। hyperscaler (গুগল, মাইক্রোসফট, মেটা ইত্যাদি) প্রতিটি বাধা সমাধান করলেই তাৎক্ষণিকভাবে মূলধন এবং উদ্ভাবনকে পরবর্তী ধাপের দিকে ঠেলে দেয়।

বর্তমানে (2026 সালে) “অপটিক্যাল ইন্টারকানেকশন ত্বরান্বিত হচ্ছে + বিদ্যুৎ/তরল শীতলীকরণের ব্যাপক বাণিজ্যিক ব্যবহার” এর স্থানান্তর পর্যায়ে রয়েছে, ভবিষ্যতে নতুন বাধা (যেমন: লেজার, অপটিক্যাল ফাইবার উপাদান বা গ্রিড ট্রান্সফরমার) দেখা দিতে পারে, কিন্তু “কম্পিউটিং → স্টোরেজ → অপটিক্যাল → বিদ্যুৎ/শীতলীকরণ” এই চেইনটি ইতিমধ্যেই শিল্পের স্বীকৃত পথ।

এটি ব্যাখ্যা করে যে কেন বিনিয়োগের যুক্তি NVIDIA/TSMC থেকে HBM ট্রাইপ্লেক্স (SK হাইলিস, ইত্যাদি), অপটিক্যাল ফার্ম (Lumentum, Coherent), তরল শীতলন/বিদ্যুৎ অবকাঠামো (Vertiv, সংশ্লিষ্ট পাওয়ার কোম্পানি) এর দিকে সরে গেছে।

প্রতিটি বন্ধনী স্থানান্তর সেমিকন্ডাক্টর এবং ডেটা সেন্টার শিল্পের মূল্য বণ্টনকে পুনরায় গঠন করছে।