xAI-এর 550,000 NVIDIA GPU কেবল 11% ব্যবহার করছে

সম্পাদনা | জে নান

AI যুগে GPU কীভাবে ব্যবহার করা হয়, এটা কি এমন হয়?

মাস্কের অধীনে xAI-এর বর্তমান GPU সম্পদ ব্যবহার মাত্র 11%। সংশ্লিষ্ট প্রতিবেদনগুলি উল্লেখ করে যে তাদের AI সফটওয়্যার স্ট্যাকের অপ্টিমাইজেশন পর্যাপ্ত ফলপ্রদ নয়। সম্প্রতি, The Information-এর প্রতিবেদনটি মনোযোগ আকর্ষণ করেছে।

বর্তমানে, xAI তার মেমফিস এবং কোলোসাস ডেটা সেন্টার ক্লাস্টারগুলিতে প্রায় 55 লাখটি নভিডিয়া GPU চালাচ্ছে, যার মধ্যে H100 এবং H200 মডেল রয়েছে, যার কিছু ডিভাইস তরল শীতলন কনফিগারেশন ব্যবহার করে। যদিও এই GPUগুলি পুরনো প্রজন্মের (সর্বশেষ Blackwell সিরিজের আগের) হলেও, এর পরিসর অবিশ্বাস্য।

এত বড় পরিমাণে GPU থাকা সত্ত্বেও, xAI-এর মডেলের মডেল ফ্লপস ব্যবহারের হার (MFU) মাত্র 11%। একটি অনুপযুক্ত উপমা দিলে, xAI-এর সার্ভারে ইতিমধ্যে স্থাপিত এই 50 লক্ষ GPU-এর মধ্যে বাস্তবিকভাবে ব্যবহারযোগ্য ক্ষমতা মাত্র প্রায় 6 লক্ষ GPU-এর সমতুল্য। এই অত্যন্ত কম দক্ষতার কারণ কী?

প্রথমত, ছোট স্কেলের ডিপ্লয়মেন্ট পরিবেশের জন্য (যেমন 1000-10000 GPU ব্লক), মাল্টি-নোড মধ্যে সমন্বয়কৃত গণনা সাধারণত সমস্যা হয় না। কিন্তু সার্ভারের আকার বৃদ্ধি পেতে থাকলে, যখন লক্ষ লক্ষ GPU-এর সমন্বয়ের প্রয়োজন হয়, তখন ডিভাইসের অপ্রচলিত সময় দ্রুত জমা হয়ে সামগ্রিক ব্যবহারের হার তীব্রভাবে কমে যায়। এই সমস্যার ফলে সফটওয়্যার স্ট্যাকের ভিতরে বিভিন্ন অসামঞ্জস্যতা বর্তমানে xAI-এর বাস্তব চলমান পরিবেশে প্রকট হয়ে উঠছে।

সুপারক্লাস্টারে, GPU চিপের নিজস্ব গণনা গতি সাপেক্ষে দ্রুত, কিন্তু বাধা হল হাই-ব্যান্ডউইথ মেমোরি (HBM) এর ডেটা পড়া-লেখার গতি এবং হাজার হাজার সার্ভারের মধ্যে নেটওয়ার্ক ট্রান্সমিশনের যোগাযোগের খরচ। যদি ডেটা ট্রান্সমিশনে ক্ষুদ্রতম দেরি বা নেটওয়ার্ক জ্যাম দেখা দেয়, তবে সমগ্র ক্লাস্টারের GPU-গুলিকে ডেটা লোড হওয়ার জন্য “স্থানেই” অপেক্ষা করতে হবে।

অন্যদিকে, এআই মডেলের প্রশিক্ষণ সাধারণত বিরতিসহকারে হয়। GPU বাস্তব গণনার সময় পূর্ণ লোডে চলে, কিন্তু গবেষকরা প্রশিক্ষণের ফলাফল বিশ্লেষণ, প্যারামিটার সামঞ্জস্য বা ডেটা পাইপলাইন প্রক্রিয়াকরণের সময় অনেকগুলি ডিভাইস অক্ষম (Idle) অবস্থায় থাকে।

যদিও 11% একটি স্পষ্টতই নিম্ন সংখ্যা, তবে The Information-এর প্রতিবেদনটি AI ক্ষেত্রের কিছু শিল্প গোপন নিয়মও প্রকাশ করে: ক্যালকুলেশন শক্তির বর্জ্য একটি সাধারণ ঘটনা; কিছু বড় কোম্পানির গবেষকরা পরিচালনা থেকে সমালোচনা এড়াতে বা অব্যবহৃত GPU কোটা অন্য দল দ্বারা দখল হওয়ার ভয়ে, কখনও কখনও অর্থহীন ট্রেনিং টাস্কগুলি পুনরাবৃত্তি চালিয়ে “ব্যবহারের” ডেটা বাড়ানোর চেষ্টা করে।

এটা বলা ছাড়াও, এটি করার উদ্দেশ্য হল দলের নিজস্ব GPU কোটা বজায় রাখা।

অবশ্যই, এটি কেবলমাত্র xAI-এর জন্য একটি সমস্যা নয়, এটি বাস্তবে সমগ্র AI শিল্পের একটি সামগ্রিক কাঠামোগত সমস্যা — এত বিশাল পরিসরে AI অবকাঠামোকে দক্ষতার সাথে চালানো একটি অত্যন্ত কঠিন চ্যালেঞ্জ।

AI ক্লাউড ইনফ্রাস্ট্রাকচার চালানোর জন্য প্রয়োজনীয় অপ্টিমাইজেশন দক্ষতা পরিসর করে ডেটা, অ্যালগরিদম, মডেল, কম্পিউটেশন, কার্নেল, ইন্টারঅ্যাকশন (মানুষ - AI - বিশ্ব, এজেন্টদের মধ্যে) এবং গ্লোবাল অপ্টিমাইজেশন, যা ইঞ্জিনিয়ারিংয়ের দৃষ্টিকোণ থেকে অত্যন্ত কঠিন।

কিছু প্রযুক্তি বিগ বুস বড় স্কেলের ইনফ্রাস্ট্রাকচার স্ট্যাককে অপ্টিমাইজ করেছে এবং 40% এর বেশি ব্যবহারের ক্ষমতা অর্জন করেছে। মেটা এবং গুগল এই উদাহরণগুলির মধ্যে অন্যতম, যাদের GPU-এর ব্যবহার যথাক্রমে 43% এবং 46%।

xAI-এর সম্মুখীন সমস্যাটি প্রমাণ করে যে বর্তমান AI অস্ত্র প্রতিযোগিতায়, "GPU কেনা" শুধুমাত্র প্রথম পদক্ষেপ, এটিকে ভালোভাবে ব্যবহার করাই গুরুত্বপূর্ণ। হার্ডওয়্যারের পরিসর বর্তমান সফটওয়্যার আর্কিটেকচারের সমন্বয় ক্ষমতার বাইরে চলে গেছে।

তবে, xAI এই সমস্যার সমাধানে কাজ শুরু করেছে এবং 50% ব্যবহারের লক্ষ্য নির্ধারণ করেছে। যদিও এখনও কোনো নির্দিষ্ট সময়সূচী নেই, তবে এর মূল উন্নতি প্রতিষ্ঠানগত অবকাঠামো এবং সফটওয়্যার স্ট্যাকের অপ্টিমাইজেশনের উপর ফোকাস করবে। ভবিষ্যতের কাজের লোডগুলি যখন “এজেন্টিক AI” (Agentic AI) এর প্রয়োজনীয়তা পূরণের জন্য ডিজাইন করা হার্ডওয়্যার প্ল্যাটফর্মগুলিতে স্থানান্তরিত হবে, xAI-এর বিশাল GPU ক্লাস্টারগুলি ভাড়া দেওয়ার সম্ভাবনা অত্যন্ত বেশি।

মাস্ক একই সাথে নিজস্ব ক্যালকুলেশন ক্ষমতা ভিত্তিক “টেরাফ্যাব” প্রকল্পে বিনিয়োগ করার চেষ্টা করছেন: একদিকে, তিনি নিজস্ব চিপগুলি উন্নয়ন করছেন এবং এগুলিকে xAI-এর “AI চিপ পরিবার”-এর অংশ হিসেবে অন্তর্ভুক্ত করছেন; অন্যদিকে, মাস্ক ভবিষ্যতের xAI, SpaceX এবং অন্যান্য সংশ্লিষ্ট ব্যবসাগুলির জন্য ইন্টেলের 14A প্রসেস প্রযুক্তির সহায়তায় উন্নত সমাধান তৈরির ইচ্ছা রাখছেন।

এক্সএআইয়ের সংকট সমস্ত পিছনে পড়ে থাকা প্রতিযোগীদের জন্য একটি সতর্কবার্তা: এআই প্রতিযোগিতার দ্বিতীয় অর্ধেকে, যে বেশি জিপিইউ কিনতে পারে তার উপর নির্ভর করবে না।

প্রসঙ্গ:

https://www.theinformation.com/newsletters/ai-agenda/xai-shows-hard-use-lot-gpus

এই লেখাটি ওয়েইচ্যাট গ্রুপ "মেশিন সিন্টিস" (ID: almosthuman2014) থেকে, লেখক: AI ইনফ্রাস্ট্রাকচার নিয়ে আগ্রহী