xAI-এর পূর্ব গবেষক ভিডিও এআই প্রশিক্ষণের লুকানো খরচ প্রকাশ করেন

এক্সএআই-এর পূর্ব গবেষক ইথান হে প্রকাশ করেন যে ভিডিও এআই প্রশিক্ষণের প্রকৃত খরচ গঠন হয়: 10 বিলিয়ন ভিডিও সংরক্ষণের জন্য 5 PB স্টোরেজ প্রয়োজন, যার মাসিক সংরক্ষণ খরচ 100,000 ডলারের বেশি; কম্প্রেসড ফিচার ডেটা এবং মূল ভিডিওর আকার প্রায় একই, যা যোগ করলে মাসিক সংরক্ষণ খরচ 200,000 ডলারের বেশি; ডেটা আসা-যাওয়ার খরচও সংরক্ষণ খরচের চেয়ে বেশি। একটি সমন্বিত অনুমানে মাসিক একক ডেটা খরচ কয়েক মিলিয়ন ডলারেরও বেশি, যা GPU ক্যালকুলেশন সহ অন্তর্ভুক্ত করা হয়নি। লেখক বলেন যে ভিডিও মডেলের প্রতিযোগিতামূলক সুবিধা অ্যালগরিদমের বদলে অবকাঠামোতে, এই বাধা প্রতিযোগিতাকে অত্যন্ত কম সংখ্যক খেলোয়াড়ের মধ্যেই সীমাবদ্ধ করেছে, যা শিল্পের গঠনকে সেমিকনডাক্টরওয়াফার ফ্যাক্টরির মতোই করেছে।

লেখক এবং উৎস: এস্ট্রোনেপ

এআই ব্যয় নিয়ে শিল্পে বিভিন্ন অবিশ্বাস্য সংখ্যা প্রচলিত। xAI কলোসাস সুপারকম্পিউটিং ক্লাস্টার তৈরি করতে 10 বিলিয়ন ডলারের বেশি খরচ করেছে; OpenAI-এর মাসিক কম্পিউটিং বিল কয়েকশ মিলিয়ন ডলার পর্যন্ত হওয়ার দাবি করা হয়েছে; Anthropic-এর সম্প্রতি অর্জিত বিভিন্ন ফান্ডিং রাউন্ডের অর্থ, জনসাধারণের দৃষ্টিতে প্রায় সরাসরি 'GPU ঘন্টা' এর সমান।

যে সব কথা বলা হচ্ছে, তার প্রায় সবই হলো ক্যালকুলেশন ক্ষমতা। GPU হয়ে উঠেছে একটি AI কোম্পানির ক্ষমতা পরিমাপের সাধারণ মুদ্রা, এবং প্রতিটি ফান্ডিং রিপোর্টের সবচেয়ে উল্লেখযোগ্য সংখ্যা।

কিন্তু সাম্প্রতিক সময়ে, আমি Latent Space পডকাস্টের একটি পর্ব শুনেছি, যেখানে xAI-এর পূর্ব গবেষক ইথান হে-কে সাক্ষাৎকার করা হয়েছিল—ইথান ২০২৫ এর মধ্যভাগে xAI-এ যোগদান করেন, যখন তাঁর সামনে কোনো অবকাঠামো, কোনো ডেটা, কোনো প্রস্তুত মডেল ছিল না, এবং তিনি তিন মাসের মধ্যে একটি ছোট দলের সাথে শূন্য থেকে Grok Imagine ভিডিও জেনারেশন সিস্টেম তৈরি করেন, যা তখনকার শিল্পের শীর্ষস্থানীয় মানের সমতুল্য হয়েছিল।

বড় ভিডিও মডেলের প্রশিক্ষণ খরচ নিয়ে কথা বলতে গিয়ে তিনি কিছু সংখ্যা উল্লেখ করেন, যা শুনে আমি হঠাৎ বুঝতে পারি যে এই শিল্পটি সম্ভবত সবসময় ভুল হিসাব করছে।

এই ভিডিও এবং বৈশিষ্ট্য ডেটা সংরক্ষণ করতে প্রতি মাসে কয়েক মিলিয়ন ডলার খরচ হয়—এটি ক্যালকুলেশন খরচ বাদে।

বিলে লুকানো খরচ

শূন্য থেকে একের দিকে একটি ভিডিও বড় মডেল ট্রেন করতে কতটা খরচ হবে? ধরে নিন আপনার টিমের পাস্তা আছে, GPU ক্ষমতা যা চান তাই ব্যবহার করতে পারেন। তবুও, আপনি এই কাজের পরিমাণের খরচকে অবশ্যই কম ধরেছেন।

যদি আপনি একটি বিশ্বস্ত ভিডিও জেনারেশন মডেল প্রশিক্ষণ দিতে চান এবং ওয়েব থেকে 1 বিলিয়নটি ভিডিও ডাউনলোড করেন, যেগুলোর প্রতিটির গড় আকার 5MB—এটি ইতিমধ্যেই একটি খুব সংযমী অনুমান। শুধু এই একটি বিষয়ের জন্যই আপনার 5PB (পেটাবাইট) স্টোরেজ স্পেস দরকার। AWS S3-এর মূল্যনির্ধারণ অনুযায়ী, 5PB স্ট্যান্ডার্ড স্টোরেজের জন্য প্রতি মাসে প্রায় 100,000 ডলার খরচ হয়।

কিন্তু এটি এখনও মূল ভিডিও।

ভিডিও মডেল ট্রেন করার আগে, শিল্পের সাধারণ অনুশীলন হলো প্রথমে VAE (ভ্যারিয়েশনাল অটো-এনকোডার) ব্যবহার করে ভিডিওকে একটি 'লেটেন্ট স্পেস'-এর ফিচার ভেক্টরে কম্প্রেস করা—কারণ একটি ভিডিওকে পিক্সেলে বিস্তার করলে এটি দশ বিলিয়নেরও বেশি টোকেন হতে পারে, যা কোনো Transformer-এর দ্বারা প্রক্রিয়া করা সম্ভব নয়; এটিকে প্রথমে এমন একটি কন্টিনুয়াস ভেক্টরে কম্প্রেস করা প্রয়োজন যা মডেলটি বুঝতে পারবে।

সমস্যা হলো, এই সংকুচিত বৈশিষ্ট্য ডেটা আকারে মূল ভিডিওর সমান, যা দীর্ঘমেয়াদে সংরক্ষণ করতে হবে এবং যেকোনো সময় ব্যবহারের জন্য প্রস্তুত রাখতে হবে।

দুটি সংযোজন করে, দশ পেটাবাইট, মাসিক স্টোরেজ খরচ ২০০,০০০ ডলারের বেশি হয়ে যায়।

তারপর সবচেয়ে অপ্রত্যাশিতটি: ডেটা আউটগ্রেস/ইনগ্রেস ফি।

এথান বলেন, এক্সডব্লিউএস-এ 1 বিলিয়ন ভিডিও ডাউনলোড করার ব্যান্ডউইথ খরচ এই ভিডিওগুলি সংরক্ষণ করার খরচের চেয়ে বেশি। প্রতিবার ট্রেনিংয়ের জন্য, ডেটা স্টোরেজ লেয়ার থেকে কম্পিউটেশন লেয়ারে টেনে আনতে হয়। ভিডিও মডেলের ট্রেনিং ভাষা মডেলের মতো শেষ হয়ে যায় না—এটি ইটারেশন, প্যারামিটার টিউনিং, এবং বিভিন্ন ডেটা রেশিওর পরীক্ষা করতে হয়; প্রতিটি পরীক্ষা মানে সম্পূর্ণ ডেটা আবার পাস করা। যতবার পরীক্ষা চলবে, এই খরচ ততগুণ বাড়বে।

সম্মিলিতভাবে বিবেচনা করলে, ইথানের অনুমান হল শুধু ডেটা বিষয়ক খরচেই প্রতি মাসে কয়েক মিলিয়ন ডলার খরচ হবে। GPU-এর খরচ এখনও যোগ করা হয়নি।

এই খরচটি আমি কখনও কোনো এআই শিল্পের প্রতিবেদনে বিস্তারিতভাবে গণনা করে দেখিনি।

অসহনীয় ব্যান্ডউইথ ফি

কি এক্সএআই এর মতো নিজস্ব কোলোসাস ডেটা সেন্টার নির্মাণ করা কোম্পানিগুলি স্টোরেজ এবং ব্যান্ডউইথে বড় পরিমাণ টাকা বাঁচাচ্ছে?

এথানের উত্তর খুব সরাসরি: "হ্যাঁ, অনেক বাঁচানো হয়েছে।"

এই বাক্যের পিছনে ভিডিও এআই শিল্পের একটি কম আলোচিত গঠনগত রহস্য লুকিয়ে আছে।

বড় ভাষা মডেলের প্রশিক্ষণ ডেটা হল টেক্সট, যার আকার তুলনামূলকভাবে হালকা, এবং প্রশিক্ষণ সম্পন্ন হওয়ার পর, মূল ডেটা প্রায় তার কাজ শেষ করে দেয়—আপনাকে উপসংহার বা ফাইন-টিউনিংয়ের জন্য পুনরায় পুরো কর্পাসটি ডাউনলোড করার দরকার হয় না। কিন্তু ভিডিও ডেটা সম্পূর্ণ ভিন্ন: এটির আকার টেক্সটের চেয়ে কয়েকটি ক্ষমতা বেশি, এবং প্রতিটি প্রশিক্ষণ পরীক্ষায় পুরো ডেটা একবারের মধ্যে পাস করতে হয়।

যত দ্রুত ইটারেশন হয়, ডেটা ট্রান্সফারের খরচ তত বেশি হয়; এবং ইথান বারবার জোর দিয়েছেন যে, ইটারেশন গতি হল ভিডিও মডেল গবেষণার সবচেয়ে গুরুত্বপূর্ণ পরিবর্তনশীল কারণ।

এটি একটি পরস্পর জড়িয়ে পড়া অবস্থার সৃষ্টি করে: আপনাকে মডেলের গুণগত মান বাড়ানোর জন্য দ্রুত পুনরাবৃত্তি করতে হবে, কিন্তু দ্রুত পুনরাবৃত্তির অর্থ প্রায়শই ডেটা স্থানান্তর করা, এবং পাবলিক ক্লাউডে প্রায়শই ডেটা স্থানান্তর করলে আপনার বিল আপনাকে চাপা দেবে।

এথানের নিজের পথটিই একটি প্রমাণ। তিনি NVIDIA-এ কসমস ওয়ার্ল্ড মডেল তৈরির কাজে অংশ নিয়েছিলেন, এবং ধীরে ধীরে বুঝতে পারলেন যে ভিডিও মডেলগুলিতেও ভাষা মডেলগুলির মতোই 'স্কেলিং লজ' রয়েছে, এবং এখনও অনেক উন্নতির সম্ভাবনা রয়েছে। তখন তাঁর সামনে যে বিকল্পগুলি ছিল, বাহ্যিকভাবে দেখতে মনে হচ্ছিল "আমাকে আরও বেশি GPU দরকার", কিন্তু তিনি যে একটি গুরুত্বপূর্ণ বাক্যটি উল্লেখ করেননি, তা ছিল—তিনি এমন একটি জায়গা চাইতেন, যেখানে ডেটা সংরক্ষণ ও স্থানান্তরের জন্য AWS-এর বিলের হিসাবের প্রয়োজন হবে না। এটিই তিনি xAI-এ যাওয়ার মূল কারণগুলির মধ্যে একটি, এবং Colossus-এর মাধ্যমেই তিনি সেই পরিবেশটি পেয়েছিলেন।

যে দলগুলির নিজস্ব অবকাঠামো নেই, তাদের জন্য এই খরচ কীভাবে হিসাব করা হয়? প্রতি মাসে কয়েক মিলিয়ন ডলারের ডেটা খরচ, GPU ক্ষমতার উপর যোগ হয়ে, অর্থাৎ আপনার যদি শীর্ষস্থানীয় অ্যালগরিদম দল থাকে, বা আপনি যদি পর্যাপ্ত অর্থ সংগ্রহ করেন, তবুও আপনি যদি পাবলিক ক্লাউড ব্যবহার করেন, তাহলে আপনি একটি অনন্ত বিলের সাথে প্রতিযোগীদের নিজস্ব ডেটা সেন্টারের সাথে প্রতিযোগিতা করছেন।

এই বাধা একটি দক্ষ অ্যালগরিদম সহ একটি স্টার্টআপ কেবলমাত্র "প্রযুক্তি দিয়ে জয়" করতে পারে না।

ভিডিও মডেলের প্রতিযোগিতামূলক সুবিধা মডেল নয়

এটি একটি মজার তুলনাকে মনে করিয়ে দেয়।

বড় ভাষা মডেলের ক্ষেত্রে, "ওপেন-সোর্স বনাম প্রোপ্রাইটারি" প্রতিযোগিতা খুবই তীব্র, যেখানে Llama সিরিজের উত্থান অনেক ছোট দলকে ভাষা মডেলে প্রতিযোগিতামূলক পণ্য তৈরির সুযোগ দিয়েছে, এমনকি OpenAI এবং Anthropic-কে API মূল্য কমাতে বাধ্য করেছে। কিন্তু ভিডিও জেনারেশনের ক্ষেত্রে, আমরা সম্পূর্ণ ভিন্ন পরিস্থিতি দেখি: স্থিরভাবে শীর্ষস্থানীয় ভিডিও মডেল তৈরি করতে পারছে শুধুমাত্র Sora, Veo, Keling-এর মতো বিশাল সম্পদের পিছনে থাকা দলগুলি, এবং একটিও দল ওপেন-সোর্স সম্প্রদায়ের মাধ্যমে গারেজে চলমান নয়।

অনেকে এটিকে "ডেটা এবং কম্পিউটিং পাওয়ারের পার্থক্য" হিসাবে দেখেন। এটি অবশ্যই সঠিক, কিন্তু ইথান যে সংখ্যাগুলি উপস্থাপন করেছেন, তা আমাদের বুঝিয়ে দেয় যে সমস্যাটি এটির চেয়েও গভীর: ভিডিও AI-এর ইনফ্রাস্ট্রাকচার খরচ, শুরু থেকেই প্রতিযোগিতার প্রবেশদ্বারকে অত্যন্ত সীমিত কয়েকজন খেলোয়াড়ের উচ্চতায় স্থির করে দিয়েছে।

এটি সেমিকন্ডাক্টর শিল্পের যুক্তির সাথে কিছুটা মিল রাখে। TSMC-কে চ্যালেঞ্জ করা কঠিন হওয়ার কারণ শুধু তাদের ভালো ডিজাইন নয়, বরং একটি নতুন ওয়েফার ফ্যাক্টরির জন্য শত শত বিলিয়ন ডলারের প্রাথমিক বিনিয়োগের প্রয়োজন, যা নিজেই সেরা প্রতিরক্ষা প্রাচীর। ভিডিও AI-এর প্রতিরক্ষা প্রাচীর হল সেই দশগুণ PB-এর ডেটা অবকাঠামো এবং মাসিকভাবে জমা হওয়া ব্যান্ডউইথের বিল।

এথান পডকাস্টে আরও একটি গভীর উপসংহার যোগ করেন: ভিডিও মডেলের "বুদ্ধিমত্তা" বেশিরভাগই ভিডিও ডিফিউশন মডেলের নিজস্ব নয়, বরং এর পিছনের ভাষা মডেল থেকে আসে।

ভিডিও ডিফিউশন মডেলটি প্রায় অজ্ঞান, এটি শুধুমাত্র টেক্সট বর্ণনা অনুযায়ী চিত্র তৈরি করে; যদি আপনি লিখেন "একটি বিড়াল", তাহলে এটি একটি বিড়াল তৈরি করবে, পরিষ্কার সাদা ব্যাকগ্রাউন্ডের সামনে স্থিরভাবে দাঁড়িয়ে — কারণ আপনি এটিকে ব্যাকগ্রাউন্ড কী হবে বা বিড়ালটি কী করছে তা বলেননি।

একটি বিশাল ভাষামডেল যা "প্রম্পট পুনর্লিখন" করে, তাই ব্যবহারকারীর ইচ্ছাকে সঠিকভাবে বুঝে, "একটি বিড়াল" কে একটি সূক্ষ্ম ক্যামেরা ভাষার বর্ণনায় প্রসারিত করে। ইথান বলেন, কসমস সময়ে, তিনি একটি "খুশির ভেড়া" দিয়ে পরীক্ষা করেছিলেন: প্রম্পট পুনর্লিখন ছাড়া, উত্পাদিত ছবিটি অত্যন্ত CGI, কোনও মানের অভাব; পুনর্লিখন যোগ করার পর, ফলাফলটি সম্পূর্ণভাবে ভিন্ন—এবং সম্পূর্ণ ভিডিও ডিফিউশন মডেলটির কোনও পরিবর্তনই হয়নি।

এর অর্থ এই যে, একটি কোম্পানির ভিডিও এআই ক্ষেত্রে কতটা দূর যাওয়ার সিদ্ধান্ত শুধুমাত্র ভিডিও মডেলের প্যারামিটার সাইজের উপর নির্ভর করে না, বরং একসাথে ভাষা মডেল এবং ভিডিও মডেল—এই দুটি ইনফ্রাস্ট্রাকচারকে সমর্থন করতে পারা এবং তাদের কার্যকরভাবে সমন্বয় করতে পারা।

এটি একটি সমগ্র শারীরিক শক্তির প্রতিযোগিতা।

পরবর্তী মাঠটি ইতিমধ্যেই চিহ্নিত করে দেওয়া হয়েছে

অবশ্যই, শিল্পটিও পথ খুঁজছে।

প্রম্পট পুনর্লিখনের এজেন্ট-ভিত্তিক পদ্ধতি, ভিডিও জেনারেশন টুলগুলির সংগঠনের জন্য ভাষা মডেলকে একটি "কমান্ডার" হিসাবে ব্যবহার করা, এবং FFmpeg এর মতো প্রাচীন সফটওয়্যার ব্যবহার করে মধ্যবর্তী ধাপগুলি প্রক্রিয়াকরণ—এই দিকগুলির সাধারণ যুক্তি হল, "ভাষা মডেলের যুক্তিগত খরচ" এবং "ভিডিও ডিফিউশন মডেলের জেনারেশন খরচ"কে স্তরবদ্ধভাবে গণনা করা, যাতে প্রতিটি ভিডিও জেনারেশনের কলটি আরও সঠিকভাবে পরিচালিত হয় এবং অপ্রয়োজনীয় গণনা এবং ডেটা স্থানান্তর কমে।

এথান ভিডিও এজেন্টের দিকনির্দেশের প্রতি খুব নিশ্চিত। তিনি পূর্বাভাস দিচ্ছেন যে এই বছরের শেষের দিকে একটি মোড় আসবে—যখন এজেন্ট দ্বারা তৈরি ভিডিওর গুণগত মান স্থিরভাবে «বাণিজ্যিক বিজ্ঞাপন প্রচারের জন্য উপযুক্ত» পর্যায়ে পৌঁছাবে, তখনই কোম্পানিগুলি সত্যিকারভাবে এর জন্য পেমেন্ট করতে রাজি হবে, এবং সমগ্র খরচের কাঠামোও পরিবর্তিত হবে।

কিন্তু একটি বিষয় অপরিবর্তিত থাকবে: যে ব্যক্তি ডেটার সংরক্ষণ এবং প্রবাহ নিয়ন্ত্রণ করে, সেই ব্যক্তিই এই খেলার শুরুটি নিয়ন্ত্রণ করে।

এআই এর এই পথে, "প্রকৃত বাধা" কিছুক্ষণ পর কিছুক্ষণ পর পরিবর্তিত হয়। প্রথমে প্যারামিটার সংখ্যা, তারপর ট্রেনিং ডেটা স্কেল, তারপর অ্যালাইনমেন্ট টেকনোলজি, তারপর ইনফারেন্স দক্ষতা। এখন, ভিডিও এআই পরবর্তী বাধাটি প্রকাশ করছে—এটি কোনও রহস্যময় অ্যালগরিদমিক বিপ্লব নয়, বরং একটি শীতল, বিনয়ী ইনফ্রাস্ট্রাকচার বিল।

এই খাতা শুরু থেকেই সবার জন্য পরিশোধযোগ্য হওয়ার পরিকল্পনা করা হয়নি।

*হেডার ছবির উৎস: iMini AI