ایکس اے آئی کے سابق ریسرچر نے ویڈیو AI ٹریننگ کے پوشیدہ اخراجات کا انکشاف کیا

ایک سابق xAI ریسرچر ایتھن ہی نے ویڈیو AI ٹریننگ کی حقیقی لاگت کی ساخت کا انکشاف کیا: 1 ارب ویڈیوز کو ذخیرہ کرنے کے لیے 5 پیٹا بائٹ جگہ درکار ہے، ماہانہ ذخیرہ سازی کا خرچ 100,000 ڈالر سے زائد ہے؛ کمپریسڈ خصوصیات کا ڈیٹا اصل ویڈیوز کے سائز کے برابر ہے، جس کے نتیجے میں ماہانہ ذخیرہ سازی کا خرچ 200,000 ڈالر سے زائد ہو جاتا ہے؛ ڈیٹا کے داخل اور خارج ہونے کے اخراجات ذخیرہ سازی کے خرچ سے بھی زیادہ ہیں۔ مجموعی طور پر، صرف ڈیٹا کی لاگت ماہانہ کئی ملین ڈالر تک پہنچ سکتی ہے، جبکہ GPU کی کمپوٹنگ طاقت کو شامل نہیں کیا گیا۔ مصنف نے بتایا کہ ویڈیو ماڈل کا مقابلہ نہ تو الگورتھم میں بلکہ انفراسٹرکچر میں ہے، اور یہ رکاوٹ صرف انتہائی محدود شرکاء کو ہی اس صنعت میں داخل ہونے دے رہی ہے، جس کا صنعتی منظر سامیکنگ وافلز کے منظر کے قریب ہے۔

مضمون کے مصنف، ذریعہ: یوہانگیوآن

AI کے خرچے کے بارے میں صنعت میں مختلف حیرت انگیز اعداد و شمار گردش کر رہے ہیں۔ xAI نے Colossus سупر کمپیوٹنگ کلัสٹر بنانے پر 10 ارب ڈالر سے زائد خرچ کیے؛ OpenAI کی ماہانہ کمپوٹیشنل بلز کو کئی ارب ڈالر تک بتایا جا رہا ہے؛ Anthropic نے حالیہ سرمایہ کاریوں سے جو رقم حاصل کی، عوام کی نظر میں اس کا تعلق تقریباً "GPU گھنٹوں" سے براہ راست جوڑ دیا گیا ہے۔

لوگ تقریباً صرف کمپوٹیشنل پاور کے بارے میں بات کر رہے ہیں۔ GPU ایک AI کمپنی کی طاقت کا عام معایر بن گیا ہے، اور ہر فنڈنگ رپورٹ میں سب سے زیادہ نمایاں عدد ہے۔

لیکن حال ہی میں، میں نے لیٹنٹ اسپیس پاڈکاسٹ کا ایک ایپی سوڈ سننا جس میں xAI کے سابق ریسرچر ایتھن ہی کا انٹرویو تھا — جب ایتھن نے 2025 کے وسط میں xAI میں شمولیت اختیار کی، تو اس کے سامنے کوئی بنیادی ڈھانچہ، کوئی ڈیٹا، اور کوئی تیار ماڈل نہیں تھا، لیکن اس نے تین ماہ اور ایک چھوٹی ٹیم کے ساتھ گروک امیجین ویڈیو جنریشن سسٹم کو صفر سے تعمیر کیا اور اس وقت صنعت کے بہترین معیار تک پہنچ گیا۔

جب اس نے بڑے پیمانے پر ویڈیو ماڈلز کی تربیت کی لاگت کے بارے میں ایک سری نمبرز بتائے، تو میں نے اچانک محسوس کیا کہ یہ صنعت شاید ہمیشہ سے غلط حساب کر رہی ہے۔

صرف اس ویڈیو اور خصوصیات کے ڈیٹا کو محفوظ رکھنا ہر ماہ کچھ ملین امریکی ڈالر کا خرچ ہے — اور یہ کمپوٹیشنل لاگت شامل نہیں۔

بِل پر پوشیدہ اخراجات

صفر سے ایک تک، ایک ویڈیو بڑے ماڈل کو تربیت دینے کے لیے کتنی رقم خرچ ہوگی؟ فرض کریں کہ آپ کی ٹیم کے پاس کان ہے، اور آپ کو GPU کی کمپوٹیشنل طاقت کا استعمال کرنے کے لیے کوئی پابندی نہیں۔ اس کے باوجود، آپ اس کے بہت بڑے اخراجات کو نظرانداز کر رہے ہو سکتے ہیں۔

اگر آپ ایک عالمی سطح کے ویڈیو جنریشن ماڈل کو تربیت دینا چاہتے ہیں اور آن لائن سے ایک بلین ویڈیوز ڈاؤن لوڈ کرتے ہیں، جن میں سے ہر ایک کا اوسط حجم 5MB ہے — یہ بہت محتاط اندازہ ہے۔ صرف اس کے لیے، آپ کو 5PB (پیٹا بائٹ) اسٹوریج کی ضرورت ہوگی۔ AWS S3 کی قیمت کے مطابق، 5PB کی معیاری اسٹوریج کا ماہانہ خرچ تقریباً 100,000 امریکی ڈالر ہوگا۔

لیکن یہ صرف اصل ویڈیو ہے۔

ویڈیو ماڈل کو تربیت دینے سے پہلے، صنعت کا معیاری طریقہ یہ ہے کہ VAE (Variational Autoencoder) کا استعمال کرکے ویڈیو کو "لیٹنٹ اسپیس" میں فیچر ویکٹرز میں دبایا جائے — کیونکہ ایک ویڈیو کو پکسلز میں بکھیرنے سے اربوں ٹوکنز بن سکتے ہیں، جنہیں کوئی بھی Transformer نہیں سنبھال سکتا، اس لیے انہیں ماڈل کے لیے قابلِ فہم مسلسل ویکٹرز میں دبایا جانا ضروری ہے۔

مسئلہ یہ ہے کہ اس دبائے گئے خصوصیات کے ڈیٹا کا حجم اصل ویڈیو کے برابر ہے، جسے لمبے عرصے تک محفوظ رکھنا پڑتا ہے اور ہر وقت تیار رکھنا پڑتا ہے۔

دو چیزوں کو جوڑ کر، دہوں پیٹا بائٹس، ماہانہ اسٹوریج فیس 200,000 امریکی ڈالر سے زیادہ ہو جاتی ہے۔

پھر سب سے زیادہ حیران کن چیز: ڈیٹا کا باہر جانا اور اندر آنا (egress/ingress)۔

ایthan کہتے ہیں کہ AWS پر 1 ارب ویڈیوز ڈاؤن لوڈ کرنے کی بینڈ ویتھ فیس، ان ویڈیوز کو محفوظ رکھنے کی لاگت سے زیادہ ہے۔ ہر تربیت کے دوران، ڈیٹا کو ذخیرہ سطح سے کمپیوٹیشن لیئر تک لایا جاتا ہے اور پھر اسے دوبارہ چلایا جاتا ہے۔ ویڈیو ماڈلز کی تربیت لینگویج ماڈلز کی طرح ایک بار ختم نہیں ہوتی — اسے دوبارہ تکرار کیا جانا چاہیے، پیرامیٹرز کو ایڈجسٹ کیا جانا چاہیے، اور مختلف ڈیٹا تناسب کا ٹیسٹ کیا جانا چاہیے، جس سے ہر تجربہ مکمل ڈیٹا کو دوبارہ پاس کرنے کا مطلب ہوتا ہے۔ جتنا زیادہ تجربہ چلائے جائیں گے، اتنی ہی زیادہ رقم خرچ ہوگی۔

مجموعی طور پر، ایثان کے اندازے کے مطابق، صرف ڈیٹا کے لیے ہر ماہ کئی ملین امریکی ڈالر کی ضرورت ہوگی۔ GPU کے اخراجات ابھی شامل نہیں کیے گئے ہیں۔

یہ ادائیگی، میں نے کبھی بھی AI صنعت کی کسی رپورٹ میں تفصیل سے نہیں دیکھی۔

برداشت نہ ہونے والی بینڈ ویت فیس

کیا ایسی کمپنیاں جیسے xAI جو اپنا خود کا Colossus ڈیٹا سینٹر بناتی ہیں، اسٹوریج اور بینڈ ویتھ پر بہت زیادہ پیسہ بچاتی ہیں؟

ایتھن کا جواب بہت سیدھا تھا: "بالکل، بہت سارا بچایا۔"

اس جملہ کے پیچھے ویڈیو AI صنعت کا ایک کم بحث ہونے والا ساختی راز چھپا ہوا ہے۔

بڑے زبان ماڈلز کے تربیتی ڈیٹا ٹیکسٹ ہوتے ہیں، جو نسبتاً ہلکے ہوتے ہیں، اور تربیت مکمل ہونے کے بعد، اصل ڈیٹا کا بنیادی کام ختم ہو جاتا ہے — آپ کو استدلال یا فائن ٹیوننگ کے لیے مکمل کارپس کو دوبارہ حاصل کرنے کی ضرورت نہیں ہوتی۔ لیکن ویڈیو ڈیٹا بالکل الگ ہے: اس کا حجم ٹیکسٹ سے کئی درجہ بڑھا ہوا ہوتا ہے، اور ہر تربیتی تجربے میں مکمل ڈیٹا کو پورا پاس کرنا پڑتا ہے۔

جتنی جلدی ایٹریشن ہوگی، اتنی ہی زیادہ ڈیٹا منتقل کرنے کی لاگت ہوگی؛ اور ایتھن نے بار بار زور دیا ہے کہ ایٹریشن کی رفتار ویڈیو ماڈل ترقی کا سب سے اہم عامل ہے۔

یہ ایک باہمی ملتی ہوئی پھنساوٹ بن جاتا ہے: آپ کو ماڈل کی معیار کو بہتر بنانے کے لیے تیزی سے دہرائی کی ضرورت ہے، لیکن تیزی سے دہرائی کا مطلب ہے بار بار ڈیٹا منتقل کرنا، اور عوامی بادل پر بار بار ڈیٹا منتقل کرنے سے آپ کا بل دب جائے گا۔

ایتھن کا اپنا سفر ایک نشانی ہے۔ اس نے NVIDIA میں کاسموس ورلڈ مدل بنانے میں حصہ لیا، جس کے دوران اسے احساس ہوا کہ ویڈیو مدلز میں زبانی مدلز جیسے "سکیل لاز" موجود ہیں، اور ان میں بہت بڑا بہتری کا امکان ہے۔ اس وقت اس کے سامنے جو منتخب کرنے کا سوال تھا، وہ ظاہری طور پر "مجھے مزید GPU درکار ہیں" تھا، لیکن اس نے اپنے منہ سے ایک اہم بات نہیں کہی — اسے ایک� ایس وی بِل کے حساب سے رقم ادا کرنے کے بجائے، ڈیٹا کو ذخیرہ اور منتقل کرنے کی جگہ درکار تھی۔ یہی وجہ ہے کہ وہ xAI گیا، اور کولوسس نے اسے وہ ماحول فراہم کیا۔

اپنی خود کی ہوئی بنیادی ڈھانچہ نہ رکھنے والے ٹیم کے لیے یہ اعداد و شمار کیسے ہوتے ہیں؟ ہر ماہ کئی ملین امریکی ڈالر کی ڈیٹا لاگت، جو GPU کی کمپوٹنگ طاقت پر مزید جمع ہوتی ہے، کا مطلب ہے کہ آپ کے پاس بہترین الگورتھم ٹیم ہو، یا آپ کو کافی فنڈز جمع ہو جائیں، لیکن اگر آپ ابھی تک پبلک کلاؤڈ استعمال کر رہے ہیں، تو آپ اپنے مقابلے والوں کی خود کی ہوئی ڈیٹا سینٹر کے ساتھ ایک بے حد بل کے ساتھ مقابلہ کر رہے ہیں۔

یہ رکاوٹ، ایک اچھی الگورتھم والی اسٹارٹ اپ کے لیے صرف "ٹیکنالوجی سے فتح" کے ذریعے عبور نہیں کی جا سکتی۔

ویڈیو ماڈل کا تحفظ ماڈل نہیں ہے

یہ مجھے ایک دلچسپ تقابل کی یاد دلاتا ہے۔

بڑے زبانی ماڈلز کے شعبے میں، "اوپن سورس بمقابلہ بند سورس" کی مقابلہ بہت تیز ہے، لیکن لاما سیریز کے ظہور کے ساتھ، بہت سے چھوٹے ٹیمیں زبانی ماڈلز پر مقابلہ کرنے لائق مصنوعات تیار کرنے میں کامیاب ہو گئیں، جس نے OpenAI اور Anthropic کو API قیمتوں کو لگاتار کم کرنے پر مجبور کر دیا۔ لیکن ویڈیو جنریشن کے شعبے میں، ہم ایک بالکل مختلف صورتحال دیکھ رہے ہیں: صرف Sora، Veo، اور Keling جیسے بڑے وسائل سے لیس ٹیمیں ہی مستقل طور پر بہترین ویڈیو ماڈلز تیار کر رہی ہیں، اور کوئی بھی ٹیم اوپن سورس کمیونٹی کے ذریعے گارج میں نہیں بن رہی۔

بہت سے لوگ اسے "ڈیٹا اور کمپوٹیشنل پاور کے فرق" کا نتیجہ سمجھتے ہیں۔ یہ بالکل صحیح ہے، لیکن ایتھن نے جو اعداد و شمار سامنے لائے ہیں، وہ ہمیں بتاتے ہیں کہ مسئلہ اس سے گہرا ہے: ویڈیو AI کی بنیادی ڈھانچہ لاگت، شروع سے ہی مقابلے کی سرحد کو صرف کچھ چند کھلاڑیوں تک محدود کر دیتی ہے۔

یہ سیمی کنڈکٹر صنعت کے منطق کے کچھ حد تک مشابہ ہے۔ تائیوان سیمیکنڈکٹر کی عظیم پوزیشن صرف ان کے بہتر ڈیزائن کی وجہ سے نہیں، بلکہ ایک نئی ویفر فیکٹری کے لیے سووں ارب ڈالر کے ابتدائی سرمایہ کاری کی ضرورت کی وجہ سے ہے، جو خود ایک بہترین تحفظ کا حصار ہے۔ ویڈیو AI کا حصار، دسوں پیٹا بائٹس کی ڈیٹا انفراسٹرکچر اور ماہانہ پیدا ہونے والی بینڈ ودث بلز ہیں۔

ایتان نے پوڈکاسٹ میں ایک مزید گہرا استنباط بھی شامل کیا: ویڈیو ماڈل کی "بُدھی" زیادہ تر اس کے پیچھے کے زبانی ماڈل سے آتی ہے، نہ کہ ویڈیو ڈیفیوژن ماڈل خود سے۔

ویڈیو ڈیفیوژن ماڈل نسبتاً "بے وقوف" ہوتے ہیں، وہ صرف متن کے تفصیلات کو اپنے مطابق بناتے ہیں؛ اگر آپ لکھیں "ایک بلی"، تو وہ ایک بلی بنائے گا، خالص سفید پس منظر کے سامنے، بالکل ساکن — کیونکہ آپ نے اسے نہیں بتایا کہ پس منظر کیا ہے یا بلی کیا کر رہی ہے۔

جو بڑا زبانی ماڈل "ایک بلی" کو ایک تفصیلی کیمرہ لینگویج کے تفصیل میں تبدیل کرتا ہے، وہ "پرومپٹ ری ورائٹنگ" کرنے والا ماڈل ہے۔ ایتھن کہتے ہیں کہ کاسموس کے دوران، انہوں نے "خوش مُنڈھا" کے ساتھ ٹیسٹ کیا: پرومپٹ ری ورائٹنگ کے بغیر، جنریٹڈ امیج بہت CGI لگتا تھا اور کوئی کوالٹی نہیں تھی؛ ری ورائٹنگ کے ساتھ، اثر بالکل مختلف ہو گیا—جبکہ ویڈیو ڈiffsیوشن ماڈل خود میں کوئی تبدیلی نہیں آئی۔

اس کا مطلب یہ ہے کہ ایک کمپنی کو ویڈیو AI کے شعبے میں کتنا آگے بڑھنا ہے، اس کا فیصلہ صرف ویڈیو ماڈل کے پیرامیٹر سائز سے نہیں ہوتا، بلکہ زبانی ماڈل اور ویڈیو ماڈل دونوں انفرادی بنیادی ڈھانچوں کو одно ساتھ چلانے اور انہیں مؤثر طریقے سے ملنا ہے۔

یہ ایک جامع فزیکل طاقت کا مقابلہ ہے۔

اگلی جنگ کا میدان پہلے ہی طے کر دیا گیا ہے

بلکہ صنعت بھی راستہ تلاش کر رہی ہے۔

پرامپٹ کو دوبارہ لکھنے کا ایجنٹ بنانا، زبانی ماڈل کو ایک "کمانڈر" کی طرح متعدد ویڈیو جنریٹر ٹولز کو مینج کرنے کے لیے استعمال کرنا، اور درمیانی مراحل کے لیے FFmpeg جیسے روایتی سافٹ ویئر کا استعمال کرنا — ان تمام رہنمائیوں کا مشترکہ منطق یہ ہے کہ "زبانی ماڈل کی استدلال لاگت" اور "ویڈیو ڈiffsیون ماڈل کی پیداواری لاگت" کو الگ الگ طور پر کیا جائے، تاکہ ہر ویڈیو جنریشن کا کال زیادہ درست ہو اور بے نقاب حسابات اور ڈیٹا منتقلی کو کم کیا جا سکے۔

ایتھن "ویڈیو ایجنٹ" کے مستقبل کے بارے میں کافی مطمئن ہیں۔ وہ پیش گوئی کرتے ہیں کہ اس سال کے آخر تک ایک موڑ آئے گا — جب ایجنٹس کے ذریعہ تخلیق کیے گئے ویڈیوز کی معیاری صلاحیت "کمرشل اشتہارات" کے لیے مناسب ہو جائے گی، تو صرف اس وقت کمپنیاں اس پر ادائیگی کرنے کے لیے تیار ہوں گی، اور مجموعی لاگت کا ڈھانچہ بھی اس کے ساتھ تبدیل ہو جائے گا۔

لیکن ایک بات یہی رہے گی: جو بھی ڈیٹا کے ذخیرہ اور منتقلی کو کنٹرول کرتا ہے، وہی اس کھیل کی شروعات کو کنٹرول کرتا ہے۔

AI کے شعبے میں، "حقیقی رکاوٹیں" وقتاً فوقتاً تبدیل ہوتی رہتی ہیں۔ پہلے پیرامیٹرز کی تعداد، پھر تربیت کے ڈیٹا کا سائز، پھر ایلائنمنٹ ٹیکنالوجی، پھر انفرینس کی کارکردگی۔ اب، ویڈیو AI اگلی رکاوٹ کو ظاہر کر رہا ہے—کوئی رازانہ الگورتھم کی کامیابی نہیں، بلکہ ایک سرد اور بے رحم انفراسٹرکچر کا بِل۔

یہ اخراجات شروع سے ہی تمام لوگوں کے لیے قابلِ ادائیگی نہیں ہونے کا منصوبہ تھا۔

*ہیڈر تصویر کا ذریعہ: iMini AI