एक्सएआई के पूर्व शोधकर्ता ने वीडियो एआई प्रशिक्षण की छिपी हुई लागतों को उजागर किया

एक्सएआई के पूर्व शोधकर्ता एथन ही ने वीडियो एआई प्रशिक्षण की वास्तविक लागत संरचना का खुलासा किया: 1 बिलियन वीडियो स्टोर करने के लिए 5 पेटाबाइट स्थान की आवश्यकता होती है, जिसका मासिक स्टोरेज शुल्क 100,000 डॉलर से अधिक है; संपीड़ित फीचर डेटा का आकार मूल वीडियो के समान है, जिससे मिलाकर मासिक स्टोरेज शुल्क 200,000 डॉलर से अधिक हो जाता है; डेटा के आने-जाने की लागत स्टोरेज शुल्क से भी अधिक है। समग्र अनुमान के अनुसार, प्रति माह केवल डेटा की लागत कई मिलियन डॉलर हो सकती है, जिसमें GPU की कैलकुलेशन लागत शामिल नहीं है। लेखक ने बताया कि वीडियो मॉडल की प्रतिस्पर्धा की सीमा एल्गोरिदम में नहीं, बल्कि बुनियादी ढांचे में है, और यह बाधा प्रतिस्पर्धा को केवल कुछ ही प्रतिभागियों तक सीमित कर देती है, जिसका उद्योग का स्वरूप अर्धचालक वेफर प्लांट के समान है।

लेखक, स्रोत: एस्ट्रोएपी

AI के खर्च के बारे में, उद्योग में विभिन्न चौंकाने वाले आंकड़े फैले हुए हैं। xAI ने Colossus सुपरकंप्यूटिंग क्लस्टर बनाने के लिए 10 अरब डॉलर से अधिक खर्च किए हैं; OpenAI का मासिक कंप्यूटिंग बिल कहा जाता है कि कई अरब डॉलर तक पहुँच गया है; Anthropic द्वारा हाल की फंडिंग राउंड में प्राप्त धन, जनता की नजर में लगभग सीधे "GPU घंटे" के बराबर हो गया है।

लोग लगभग सब कुछ कैलकुलेशन पावर के बारे में बात कर रहे हैं। GPU एक AI कंपनी की क्षमता के मापदंड के रूप में सामान्य मुद्रा बन गया है, और प्रत्येक फंडिंग रिपोर्ट में सबसे उल्लेखनीय संख्या है।

लेकिन हाल ही में, मैंने Latent Space पॉडकास्ट का एक एपिसोड सुना, जिसमें xAI के पूर्व शोधकर्ता ईथन ही का साक्षात्कार था—जब ईथन ने 2025 के मध्य में xAI में प्रवेश किया, तो उनके सामने कोई बुनियादी ढांचा, कोई डेटा या कोई तैयार मॉडल नहीं था, लेकिन उन्होंने तीन महीनों में एक छोटी टीम के साथ Grok Imagine वीडियो जनरेशन सिस्टम को शून्य से बना दिया, जो उस समय उद्योग के सर्वश्रेष्ठ स्तर पर पहुँच गया।

जब उन्होंने बड़े वीडियो मॉडल के प्रशिक्षण लागत के बारे में कुछ आंकड़े दिए, तो मुझे अचानक एहसास हुआ कि शायद इस उद्योग ने हमेशा से गलत गणना की है।

इन वीडियो और फीचर डेटा को स्टोर करने के लिए हर महीने केवल ही कुछ मिलियन डॉलर लगते हैं—यह गणना शक्ति लागत को शामिल नहीं करती।

बिल पर छिपे हुए लागत

शून्य से एक तक, एक वीडियो बड़ा मॉडल ट्रेन करने में कितना खर्च आएगा? मान लीजिए कि आपके पास टीम के लिए माइन है, GPU कैलकुलेशन की क्षमता असीमित है। फिर भी, आप इसकी विशाल लागत को कम ही अंदाज़ा लगा रहे होंगे।

मान लीजिए आप एक विश्व स्तरीय वीडियो जनरेशन मॉडल को प्रशिक्षित करना चाहते हैं और आपने ऑनलाइन 1 बिलियन वीडियो डाउनलोड किए हैं, जिनमें से प्रत्येक का औसत आकार 5 मेगाबाइट है—यह पहले से ही काफी संयमित अनुमान है। केवल इसके लिए ही आपको 5 पेटाबाइट (PB) स्टोरेज स्पेस की आवश्यकता होगी। AWS S3 की कीमतों के अनुसार, 5 PB स्टैंडर्ड स्टोरेज के लिए प्रति महीने लगभग 100,000 डॉलर का खर्च होगा।

लेकिन यह केवल मूल वीडियो है।

वीडियो मॉडल को ट्रेन करने से पहले, उद्योग में सामान्य प्रथा यह है कि VAE (वैरिएशनल ऑटोएनकोडर) का उपयोग करके वीडियो को 'लेटेंट स्पेस' में फीचर वेक्टर में संपीड़ित किया जाए—क्योंकि एक वीडियो को पिक्सेल में फैलाने पर, लगभग दस अरब टोकन हो सकते हैं, जिन्हें कोई भी Transformer संसाधित नहीं कर सकता, इसलिए इसे मॉडल द्वारा समझे जा सकने वाले सतत वेक्टर में पहले संपीड़ित करना आवश्यक है।

समस्या यह है कि इस संपीड़ित विशेषता डेटा का आकार मूल वीडियो के बराबर है, और इसे लंबे समय तक संग्रहित किया जाना चाहिए और तैयार रखा जाना चाहिए।

दोनों को जोड़कर, दहलीज पर PB, मासिक स्टोरेज शुल्क 200,000 डॉलर से अधिक है।

फिर सबसे अप्रत्याशित आइटम: डेटा आउटग्रेस/इनग्रेस शुल्क।

एथन कहते हैं कि AWS पर 1 बिलियन वीडियो डाउनलोड करने की बैंडविड्थ लागत, इन वीडियो को स्टोर करने की लागत से अधिक है। प्रत्येक प्रशिक्षण के लिए, डेटा को स्टोरेज लेयर से कॉम्प्यूटेशन लेयर तक लाया जाता है और फिर से चलाया जाता है। वीडियो मॉडल का प्रशिक्षण भाषा मॉडल की तरह नहीं होता जहां एक बार प्रशिक्षण के बाद समाप्त हो जाता है—इसे बार-बार दोहराना, पैरामीटर ट्यून करना, और अलग-अलग डेटा अनुपातों का परीक्षण करना पड़ता है, और प्रत्येक प्रयोग का मतलब है कि पूरे डेटा सेट को फिर से पार किया जाए। जितने अधिक प्रयोग किए जाते हैं, उतनी ही अधिक लागत बढ़ती है।

समग्र रूप से, एथन के अनुमान के अनुसार, केवल डेटा के लिए हर महीने कई मिलियन डॉलर लगेंगे। GPU की लागत अभी तक शामिल नहीं की गई है।

मैंने कभी भी AI उद्योग की किसी रिपोर्ट में इस खाते की विस्तार से गणना नहीं देखी है।

असहनीय बैंडविड्थ शुल्क

क्या xAI जैसी कंपनियाँ, जो अपने खुद के Colossus डेटासेंटर बनाती हैं, स्टोरेज और बैंडविड्थ पर काफी पैसा बचा रही हैं?

एथन का जवाब सीधा था: "हां, काफी बचत हुई।"

इस वाक्य के पीछे, वीडियो AI उद्योग का एक अपेक्षाकृत कम चर्चित संरचनात्मक रहस्य छिपा हुआ है।

भाषा मॉडल के प्रशिक्षण डेटा टेक्स्ट होते हैं, जो अपेक्षाकृत हल्के होते हैं, और प्रशिक्षण पूरा होने के बाद, मूल डेटा का मुख्य कार्य समाप्त हो जाता है—आपको निष्कर्ष निकालने या सूक्ष्म समायोजन के लिए बार-बार पूर्ण कॉर्पस डाउनलोड करने की आवश्यकता नहीं होती। लेकिन वीडियो डेटा पूरी तरह अलग है: इसका आकार टेक्स्ट की तुलना में कई क्रम का होता है, और प्रत्येक प्रशिक्षण प्रयोग में पूर्ण डेटा को पूरी तरह से पार करना पड़ता है।

जितना तेज़ इटरेशन होगा, उतना ही डेटा ट्रांसफर की लागत बढ़ेगी; और एथन ने बार-बार जोर देकर कहा है कि इटरेशन स्पीड, वीडियो मॉडल रिसर्च में सबसे महत्वपूर्ण चर है।

यह एक आपस में फंसी हुई स्थिति बनाता है: आपको मॉडल की गुणवत्ता में सुधार के लिए त्वरित इटरेशन की आवश्यकता है, लेकिन त्वरित इटरेशन का अर्थ है डेटा की बार-बार स्थानांतरण, और सार्वजनिक बादल पर डेटा की बार-बार स्थानांतरण आपके बिल को दबा देगी।

एथन का स्वयं का रास्ता एक टिप्पणी है। उन्होंने NVIDIA में Cosmos वर्ल्ड मॉडल बनाने में भाग लिया, और जब वे इस पर काम कर रहे थे, तो उन्हें एहसास हुआ कि वीडियो मॉडल में भी भाषा मॉडल की तरह 'स्केलिंग लॉ' मौजूद है, और इसमें बहुत बड़ी सुधार की संभावना है। उस समय उनके सामने जो विकल्प था, वह सतही रूप से 'मुझे अधिक GPU की आवश्यकता है' लगता था, लेकिन उनके मन में एक और महत्वपूर्ण बात थी जिसे उन्होंने स्पष्ट नहीं किया—उन्हें डेटा को स्टोर और ट्रांसफर करने के लिए एक ऐसी जगह की आवश्यकता थी, जहां AWS बिल के हिसाब से पैसे का भुगतान न करना पड़े। यही कारण है कि वे xAI में गए, और Colossus ने उन्हें वह परिवेश प्रदान किया।

अपनी निजी बुनियादी ढांचे के बिना टीम के लिए यह खाता कैसे बनता है? हर महीने कई मिलियन डॉलर की डेटा लागत, जो GPU कैपेसिटी पर जुड़ जाती है, का मतलब है कि भले ही आपके पास शीर्ष स्तरीय एल्गोरिदम टीम हो, भले ही आपको पर्याप्त निवेश मिल गया हो, अगर आप अभी भी पब्लिक क्लाउड का उपयोग कर रहे हैं, तो आप अपने प्रतिद्वंद्वी के स्वयं के डेटासेंटर के साथ एक अनंत बिल के साथ प्रतिस्पर्धा कर रहे हैं।

यह बाधा, एक उत्कृष्ट एल्गोरिदम वाली स्टार्टअप कंपनी द्वारा 'तकनीक से विजय' प्राप्त करने के लिए पार नहीं की जा सकती।

वीडियो मॉडल की रक्षा नहीं है मॉडल

यह मुझे एक दिलचस्प तुलना की याद दिलाता है।

भाषा मॉडल के क्षेत्र में, "ओपन सोर्स बनाम प्राइवेट सोर्स" की प्रतिस्पर्धा बहुत तीव्र है, और Llama श्रृंखला के आगमन से कई छोटी टीमें भाषा मॉडल पर प्रतिस्पर्धी उत्पाद बनाने में सक्षम हो गई हैं, जिससे OpenAI और Anthropic को API मूल्यों को लगातार कम करने के लिए मजबूर किया गया है। हालाँकि, वीडियो जनरेशन के क्षेत्र में, हम एक संपूर्ण रूपांतरित दृश्य देख रहे हैं: सतत रूप से शीर्ष वीडियो मॉडल बनाने में सक्षम, लगभग केवल Sora, Veo, Keling जैसी विशाल संसाधनों से समर्थित टीमें हैं, और कोई भी टीम ओपन सोर्स समुदाय के माध्यम से गैराज में नहीं बनी है।

बहुत से लोग इसे "डेटा और कैलकुलेशन क्षमता के अंतर" के रूप में देखते हैं। यह निश्चित रूप से सही है, लेकिन एथन द्वारा प्रस्तुत यह संख्याएँ हमें बताती हैं कि समस्या इससे गहरी है: वीडियो AI की बुनियादी ढांचे की लागत, शुरुआत से ही प्रतिस्पर्धा की सीमा को कुछ ही प्लेयर्स के स्तर पर स्थिर कर देती है।

यह अर्धचालक उद्योग के तर्क के समान है। टाइवेन के स्थान को बदलना केवल इसलिए कठिन है क्योंकि उनके पास बेहतर डिज़ाइन है, बल्कि इसलिए भी क्योंकि एक नया वेफर फैक्ट्री बनाने के लिए कई सौ अरब डॉलर का प्रारंभिक निवेश आवश्यक है, जो स्वयं सबसे अच्छी रक्षा है। वीडियो AI की रक्षा, दहाएँ PB का डेटा बुनियादी ढांचा और मासिक रूप से उत्पन्न बैंडविड्थ बिल है।

एथन ने पॉडकास्ट में एक और गहरी निष्कर्ष भी जोड़ी: वीडियो मॉडल का "बुद्धिमत्ता" अधिकांशतः वीडियो डिफ्यूजन मॉडल के बजाय पीछे के भाषा मॉडल से आती है।

वीडियो डिफ्यूजन मॉडल अपेक्षाकृत "मूर्ख" होते हैं, वे केवल टेक्स्ट वर्णन के अनुसार चित्र उत्पन्न करते हैं; यदि आप "एक बिल्ली" लिखते हैं, तो वह एक बिल्ली बनाता है, जो शुद्ध सफेद पृष्ठभूमि के सामने अचल रहती है—क्योंकि आपने उसे नहीं बताया कि पृष्ठभूमि क्या है या बिल्ली क्या कर रही है।

वास्तविक रूप से उपयोगकर्ता के इरादे को समझकर, "एक बिल्ली" को एक बारीकी से विस्तारित शॉट भाषा वर्णन में बदलने वाला, "प्रॉम्प्ट पुनर्लेखन" करने वाला बड़ा भाषा मॉडल है। एथन कहते हैं, कॉस्मोस के समय में, उन्होंने "खुश भेड़" का परीक्षण किया: प्रॉम्प्ट पुनर्लेखन के बिना, जनरेट किया गया दृश्य अत्यधिक CGI और बिल्कुल बेकार था; पुनर्लेखन के साथ, परिणाम पूरी तरह से अलग था—और पूरा वीडियो डिफ्यूजन मॉडल अपरिवर्तित रहा।

इसका मतलब है कि एक कंपनी के वीडियो AI क्षेत्र में कितना आगे जाने का निर्णय केवल वीडियो मॉडल के पैरामीटर साइज़ से नहीं, बल्कि भाषा मॉडल और वीडियो मॉडल दोनों बुनियादी ढांचों को एक साथ संभालने और उन्हें प्रभावी ढंग से समन्वयित करने की क्षमता से होता है।

यह एक समग्र शारीरिक शक्ति की प्रतियोगिता है।

अगला मैदान पहले से ही तय कर दिया गया है

Of course, the industry is also exploring ways forward.

प्रॉम्प्ट को एजेंट-आधारित बनाना, भाषा मॉडल को एक "कमांडर" की तरह कई वीडियो जनरेशन टूल्स को संचालित करने के लिए उपयोग करना, और FFmpeg जैसे पारंपरिक सॉफ़्टवेयर का उपयोग मध्यवर्ती चरणों के लिए करना—इन सभी दिशाओं की सामान्य तर्कशक्ति यह है कि "भाषा मॉडल की निष्कर्षण लागत" और "वीडियो डिफ्यूज़न मॉडल की उत्पादन लागत" को स्तरबद्ध ढंग से गणना करें, ताकि प्रत्येक वीडियो जनरेशन कॉल को अधिक सटीक बनाया जा सके और अनावश्यक गणना और डेटा स्थानांतरण कम हो सके।

एथन "वीडियो एजेंट" की दिशा के बारे में काफी आत्मविश्वासी हैं। वह भविष्यवाणी करते हैं कि इस साल के अंत तक एक मोड़ आएगा—जब एजेंट द्वारा उत्पादित वीडियो की गुणवत्ता स्थिर रूप से "व्यावसायिक विज्ञापनों के लिए उपयुक्त" स्तर तक पहुंच जाएगी, तभी उद्यम सचमुच इसके लिए भुगतान करने को तैयार होंगे, और समग्र लागत संरचना भी इसके साथ बदलेगी।

लेकिन एक बात अपरिवर्तित रहेगी: जो व्यक्ति डेटा के संग्रहण और प्रवाह पर नियंत्रण रखता है, वही इस खेल की शुरुआत पर कब्जा करता है।

AI इस प्रतियोगिता में, "वास्तविक बाधाएँ" नियमित अंतराल पर बदलती रहती हैं। पहले पैरामीटर की संख्या, फिर ट्रेनिंग डेटा का आकार, फिर अलाइनमेंट तकनीक, फिर इन्फरेंस दक्षता। अब, वीडियो AI अगली बाधा को उजागर कर रहा है—कोई रहस्यमयी एल्गोरिदम क्रांति नहीं, बल्कि एक ठंडी, बेजान बुनियादी ढांचा बिल।

This account was never meant to be affordable for everyone.

*हेड इमेज स्रोत: iMini AI