Binaling ng dating siyentipiko ng xAI ang mga nakatagong gastos sa pagtatrain ng Video AI

Inilah ng dating researcher ng xAI, Ethan He, ang totoong komposisyon ng gastos sa pag-train ng AI sa video: Kailangan ng 5 PB ng puwang upang i-store ang 1 bilyon na video, at ang buwanang gastos sa pag-iimbak ay hihigit sa $100,000; ang compressed feature data ay may sukat na katumbas ng orihinal na video, at kapag pinagsama, ang buwanang gastos sa pag-iimbak ay hihigit sa $200,000; ang gastos sa pagpapalabas at pagpapakilala ng data ay kahit pa mas mataas kaysa sa gastos sa pag-iimbak. Sa pangkabuuang pagtatantiya, ang isang data cost ay maaaring umabot sa ilang milyong dolyar bawat buwan, na hindi kasama ang GPU computing power. Ipinahiwatig ng may-akda na ang competitive advantage ng video model ay hindi nasa algorithm kundi sa infrastructure—ang hadlang na ito ay nagpapalalim ng kompetisyon sa isang maliit na bilang ng mga manlalaro lamang, at ang anyo ng industriya ay katulad ng mga pabrika ng semiconductor wafer.

May-akda at pinagmulan: Astronaut Monkey

Tungkol sa paggastos ng AI, mayroong iba't ibang nakakalulungkot na numero na umiikot sa industriya. Ginastos ng xAI ang higit sa $1 bilyon para buuin ang Colossus supercomputing cluster; ang buwanang taksil sa computing ng OpenAI ay sinasabing umabot sa ilang bilyon dolyar; ang perang natanggap ng Anthropic sa kanyang mga huling pagsasamantala ay sa paningin ng publiko ay halos diretso nang ipinapalit sa mga oras ng GPU.

Tungkol sa lahat ng pinag-uusapan ng mga tao ay ang hash rate. Ang GPU ay naging pangkalahatang puhunan para sukatin ang lakas ng isang AI company, at ang pinakakita-kita na numero sa bawat ulat tungkol sa pagsasamantala.

Ngunit noong recent, nakinig ako sa isang episode ng Latent Space podcast na may interbyu kay Ethan He, dating researcher ng xAI—noong sumali si Ethan sa xAI noong gitna ng 2025, kinaharap niya ang isang walang imprastruktura, walang data, at walang umiiral na modelo, at gamit ang tatlong buwan at isang maliit na koponan, nagbuo siya mula sa wala upang lumikha ng Grok Imagine video generation system, na nagtataglay ng antas na nasa unahan ng industriya noong panahong iyon.

Nang pag-usapan niya ang gastos sa pag-train ng malalaking video model, binigay niya ang isang set ng numero na nagbigay sa akin ng isang biglaang pag-unawa na maaaring mali ang mga kalkulasyon ng industriya.

Ang pag-iimbak lamang ng mga video at mga data ng katangian ay nagkakahalaga ng ilang milyong dolyar bawat buwan—hindi pa kasama ang gastos sa computing power.

Hidden costs sa bill

Ilang piso ang kailangan upang magsimula sa pag-train ng isang malaking video model mula sa zero hanggang sa isa? Mag-isip muna na ang iyong team ay may mining operation at walang hanggang GPU compute power. Kahit gaano pa karami, maaari pa ring mali ang iyong pagtatantiya sa dami ng gastos.

Kung ipapalakas mo ang isang world-class video generation model at kumuha ka ng 1 bilyong video mula sa internet, na may average na 5MB bawat isa—ito ay isang napakakonservatibong pagtatantiya. Para lamang dito, kailangan mo ng 5PB (petabyte) ng storage space. Ayon sa presyo ng AWS S3, ang 5PB na standard storage ay nagkakahalaga ng humigit-kumulang $100,000 bawat buwan.

Ngunit ito ay ang orihinal na video lang.

Bago ang pag-train ng video model, ang karaniwang praktika sa industriya ay gamitin ang VAE (Variational Autoencoder) upang i-compress ang video sa mga feature vector sa "latent space"—dahil ang isang video na i-explore bilang pixels ay maaaring magkaroon ng milyon-milyon na tokens, at walang anumang Transformer ang makakapag-handle nito; kailangan muna itong i-compress sa mga tuloy-tuloy na vector na maunawaan ng model.

Ang problema ay ang komprimitong data ng katangian ay may laki na katumbas ng orihinal na video, at kailangan din ito ng matagal na pag-iimbak, handa sa anumang pagkakataon.

Dalawang pinagsama, sampu't maraming PB, ang monthly storage fee ay hihigit sa $200,000.

At ang pinakamalaking pagkakamali: ang mga bayarin para sa pagpapalabas at pagpapasok ng data (egress/ingress).

Sinabi ni Ethan na ang gastos sa bandwidth para i-download ang isang bilyon na video mula sa internet ay mas mataas kaysa sa pag-iimbak ng mga video sa AWS. Sa bawat pag-train, ang data ay kailangang tarhain mula sa storage layer papunta sa compute layer. Ang pag-train ng video model ay hindi tulad ng language model na matapos na matapos—kailangan itong i-iterate, i-adjust ang mga parameter, at subukan ang iba’t ibang proporsyon ng data; bawat eksperimento ay nangangahulugan na ang buong dataset ay uulitin muli. Mas maraming eksperimento ang isinasagawa, mas maraming beses na marami ang gastos.

Sa kabuuan, ayon sa pagtataya ni Ethan, ang mga gastos sa data lamang ay umabot sa ilang milyong dolyar bawat buwan. Ang gastos sa GPU ay hindi pa kasama.

Hindi ko pa nakikita ang pagkalkula na ito sa anumang ulat tungkol sa industriya ng AI.

Hindi kayang tanggapin ang bandwidth fee

Kaya ba ng mga kumpanya tulad ng xAI na bumuo ng kanilang sariling Colossus data center ang nakakatipid ng malaking halaga sa pag-iimbak at bandwidth?

Ang sagot ni Ethan ay diretso: "Oo, napakaraming naligtas."

Sa likod ng pangungusap na ito, nakatago ang isang hindi madalas pag-usapan na struktural na lihim sa industriya ng AI na video.

Ang mga data para sa pagtatrain ng malalaking modelo sa wika ay teksto, na may mas maliit na laki, at pagkatapos ng pagtatrain, ang orihinal na data ay kumpletong natupad ang kanyang misyon—hindi mo kailangang paulit-ulit na hingin ang buong corpus para sa inference o fine-tuning. Ngunit iba ang mga data ng video: ang laki nito ay ilang ordeng-pamamaraan ng mas malaki kaysa sa teksto, at bawat eksperimento sa pagtatrain ay nangangailangan ng pagpapasa sa buong dataset.

Mas mabilis ang pag-iterate, mas mataas ang gastos sa paghahatid ng data; ngunit paulit-ulit na binanggit ni Ethan na ang bilis ng pag-iterate ay ang pinakamahalagang baryable sa pagbuo ng video model.

Nakakabuo ito ng isang nakapipigil na sitwasyon: kailangan mo ng mabilis na pag-iterate upang mapabuti ang kalidad ng modelo, ngunit ang mabilis na pag-iterate ay nangangahulugan ng madalas na paglipat ng data, at ang madalas na paglipat ng data ay magpapabigat sa iyong taksil sa public cloud.

Ang paglalakbay ni Ethan mismo ay isang patotoo. Kasali siya sa NVIDIA sa pagbuo ng Cosmos world model, at habang nagtatrabaho, naramdaman niya na ang video models ay may katulad na “law of scaling” tulad ng language models, at may malaking puwang para sa pagpapabuti. Ang pagpipilian na harapin niya noon, sa paningin ng panlabas, ay “kailangan ko ng higit pang GPU,” ngunit isang mahalagang pahayag na hindi niya sinabi nang direkta—kailangan niya ng isang lugar na hindi nakabatay sa AWS bill para i-store at i-transfer ang data. Ito ang isa sa pangunahing dahilan kung bakit pumunta siya sa xAI, at ibinigay ng Colossus sa kanya ang ganitong kapaligiran.

Paano kalkulahin ang gastos para sa mga koponan na walang sariling imprastruktura? Ang monthly na gastos sa data na ilang milyong dolyar, na idinagdag sa GPU computing power, ay nangangahulugan na kahit mayroon kang pinakamahusay na koponan sa algoritmo o kahit na nakakuha ka ng sapat na pondo, habang gumagamit ka pa ng public cloud, ikaw ay patuloy na lumalaban sa isang walang hanggan na bill laban sa mga kompetitor na may sariling data center.

Hindi ito isang hadlang na kayang laktawan ng isang startup na may mahusay na algorithm sa pamamagitan ng "pagtatagumpay sa teknolohiya".

Ang barrier ng video model ay hindi ang model

Ito ay nagpapalalo sa isang interesanteng pagkukumpara.

Sa larangan ng malalaking language models, ang pakikidigma sa pagitan ng “open-source vs closed-source” ay napakalakas, at ang pagkakaroon ng Llama series ay nagbigay-daan sa maraming maliitang koponan na magbuo ng kompetitibong produkto sa language models, kahit na pilitin ang OpenAI at Anthropic na patuloy na bawasan ang presyo ng kanilang API. Ngunit sa larangan ng video generation, ang sitwasyon ay lubos na iba: ang mga koponan na kayang magbuo nang tuluy-tuloy ng pinakamataas na kalidad na video models ay karamihan ay ang Sora, Veo, at Keling—mga koponan na may malaking suporta sa mga yaman—at walang isa sa kanila ay nagmula sa open-source community sa isang garage.

Iminumungkahi ng marami na ito ay dahil sa “pagkakaiba sa data at computing power.” Totoo ito, ngunit ipinakikita ng set ng numero na inilahad ni Ethan na mas malalim ang problema: ang gastos sa infrastruktura ng video AI, mula sa simula, ay nagpapalit ng mga hadlang sa kompetisyon sa isang maliit na bilang ng mga manlalaro lamang.

May kaunting pagkakatulad ito sa lohika ng industriya ng semiconductor. Mahirap sirain ang TSMC hindi lamang dahil mas magandang disenyo nito, kundi dahil kailangan ng isang bagong fab ng maraming dolyar na milyon sa unang gastos, at ang pader na ito mismo ang pinakamahusay na paligid. Ang paligid ng video AI ay ang mga dekada-PB na imprastruktura ng data at ang buwanang tumataas na taksil sa bandwidth.

Idinagdag ni Ethan ang isang mas malalim na konklusyon sa podcast: Ang "inteligensya" ng video model, karamihan nito ay galing sa likod na language model, hindi sa sariling video diffusion model.

Ang video diffusion model ay relatibong "bulol"; ito ay nagpapagawa ng imahe ayon lamang sa textual description, kung sinabi mong "isang pusa," gagawa ito ng isang pusa na nakaupo sa malinis na puting background, walang galaw—dahil hindi mo sinabi kung ano ang background o ano ang ginagawa ng pusa.

Ang nag-uunlad ng intensyon ng user at nagpapalawak sa “isang pusa” sa isang detalyadong deskripsyon ng larawan ay ang malaking modelo ng wika na gumagawa ng “pagrerepaso ng prompt.” Sabi ni Ethan, noong panahon ng Cosmos, gamit niya ang “masayang kambing” bilang pagsubok: nang walang pagrerepaso ng prompt, ang nilikhang imahe ay sobrang CGI at walang tekstura; ngunit pagkatapos ng pagrerepaso, ang resulta ay parang magkaibang mundo—at ang buong video diffusion model ay hindi nagbago nang anumang paraan.

Ibig sabihin nito, ang hindi lamang ang laki ng parameter ng video model ang nagdedesisyon kung gaano kalayo maaaring magtagal ng isang kumpanya sa larangan ng video AI, kundi kung kayang suportahan nito ang parehong infrastructure ng language model at video model, at gawin silang magkakasama nang epektibo.

Ito ay isang paligsahan sa komprehensibong lakas.

Ang susunod na battlefield, ay nakaayos na

Sige, ang industriya ay patuloy na naghahanap ng solusyon.

Ang mga direksyon tulad ng pag-rephrase ng prompt sa isang Agent-based na paraan, pagpapagana ng language model bilang isang "commander" na nag-uugnay sa maraming video generation tools, at paggamit ng tradisyonal na software tulad ng FFmpeg para sa mga intermediate环节—lahat ng ito ay may isang karaniwang lohika: ang paghihiwalay ng "cost ng inference ng language model" at "cost ng generation ng video diffusion model" sa iba't ibang antas, upang gawing mas tumpak ang bawat pagtawag sa video generation at mapabawasan ang walang kwentang computation at data movement.

Sobrang tiyak si Ethan sa direksyon ng "video Agent." Hinuhulaan niya na sa dulo ng taon ay magkakaroon ng isang turning point—kapag ang kalidad ng mga video na ginagawa ng Agent ay maaaring mag-stabilize sa antas na "maaaring gamitin para sa commercial advertising," tatawagin lamang ng mga kumpanya ang mga ito at magiging magkakaiba ang buong istruktura ng gastos.

Ngunit isang bagay ang hindi magbabago: Sino ang may kontrol sa pag-iimbak at paggalaw ng data, siya ang may kontrol sa simula ng laro.

Sa larangan ng AI, ang "totoong hadlang" ay nagpapalit-litaw sa bawat panahon. Una ay ang bilang ng parameter, pagkatapos ay ang laki ng training data, pagkatapos ay ang teknolohiya ng alignment, at pagkatapos ay ang efficiency ng inference. Ngayon, ang video AI ay nagpapakita ng susunod na hadlang—hindi isang maliwanag na pagbubuo ng algorithm, kundi isang malamig na talaan ng infrastraktura.

Ang utang na ito, mula sa simula ay hindi isinaplanong maabot ng lahat.

*Pinagkunan ng header image: iMini AI