Bekas Penyelidik xAI Mengungkap Kos Tersembunyi Latihan AI Video

Ethan He, penyelidik sebelumnya dari xAI, mengungkapkan komposisi sebenarnya kos latihan AI video: menyimpan 1 miliar video memerlukan ruang 5 PB, dengan kos penyimpanan bulanan melebihi US$100,000; data ciri yang telah dikompresikan mempunyai saiz yang sebanding dengan video asal, sehingga apabila digabungkan, kos penyimpanan bulanan melebihi US$200,000; kos masuk dan keluar data bahkan lebih tinggi daripada kos penyimpanan. Anggaran komprehensif menunjukkan kos data tunggal boleh mencapai jutaan dolar AS sebulan, belum termasuk kuasa GPU. Penulis menekankan bahawa keunggulan model video bukan terletak pada algoritma tetapi pada infrastruktur, dan rintangan ini akan membataskan persaingan kepada hanya beberapa pemain utama, dengan struktur industri yang serupa dengan kilang wafer semikonduktor.

Penulis artikel, sumber: Astronaut Monkey

Mengenai pengeluaran besar-besaran dalam AI, terdapat pelbagai nombor mengejutkan yang beredar di kalangan industri. xAI menghabiskan lebih daripada US$1 bilion untuk membina kumpulan superkomputer Colossus; bilangan kuasa komputasi bulanan OpenAI dikatakan mencapai ratusan juta dolar AS; dan dana yang diperoleh Anthropic dalam pendanaan terkini hampir dianggap setara dengan "jam GPU" di mata awam.

Yang dibincangkan oleh ramai orang hampir semuanya adalah kekuatan pengiraan. GPU menjadi mata wang am untuk mengukur kekuatan syarikat AI, dan juga nombor yang paling menonjol dalam setiap laporan pembiayaan.

Namun baru-baru ini, saya mendengar satu episod podcast Latent Space yang mewawancarai Ethan He, penyelidik sebelumnya di xAI—ketika Ethan menyertai xAI pada pertengahan 2025, beliau menghadapi keadaan kosong tanpa infrastruktur, tanpa data, dan tanpa model yang sedia ada, tetapi dengan menggunakan masa tiga bulan dan sebuah pasukan kecil, beliau membina sistem penghasilan video Grok Imagine dari sifar, mencapai tahap terkemuka di industri pada masa itu.

Semasa berbincang mengenai kos latihan model video berskala besar, beliau menyebut satu set nombor yang membuatkan saya sedar tiba-tiba bahawa industri ini mungkin telah mengira dengan salah sepanjang masa.

Hanya untuk menyimpan video dan data ciri-ciri ini, kosnya mencapai beberapa juta dolar sebulan—belum termasuk kos pengiraan.

Kos tersembunyi dalam bil

Berapakah kos yang diperlukan untuk memulakan latihan model video besar dari sifar ke satu? Anggapkan terlebih dahulu bahawa pasukan anda mempunyai sumber daya, dan kuasa GPU boleh digunakan sebebasnya. Walaupun begitu, anda mungkin masih meremehkan kos besar perkara ini.

Andaikan anda perlu melatih model penghasil video peringkat dunia dan mengambil 1 milyar video dari internet, setiap video purata 5MB—ini sudah merupakan anggaran yang agak konservatif. Hanya untuk perkara ini, anda memerlukan ruang penyimpanan 5PB (petabyte). Mengikut harga AWS S3, penyimpanan standard 5PB akan mengenakan kos sekitar USD100,000 sebulan.

Tetapi ini masih hanya video asal.

Sebelum melatih model video, amalan biasa dalam industri ialah menggunakan VAE (Variational Autoencoder) untuk mampat video menjadi vektor ciri dalam "ruang laten" — kerana satu video yang dipecahkan menjadi piksel mungkin mengandungi puluhan miliar token, yang tidak dapat ditangani oleh sebarang Transformer, dan mesti dimampatkan terlebih dahulu menjadi vektor berterusan yang boleh difahami oleh model.

Masalahnya, data ciri yang telah dimampatkan ini mempunyai saiz yang sebanding dengan video asal, dan sama-sama memerlukan penyimpanan jangka panjang serta sedia sedia untuk digunakan.

Dua faktor ini digabungkan, puluhan PB, cukai penyimpanan bulanan melebihi US$200,000.

Kemudian adalah perkara yang paling mengejutkan: caj masuk/keluar data.

Ethan mengatakan, kos bandwidth untuk memuat turun 1 milyar video dari internet di AWS lebih mahal daripada menyimpan video-video tersebut. Setiap kali melatih, data harus ditarik dari lapisan penyimpanan ke lapisan pengiraan untuk diproses. Latihan model video tidak seperti model bahasa yang selesai sekali latihan—ia perlu diiterasi, disesuaikan parameter, dan diuji dengan nisbah data yang berbeza; setiap eksperimen bermaksud memproses keseluruhan data semula. Semakin banyak eksperimen yang dijalankan, semakin banyak jumlah ini berlipat ganda.

Secara keseluruhan, anggaran Ethan ialah, hanya bagi bahagian data, ia akan memerlukan beberapa juta dolar AS setiap bulan. Kos GPU belum lagi dimasukkan.

Perkiraan ini, saya tidak pernah lihat laporan industri AI mana pun mengira secara terperinci.

Bayaran bandwidth yang tidak mampu ditanggung

Apakah syarikat seperti xAI yang membina pusat data Colossus sendiri telah menghemat banyak wang dalam penyimpanan dan bandwidth?

Jawapan Ethan sangat terus terang: "Tentu, menghemat banyak."

Di sebalik kalimat ini, tersembunyi rahasia struktural dalam industri AI video yang tidak banyak dibincangkan.

Data latihan model bahasa besar adalah teks, yang relatif ringan, dan setelah latihan selesai, data asal hampir selesai menjalankan fungsinya—anda tidak perlu mengambil semula keseluruhan korpus secara berulang untuk inferens atau penyesuaian halus. Namun, data video berbeza sepenuhnya: ukurannya beberapa peringkat lebih besar daripada teks, dan setiap eksperimen latihan memerlukan keseluruhan data dilalui sepenuhnya.

Semakin pantas iterasi, semakin tinggi kos pengangkutan data; dan Ethan terus menekankan bahawa kelajuan iterasi adalah pemboleh ubah paling penting dalam pembangunan model video.

Ini menciptakan situasi saling terkait: anda memerlukan iterasi pantas untuk meningkatkan kualiti model, tetapi iterasi pantas bermaksud sering memindahkan data, dan pemindahan data yang kerap akan membebani bil anda di awan awam.

Jalan hidup Ethan sendiri merupakan catatan kaki. Beliau terlibat dalam membina model dunia Cosmos di NVIDIA, dan semasa melakukannya, beliau sedar bahawa model video mempunyai "hukum skala" yang serupa dengan model bahasa, dengan ruang peningkatan yang besar. Pilihan yang dihadapinya pada masa itu, dari luar, nampak seperti "Saya memerlukan lebih banyak GPU", tetapi satu pernyataan penting yang tidak beliau nyatakan ialah—beliau memerlukan tempat yang tidak mengira kos berdasarkan bil AWS untuk menyimpan dan memindahkan data. Ini juga merupakan salah satu sebab utama beliau pergi ke xAI, dan Colossus memberikan persekitaran itu kepadanya.

Bagaimana perhitungan ini untuk pasukan yang tidak membangun infrastruktur sendiri? Kos data berjuta-juta dolar sebulan, ditambah dengan kekuatan pengiraan GPU, bermakna walaupun anda mempunyai pasukan algoritma terbaik atau telah mengumpul dana yang mencukupi, selagi anda masih menggunakan awan awam, anda sedang berlumba dengan bil tanpa dasar lawan anda yang mempunyai pusat data sendiri.

Tahap ini bukanlah sesuatu yang boleh dilalui oleh sebuah syarikat rintisan dengan algoritma cemerlang hanya dengan «keunggulan teknologi».

Bukti perlindungan model video bukanlah model

Ini mengingatkan saya pada satu perbandingan yang menarik.

Di bidang model bahasa besar, persaingan antara "sumber terbuka vs sumber tertutup" sangat sengit; kehadiran siri Llama membolehkan banyak pasukan kecil menghasilkan produk yang kompetitif dalam model bahasa, bahkan memaksa OpenAI dan Anthropic terus menurunkan harga API. Namun, di bidang penghasilan video, corak yang kita lihat sangat berbeza: hanya pasukan yang disokong oleh sumber besar seperti Sora, Veo, dan KeLing yang mampu menghasilkan model video teratas secara konsisten, dan tiada satu pun yang muncul daripada komuniti sumber terbuka di garaj.

Banyak orang menyalahkan ini sebagai "kesenjangan data dan kekuatan pengiraan." Ini memang betul, tetapi nombor-nombor yang diungkapkan oleh Ethan memberitahu kita bahawa masalahnya lebih mendalam: kos infrastruktur AI video, sejak awal lagi, telah mengunci had persaingan pada tahap yang hanya boleh dicapai oleh sedikit pemain sahaja.

Ini agak serupa dengan logik industri semikonduktor. TSMC sukar digoyahkan bukan hanya kerana mereka mempunyai reka bentuk yang lebih baik, tetapi kerana pembinaan sebuah pabrik wafer baharu memerlukan pengeluaran awal berjumlah berbilion dolar AS, dan rintangan ini sendiri merupakan parit pertahanan terbaik. Parit pertahanan bagi AI video ialah infrastruktur data berpuluh-puluh PB dan bil lebar pita yang dihasilkan setiap bulan.

Ethan juga menambahkan kesimpulan yang lebih mendalam dalam podcast tersebut: "Kecerdasan" model video sebagian besar sebenarnya berasal dari model bahasa di belakangnya, bukan dari model penyebaran video itu sendiri.

Model penyebaran video agak 'bodoh', ia hanya menghasilkan gambar mengikut huraian teks secara harfiah—jika huraian menulis "seekor kucing", ia akan menghasilkan seekor kucing, berdiri diam di hadapan latar belakang putih polos—kerana anda tidak memberitahunya apa latar belakangnya atau apa yang dilakukan kucing itu.

Yang benar-benar memahami niat pengguna dan mengembangkan "seekor kucing" menjadi deskripsi bahasa sinematik yang halus adalah model bahasa besar di belakang yang melakukan "penulisan semula petunjuk". Ethan mengatakan, pada masa Cosmos, dia pernah menguji dengan "domba yang gembira": tanpa penulisan semula petunjuk, gambar yang dihasilkan sangat CGI dan tidak berasa; setelah ditambahkan penulisan semula, efeknya berbeza jauh—sedangkan model penyebaran video itu sendiri tidak mengalami perubahan apa-apa.

Ini bermakna, yang menentukan sejauh mana sebuah syarikat boleh bergerak dalam bidang AI video bukan sahaja saiz parameter model video, tetapi juga keupayaan untuk menyokong infrastruktur model bahasa dan model video secara serentak, serta memastikan kedua-duanya bekerjasama secara efektif.

Ini adalah pertandingan yang menguji kekuatan fizikal keseluruhan.

Medan pertempuran seterusnya, sudah ditetapkan

Tentu, industri ini juga sedang mencari jalan keluar.

Pendekatan bersama bagi penulisan semula petunjuk menjadi agent, menjadikan model bahasa bertindak seperti “komander” yang mengatur pelbagai alat penghasilan video, dan menggunakan perisian tradisional seperti FFmpeg untuk mengendalikan peringkat pertengahan ialah: mengira kos inferens model bahasa dan kos penghasilan model penyebaran video secara berlapis, supaya setiap panggilan penghasilan video menjadi lebih tepat, mengurangkan pengiraan dan pemindahan data yang tidak perlu.

Ethan sangat yakin tentang arah perkembangan "Video Agent". Beliau meramalkan bahawa pada akhir tahun ini akan berlaku satu titik balik—apabila kualiti video yang dihasilkan oleh Agent mampu mencapai tahap "boleh digunakan untuk iklan komersial" secara konsisten, barulah syarikat benar-benar bersedia membayarnya, dan struktur kos keseluruhan akan berubah seterusnya.

Tetapi satu perkara yang tidak berubah: siapa yang menguasai penyimpanan dan pergerakan data, dialah yang menguasai permulaan permainan ini.

Di pasaran AI, "dinding sebenar" berpindah secara berkala. Bermula dengan jumlah parameter, kemudian skala data latihan, kemudian teknik penyesuaian, kemudian kecekapan inferens. Kini, AI video sedang mengungkap dinding seterusnya—bukan satu terobosan algoritma misterius, tetapi satu bil infrastruktur yang sejuk.

This account was never meant to be affordable for everyone.

*Sumber gambar utama: iMini AI