Eks Peneliti xAI Mengungkap Biaya Tersembunyi Pelatihan AI Video

Ethan He, mantan peneliti xAI, mengungkap komposisi biaya sebenarnya dalam pelatihan AI video: menyimpan 1 miliar video memerlukan ruang 5 PB, dengan biaya penyimpanan bulanan melebihi $100.000; data fitur yang telah dikompresi memiliki ukuran yang setara dengan video asli, sehingga setelah digabungkan, biaya penyimpanan bulanan melebihi $200.000; biaya masuk dan keluar data bahkan lebih tinggi daripada biaya penyimpanan. Diperkirakan secara keseluruhan, biaya per data bulanan bisa mencapai jutaan dolar, belum termasuk daya komputasi GPU. Penulis menunjukkan bahwa keunggulan kompetitif model video bukan terletak pada algoritma, melainkan pada infrastruktur; ambang batas ini membatasi persaingan hanya pada sejumlah sangat kecil pemain, sehingga struktur industri mirip dengan pabrik wafer semikonduktor.

Penulis artikel, sumber: Astronaut Monkey

Tentang pemborosan uang dalam AI, beredar berbagai angka yang mengejutkan di industri. xAI menghabiskan lebih dari 1 miliar dolar AS untuk membangun klaster superkomputer Colossus; tagihan kekuatan komputasi bulanan OpenAI dikabarkan mencapai ratusan juta dolar AS; dana yang diperoleh Anthropic dalam putaran pendanaan terbaru hampir dianggap setara dengan "jam GPU" di mata publik.

Yang dibahas hampir semua orang adalah hashrate. GPU menjadi mata uang umum untuk mengukur kekuatan perusahaan AI, serta angka paling mencolok di setiap laporan pendanaan.

Namun baru-baru ini, saya mendengarkan sebuah episode podcast Latent Space yang mewawancarai Ethan He, mantan peneliti xAI—ketika Ethan bergabung dengan xAI pada pertengahan 2025, ia menghadapi keadaan kosong tanpa infrastruktur, tanpa data, dan tanpa model siap pakai, lalu dalam waktu tiga bulan bersama tim kecil, ia membangun sistem generasi video Grok Imagine dari nol, mencapai standar terdepan di industri saat itu.

Saat membahas biaya pelatihan model video skala besar, ia menyebutkan sejumlah angka yang membuat saya tiba-tiba menyadari bahwa industri ini mungkin telah salah menghitung biayanya.

Hanya untuk menyimpan video dan data fitur ini, biaya bulanannya mencapai beberapa juta dolar—belum termasuk biaya komputasi.

Biaya tersembunyi pada tagihan

Berapa biaya yang diperlukan untuk memulai pelatihan model video besar dari nol hingga satu? Misalkan tim Anda memiliki akses tak terbatas ke GPU. Meski demikian, Anda mungkin tetap meremehkan biaya besar yang terlibat dalam hal ini.

Misalkan Anda ingin melatih model generasi video tingkat dunia dan mengunduh 1 miliar video dari internet, dengan rata-rata setiap video berukuran 5 MB—ini sudah merupakan perkiraan yang cukup konservatif. Hanya untuk hal ini, Anda membutuhkan ruang penyimpanan sebesar 5 PB (petabyte). Berdasarkan harga AWS S3, penyimpanan standar 5 PB akan biayanya sekitar $100.000 per bulan.

Tetapi ini baru video aslinya.

Sebelum melatih model video, praktik umum di industri adalah menggunakan VAE (Variational Autoencoder) untuk mengompres video menjadi vektor fitur dalam 'ruang laten'—karena satu video yang diuraikan menjadi piksel bisa memiliki miliaran token, yang tidak dapat ditangani oleh Transformer apa pun, sehingga harus dikompres terlebih dahulu menjadi vektor kontinu yang dapat dipahami model.

Masalahnya, data fitur yang telah dikompresi ini memiliki ukuran yang setara dengan video asli, sehingga tetap memerlukan penyimpanan jangka panjang dan siap digunakan kapan saja.

Dua hal yang ditumpuk, puluhan PB, biaya penyimpanan bulanan melebihi 200.000 dolar AS.

Kemudian yang paling mengejutkan: biaya masuk/keluar data.

Ethan mengatakan, biaya bandwidth untuk mengunduh satu miliar video dari internet di AWS lebih mahal daripada menyimpan video-video tersebut. Setiap pelatihan, data harus ditarik dari lapisan penyimpanan ke lapisan komputasi untuk dijalankan. Pelatihan model video tidak seperti model bahasa yang selesai setelah dilatih—perlu iterasi, penyesuaian parameter, dan pengujian berbagai rasio data; setiap eksperimen berarti melewati seluruh data lagi. Semakin banyak eksperimen yang dijalankan, semakin besar biaya ini akan dikalikan.

Secara keseluruhan, perkiraan Ethan menyatakan bahwa hanya untuk data saja, biayanya mencapai beberapa juta dolar per bulan. Biaya GPU belum dimasukkan.

Akun ini, saya belum pernah melihat laporan industri AI mana pun yang menghitungnya secara rinci.

Biaya bandwidth yang tak tertahankan

Apakah perusahaan seperti xAI yang membangun pusat data Colossus sendiri menghemat banyak biaya dalam penyimpanan dan bandwidth?

Jawaban Ethan sangat langsung: "Tentu, menghemat banyak."

Di balik kalimat ini, tersembunyi rahasia struktural yang jarang dibahas dalam industri AI video.

Data pelatihan model bahasa besar adalah teks, ukurannya relatif ringan, dan setelah pelatihan selesai, data aslinya pada dasarnya telah menyelesaikan tugasnya—Anda tidak perlu mengambil ulang seluruh korpus secara berkala untuk inferensi atau fine-tuning. Namun, data video sama sekali berbeda: ukurannya beberapa orde lebih besar daripada teks, dan setiap eksperimen pelatihan memerlukan pemrosesan lengkap terhadap seluruh data.

Semakin cepat iterasi, semakin tinggi biaya pemindahan data; sementara Ethan terus menekankan bahwa kecepatan iterasi justru merupakan variabel paling krusial dalam pengembangan model video.

Ini menciptakan lingkaran setan yang saling terkait: Anda memerlukan iterasi cepat untuk meningkatkan kualitas model, tetapi iterasi cepat berarti sering memindahkan data, dan sering memindahkan data akan membuat tagihan Anda di cloud publik melonjak.

Jejak Ethan sendiri adalah buktinya. Ia berkontribusi dalam membangun model dunia Cosmos di NVIDIA, dan secara bertahap menyadari bahwa model video memiliki "hukum skala" yang serupa dengan model bahasa, serta masih memiliki ruang peningkatan yang besar. Pilihan yang dihadapinya pada saat itu tampaknya adalah "Saya membutuhkan lebih banyak GPU," tetapi kalimat penting lain yang tidak ia ucapkan secara eksplisit—ia membutuhkan tempat yang tidak menghitung biaya berdasarkan tagihan AWS untuk menyimpan dan memindahkan data. Ini juga menjadi salah satu alasan utama ia bergabung dengan xAI, dan Colossus memberinya lingkungan tersebut.

Bagi tim yang tidak memiliki infrastruktur sendiri, bagaimana perhitungan biayanya? Biaya data beberapa juta dolar per bulan, ditambah dengan daya komputasi GPU, berarti meskipun Anda memiliki tim algoritma terbaik dan telah mengumpulkan dana yang cukup, selama Anda masih menggunakan cloud publik, Anda sedang berlomba melawan fasilitas mandiri lawan dengan tagihan tak berujung.

Tingkat ini bukanlah sesuatu yang bisa dilewati oleh perusahaan rintisan dengan algoritma unggul hanya dengan "keunggulan teknis".

The moat of video models is not the model

Ini mengingatkan saya pada perbandingan yang menarik.

Di bidang model bahasa besar, persaingan antara "open-source vs closed-source" sangat ketat; munculnya seri Llama memungkinkan banyak tim kecil menghasilkan produk yang kompetitif dalam model bahasa, bahkan memaksa OpenAI dan Anthropic terus menurunkan harga API. Namun, di bidang generasi video, pola yang kita lihat sangat berbeda: hanya tim-tim dengan sumber daya besar seperti Sora, Veo, dan Keling yang mampu terus menghasilkan model video teratas, tanpa satu pun yang muncul dari komunitas open-source di garasi.

Banyak orang mengatribusikan ini pada "kesenjangan data dan daya komputasi." Ini memang benar, tetapi angka-angka yang diungkapkan oleh Ethan memberi tahu kita bahwa masalahnya lebih dalam: biaya infrastruktur AI video sejak awal telah membatasi ambang persaingan pada tingkat yang hanya dapat dijangkau oleh sejumlah kecil pemain.

Ini memiliki beberapa kesamaan dengan logika industri semikonduktor. TSMC sulit digoyahkan bukan hanya karena desainnya yang lebih baik, tetapi terutama karena membangun pabrik wafer baru memerlukan investasi awal ratusan miliar dolar AS—hambatan ini sendiri merupakan parit pertahanan terbaik. Parit pertahanan untuk AI video adalah infrastruktur data puluhan PB dan tagihan bandwidth bulanan yang terus berputar.

Ethan juga menambahkan kesimpulan yang lebih dalam dalam podcast: "Kecerdasan" model video sebagian besar sebenarnya berasal dari model bahasa di baliknya, bukan dari model difusi video itu sendiri.

Model video diffusion relatif 'bodoh', ia hanya menghasilkan gambar sesuai deskripsi teks secara harfiah; jika deskripsi menulis 'seekor kucing', ia akan menghasilkan seekor kucing, berdiri diam di depan latar belakang putih polos—karena Anda tidak memberi tahu apa latar belakangnya atau apa yang sedang dilakukan kucing tersebut.

Yang benar-benar memahami niat pengguna dan mengembangkan "seekor kucing" menjadi deskripsi visual yang detail adalah model bahasa besar di belakang yang melakukan "penulisan ulang prompt". Ethan mengatakan, pada masa Cosmos, ia pernah menggunakan "domba yang bahagia" sebagai uji coba: tanpa penulisan ulang prompt, gambar yang dihasilkan terlihat sangat CGI dan tidak memiliki kualitas; setelah ditambahkan penulisan ulang, efeknya berbeda jauh—sedangkan model difusi video itu sendiri sama sekali tidak mengalami perubahan.

Ini berarti yang menentukan sejauh mana sebuah perusahaan bisa berkembang di bidang AI video bukan hanya ukuran parameter model video, tetapi kemampuan untuk secara bersamaan mendukung infrastruktur model bahasa dan model video, serta membuat keduanya bekerja sama secara efektif.

Ini adalah kompetisi yang menguji kekuatan fisik secara menyeluruh.

Lapangan pertempuran berikutnya sudah ditentukan

Of course, the industry is also exploring solutions.

Mengubah prompt menjadi berbasis agen, membuat model bahasa bertindak seperti "komandan" yang mengoordinasikan beberapa alat generasi video, serta menggunakan perangkat lunak tradisional seperti FFmpeg untuk menangani tahap perantara—semua arah ini memiliki logika bersama: memisahkan perhitungan biaya inferensi model bahasa dari biaya generasi model difusi video, sehingga setiap panggilan generasi video menjadi lebih tepat dan mengurangi perhitungan serta pemindahan data yang tidak perlu.

Ethan sangat yakin tentang arah masa depan "Video Agent". Ia memprediksi bahwa pada akhir tahun ini akan terjadi titik balik—ketika kualitas video yang dihasilkan oleh Agent secara konsisten mencapai tingkat "siap untuk iklan komersial", perusahaan baru akan benar-benar bersedia membayarnya, dan struktur biaya keseluruhan pun akan berubah.

Namun, satu hal yang tidak akan berubah: siapa yang menguasai penyimpanan dan aliran data, dia yang menguasai titik awal permainan ini.

Di lintasan AI, "hambatan sejati" berganti secara berkala. Awalnya adalah jumlah parameter, lalu skala data pelatihan, kemudian teknologi alignment, lalu efisiensi inferensi. Sekarang, AI video sedang mengungkap hambatan berikutnya—bukan terobosan algoritma misterius, melainkan tagihan infrastruktur yang dingin dan nyata.

This account was never meant to be affordable for everyone.

*Sumber gambar utama: iMini AI