xAI Eski Araştırmacısı, Video AI Eğitiminin Gizli Maliyetlerini Ortaya Koyuyor

xAI eski araştırmacısı Ethan He, video AI eğitiminin gerçek maliyet yapısını açıkladı: 1 milyar videoyu depolamak için 5 PB alan gerekir, aylık depolama maliyeti 100.000 doları aşar; sıkıştırılmış özellik verileri orijinal videolarla aynı boyutta olup, birleştirildiğinde aylık depolama maliyeti 200.000 doları aşar; veri girişi ve çıkışı maliyetleri depolama maliyetlerinden bile yüksektir. Toplamda tek bir veri maliyetinin aylık olarak milyonlarca dolar olduğu tahmin ediliyor, GPU hesaplama gücü dahil edilmemiştir. Yazar, video modellerinin rekabet avantajının algoritmada değil altyapıda olduğunu belirtiyor; bu engel, rekabeti çok az sayıda oyuncuda sıkıştırıyor ve endüstri yapısı yarı iletken wafer fabrikalarına benziyor.

Yazan: Uzay Maymunu

AI'nin harcama konusunda endüstride inanılmaz rakamlar dolaşıyor. xAI, Colossus süperbilgisayar kümesini kurmak için 1 milyar doların üzerinde harcadı; OpenAI'nin aylık hesaplamalı maliyetleri milyonlarca dolar olduğu iddia ediliyor; Anthropic'in son sermaye toplama turunda elde ettiği para, kamuoyunda neredeyse doğrudan "GPU saatleri" ile eşdeğer hale geldi.

Herkese konuşulan neredeyse hepsi hesaplama gücü. GPU, bir AI şirketinin gücünü ölçmenin evrensel para birimi haline geldi ve her finansman haberinde en dikkat çeken sayı.

Ancak yakın zamanda, xAI eski araştırmacısı Ethan He'yi konuk eden Latent Space podcast'ini dinledim—Ethan, 2025 ortalarında xAI'ye katıldığında, altyapı, veri ve hazır model olmayan bir boş sayfa ile karşılaştı ve üç ay içinde küçük bir ekipyle Grok Imagine video üretme sistemini sıfırdan kurarak o dönemde endüstrideki en üst düzeyi sağladı.

Büyük ölçekli video modellerinin eğitim maliyetinden bahsederken, verdiği bir dizi rakam sayesinde bu endüstrinin belki de sürekli yanlış hesap yaptığını fark ettim.

Bu videolar ve özellik verilerini depolamak yalnızca aylık milyonlarca dolar tutuyor—bu hesaplamaya hesaplama maliyetleri dahil değil.

Faturalarda gizli maliyetler

Sıfırdan bir video büyük modeli eğitmek için ne kadar para harcanır? Takımınızın madeni var ve GPU hesaplama gücüne sınırsız erişiminiz olduğunu varsayın. Yine de bu işlemin muazzam maliyetini hala düşük tahmin ediyor olabilirsiniz.

Dünya çapında bir video üretme modeli eğitmek için 1 milyar video indirdiğinizi varsayın, her biri ortalama 5 MB — bu zaten oldukça konservatif bir tahmin. Sadece bu işlem için 5 PB (petabayt) depolama alanına ihtiyacınız olacak. AWS S3 fiyatlarına göre, 5 PB standart depolama aylık yaklaşık 100.000 ABD doları maliyet çıkar.

Ancak bu hâlâ orijinal videodur.

Video model eğitmeden önce endüstride yaygın olarak, videoyun pikseller haline getirildiğinde milyarlarca token olabileceğini göz önünde bulundurarak, önce VAE (Variational Autoencoder) kullanılarak video, modelin anlayabileceği sürekli vektörlere dönüştürülür.

Sorun şu ki, bu sıkıştırılmış özellik verisi, orijinal videonun boyutuna eşit ve uzun süreli saklanmaya, her an hazır durumda tutulmaya ihtiyaç duyuyor.

İki katlanınca onlarca PB, aylık depolama maliyeti 200.000 ABD dolarını aşar.

Ardından en beklenmedik olan: veri girişi/çıkışı ücreti.

Ethan, AWS'de 1 milyar video indirmek için gerekli bant genişliği maliyetinin, bu videoları depolamaktan daha pahalı olduğunu söylüyor. Her eğitimde, veriler depolama katmanından hesaplama katmanına çekiliyor. Video modellerinin eğitimi, dil modelleri gibi bir kez tamamlandıktan sonra bitmiyor—iterasyonlar yapılıyor, parametreler ayarlanıyor, farklı veri oranları test ediliyor; her deney, tam veri setinin tekrar işlenmesi anlamına geliyor. Ne kadar çok deney yapılırsa, bu maliyet o kadar katlanıyor.

Toplamda Ethan, yalnızca veri kısmı için aylık milyonlarca dolar tahmin ediyor. GPU maliyetleri henüz dahil edilmedi.

Bu hesabı, AI endüstrisiyle ilgili hiçbir makale detaylı olarak hesaplamadı.

Dayanılamayan bant genişliği ücreti

xAI gibi kendi Colossus veri merkezlerini kurmuş şirketler, depolama ve bant genişliği üzerinde büyük tasarruf yapıyor mu?

Ethan'ın cevabı doğrudan şuydu: "Elbette, çok fazla tasarruf ettik."

Bu cümlenin ardında, video AI endüstrisinin nadiren tartışılan bir yapısal gizli sırrı yatıyor.

Büyük dil modellerinin eğitim verileri metinlerdir ve nispeten hafiftir; eğitim tamamlandıktan sonra orijinal verilerin görevi genellikle tamamlanır—tahmin veya ince ayar yaparken tam veri setini tekrar çekmenize gerek yoktur. Ancak video verileri tamamen farklıdır: boyutu metin verilerinin birkaç katıdır ve her eğitim deneyiminde tam veri seti tamamen işlenmelidir.

Daha hızlı iterasyon, veri taşıma maliyetini artırır; Ethan, iterasyon hızının video model geliştirme sürecindeki en kritik değişken olduğunu sürekli vurgulamaktadır.

Bu, birbirine girmiş bir döngü oluşturur: Model kalitesini artırmak için hızlı yineleme yapmanız gerekir, ancak hızlı yineleme sıklıkla veri taşımayı gerektirir ve sıklıkla veri taşıması, genel bulut üzerindeki faturanızı bastırır.

Ethan'ın yolculuğu bir kanıttır. NVIDIA'da Cosmos dünya modelini oluştururken, video modellerinin dil modelleri gibi "ölçek yasalarına" sahip olduğunu ve büyük bir geliştirme potansiyeline sahip olduğunu fark etti. O dönemde karşılaştığı seçim, görünürde "Daha fazla GPU'ya ihtiyacım var" idi, ancak söylemediği ama aynı ölçüde kritik bir ifadeydi — verileri depolamak ve taşımak için AWS faturasına göre ödeme yapmak zorunda kalmadığı bir yer gerekiyordu. Bu, xAI'ye gitmesinin temel nedenlerinden biriydi ve Colossus, ona o ortamı sundu.

Kendi altyapısını kurmayan takımlar için bu hesap nasıl yapılır? Aylık milyonlarca dolarlık veri maliyeti, GPU hesaplama gücüne eklenince, en iyi algoritma ekibine sahip olsanız ve yeterli fonu toplasanız bile, hâlâ genel bulutu kullanıyorsanız, rakibinizin kendi veri merkezleriyle sonsuz bir fatura ile yarışıyorsunuz.

Bu engel, iyi bir algoritmaya sahip bir girişimci şirketin "teknolojiyle aşabileceği" bir şey değildir.

Video model'in savunma duvarı model değil.

Bu, ilginç bir karşılaştırmayı hatırlatıyor.

Büyük dil modelleri alanında, "açık kaynak vs kapalı kaynak" rekabeti oldukça yoğun; Llama serisinin ortaya çıkışı, birçok küçük ekip için dil modellerinde rekabetçi ürünler geliştirmeyi mümkün kıldı ve hatta OpenAI ve Anthropic'i API fiyatlarını sürekli düşürmeye zorladı. Ancak video üretimi alanında, gördüğümüz durum tamamen farklı: Sürekli olarak en üst düzey video modellerini üretenler, temel olarak Sora, Veo, Keling gibi büyük kaynaklara sahip ekipler; açık kaynak topluluğundan ve bir garajda çalışan hiçbir firma yok.

Bunu birçok kişi "veri ve hesaplama gücü farkı" olarak görüyor. Bu tabii ki doğru, ancak Ethan'ın ortaya koyduğu bu rakamlar, sorunun bu kadar basit olmadığını gösteriyor: Video AI'nın altyapı maliyeti, baştan beri rekabetin eşiğini çok az sayıda oyuncunun ulaşabileceği seviyede sabitlemiştir.

Bu, yarı iletken endüstrisinin mantığıyla biraz benzer. TSMC'nin yerini almanın zor olmasının nedeni sadece daha iyi bir tasarım sağlaması değil, aynı zamanda yeni bir çip fabrikasının yüz milyarlarca dolarlık başlangıç yatırımı gerektirmesi; bu engel kendisi en iyi koruma duvarıdır. Video AI'nın koruma duvarı, onlarca PB veri altyapısı ve aylık olarak oluşan bant genişliği faturalarıdır.

Ethan, podcast'te bir başka daha derin bir çıkarımda bulundu: video modellerinin "akılı", video diffusion modelinin kendisinden ziyade arkasındaki dil modelinden kaynaklanmaktadır.

Video diffusion modelleri nispeten "aptal"tır; yalnızca metin açıklamasını tamamen kabul ederek görüntü üretir. "Bir kedi" yazarsanız, saf beyaz bir arka planda hareketsiz duran bir kedi üretir—çünkü arka planın ne olduğunu veya kedinin ne yaptığını söylemediniz.

“Bir kedi”yi, kullanıcı niyetini tam olarak anlayarak ince bir kamera dili betimlemesine dönüştüren, arka planda “ipucu yeniden yazma” yapan büyük dil modelidir. Ethan, Cosmos döneminde bir “mutlu koyun” ile test yaptı: ipucu yeniden yazma olmadan oluşturulan görüntü son derece CGI gibiydi ve hiçbir kaliteye sahip değildi; yeniden yazma eklendikten sonra etki tamamen değişti—ancak tüm video yayılma modeli hiçbir şekilde değiştirilmedi.

Bir şirketin video AI alanında ne kadar ilerleyebileceğini, yalnızca video modelinin parametre boyutu değil, aynı zamanda dil modeli ve video modeli olmak üzere iki altyapıyı da destekleyip bunların etkili bir şekilde iş birliği yapabilme yeteneği belirler.

Bu, genel fiziksel dayanıklılığı ölçen bir yarışmadır.

Sonraki savaş alanı zaten belirlenmiş

Tabii, sektör de bir yol arıyor.

İpucu yeniden yazma, Agent'laştırılma, dil modelinin birden fazla video üretme aracını bir komutan gibi koordine etmesi ve FFmpeg gibi geleneksel yazılımlarla ara süreçlerin işlenmesi — bu yönlerin ortak mantığı, "dil modelinin çıkarım maliyetini" ve "video yayılma modelinin üretim maliyetini" katmanlı şekilde hesaplamaktır; böylece her video üretimi çağrısı daha hassas hale gelir ve gereksiz hesaplama ve veri taşıma azalır.

Ethan, "Video Agent" yönüne oldukça emin. Yıl sonuna kadar bir dönüm noktası yaşanacağını tahmin ediyor—Agent'ların ürettiği videoların kalitesi, ticari reklamlar için kullanılabilecek düzeyde sabitlenebilir hale geldiğinde, şirketler gerçekten bunlar için ödeme yapmaya başlayacak ve toplam maliyet yapısı da buna göre değişecektir.

Ancak bir şey değişmeyecek: Verilerin depolanmasını ve akışını kim kontrol ederse, oyunun başlangıcını o kontrol eder.

AI alanında "gerçek engeller" zamanla sırayla değişiyor. Önce parametre sayısı, ardından eğitim veri boyutu, ardından hizalama teknolojisi, ardından çıkarım verimliliği. Şimdi video AI, bir sırrı çözen bir algoritmik atılım değil, soğuk bir altyapı faturasıyla bir sonraki engeli ortaya çıkarıyor.

Bu hesap, baştan itibaren herkesin ödeyebileceği şekilde değil.

*Ana görsel kaynağı: iMini AI