xAI元研究者がビデオAIトレーニングの隠れたコストを暴露

xAI元研究員のEthan Heは、ビデオAIトレーニングの実際のコスト構成を明らかにした：10億本のビデオを保存するには5PBのストレージ空間が必要で、月間ストレージ費用は10万ドルを超える。圧縮された特徴データは元のビデオと同等の体積を持ち、合計すると月間ストレージ費用は20万ドルを超える。データの入出力コストはストレージ費用よりも高い。総合的に見ると、単一データのコストは月間で数百万ドルに達し、GPU計算リソースは含まれていない。著者は、ビデオモデルの競争優位性はアルゴリズムではなくインフラにあり、この障壁により競争は極めて少数のプレイヤーに限定され、業界の構図は半導体ウェハ工場と類似していると指摘した。

著者、出典：宇宙猿

AIの資金消費について、業界ではさまざまな驚異的な数字が広まっている。xAIはColossusスーパーコンピュータクラスターの構築に10億ドル以上を費やしたとされ、OpenAIの月間計算リソースの請求額は数億ドルに達するとされる。Anthropicは最近の複数の資金調達で得た資金が、一般にはほぼ「GPU時間」と直結して捉えられている。

人々が話題にしているのは、ほぼすべて計算能力である。GPUはAI企業の実力を測る汎用的な通貨となり、あらゆる調達報道で最も目立つ数字となっている。

しかし最近、私はLatent Spaceポッドキャストのエピソードを聞き、xAIの元研究員であるEthan He氏にインタビューしました。Ethan氏は2025年半ばにxAIに加入した際、インフラもデータも既存のモデルもない白紙の状態から、わずか3ヶ月で小さなチームを率いてGrok Imagine動画生成システムをゼロから構築し、当時の業界トップレベルの成果を達成しました。

大規模なビデオモデルのトレーニングコストについて話す際、彼が示した数字に衝撃を受け、この業界はこれまでずっと勘違いしていた可能性があると気づいた。

仅存储这些视频和特征数据，每月就需要数百万美元——这还不包括算力成本。

請求書に隠されたコスト

ゼロから一つのビデオ大規模モデルを訓練するには、どのくらいの費用がかかるでしょうか？まず、あなたのチームが鉱山を持っていて、GPUの計算能力を自由に使えると仮定しましょう。それでも、この作業にかかる膨大なコストを過小評価している可能性があります。

世界レベルの動画生成モデルを訓練すると仮定し、ネット上で10億本の動画を収集したとします。各動画の平均サイズは5MBで、これはかなり保守的な推定です。この項目だけで、5PB（ペタバイト）のストレージ容量が必要になります。AWS S3の料金に基づくと、5PBの標準ストレージは毎月約10万ドルかかります。

しかし、これはまだオリジナルの動画です。

ビデオモデルをトレーニングする前に、業界では一般的に、VAE（変分自己符号化器）を使用してビデオを「潜在空間」の特徴ベクトルに圧縮します。なぜなら、ビデオをピクセルに展開すると数十億のトークンになり、どのTransformerも処理できないため、モデルが理解できる連続的なベクトルにまず圧縮する必要があるからです。

問題は、この圧縮された特徴データのサイズが元の動画と同等であり、長期保存し、いつでも備えなければならないことです。

二つを重ねると数十PBとなり、毎月のストレージ料金は20万ドルを超える。

そして最も予想外だったのは、データの入出力料（egress/ingress）です。

イーサンは、AWS上で10億本の動画をダウンロードするための帯域幅コストが、これらの動画を保存するコストよりも高いと述べた。毎回のトレーニングで、データはストレージ層から計算層へと引き出される。動画モデルのトレーニングは、言語モデルのように一度終了すれば終わりではなく、繰り返しを行い、パラメータを調整し、異なるデータ比率をテストする必要がある。それぞれの実験は、全量のデータを再び処理することを意味する。実験を繰り返せば繰り返すほど、このコストはその倍数だけ増加する。

総合的に計算すると、Ethanの推定では、データのみで毎月数百万ドルが必要となる。GPUの費用はまだ含まれていない。

この計算は、私はAI業界のどの記事でも詳しく見たことがありません。

耐えられない帯域幅料金

xAIのように自社でColossusデータセンターを構築している企業は、ストレージと帯域幅で大幅なコスト削減をしているのでしょうか？

イーサンの回答は非常に直接的だった。「もちろん、かなり省いたよ。」

この文の背後には、ビデオAI業界におけるあまり語られない構造的な秘密が隠されている。

大規模言語モデルのトレーニングデータはテキストであり、体積は比較的軽量で、トレーニング完了後には元のデータは基本的にその役割を終えます——推論やファインチューニングのために毎回フルコーパスを取得する必要はありません。しかし、動画データはまったく異なります：体積はテキストの数桁大きくなり、毎回のトレーニング実験でフルデータを完全に処理する必要があります。

イテレーションの速度が速ければ速いほど、データ移動のコストは高くなる。一方で、Ethanは繰り返し、イテレーションの速度がビデオモデル開発において最も重要な変数であると強調している。

これにより、相互に絡み合った状況が生じます：モデルの品質を向上させるには高速なイテレーションが必要ですが、高速なイテレーションは頻繁なデータ移動を意味し、パブリッククラウド上の請求額が膨れ上がってしまいます。

エイタン自身の経歴は、その証拠そのものだ。彼はNVIDIAでCosmosの世界モデルの構築に携わっていたが、その過程で、ビデオモデルにも言語モデルと同様の「スケール法則」が存在し、さらに大きな改善の余地があることに気づいた。当時彼が直面した選択肢は、表面上「より多くのGPUが必要だ」というものだったが、彼が明言しなかったもう一つの重要な点があった——それは、データの保存と移動をAWSの請求額で計算する必要のない場所が必要だということだった。これが彼がxAIへ移った根本的な理由の一つであり、Colossusはその環境を彼に提供した。

自社インフラを構築していないチームにとって、この計算はどうなるでしょうか？毎月数百万ドルにのぼるデータコストにGPU計算リソースが加われば、たとえ最高峰のアルゴリズムチームを有し、十分な資金を調達したとしても、パブリッククラウドを使い続ける限り、相手の自社データセンターとの競争は無底の請求書との闘いです。

この障壁は、優れたアルゴリズムを持つスタートアップが「技術で乗り越えられる」ものではない。

ビデオモデルの競争優位はモデルではない

これは興味深い対比を思い出させます。

大規模言語モデル分野では、「オープンソース vs プロプライエタリー」の競争が激しく、Llamaシリーズの登場により、多くの小規模チームも競争力のある言語モデルを構築できるようになり、OpenAIやAnthropicにAPI価格の引き下げを迫るまでになりました。しかし、動画生成分野では、状況がまったく異なります。Sora、Veo、Kelingなどの大規模リソースを背景にしたチームだけが、一貫してトップレベルの動画モデルを生み出しており、オープンソースコミュニティによってガレージで開発されたケースは一つもありません。

多くの人々はこれを「データと計算能力の差」と見なしている。これは確かに正しいが、イーサンが示したこの数値は、問題がそれ以上に深く、ビデオAIのインフラコストが、最初から競争の門戸を極めて少数のプレイヤーにしか開かないレベルに固定していることを示している。

これは半導体業界のロジックと幾分似ています。TSMCが揺るぎない地位を築いているのは、より優れた設計があるだけでなく、新しいウェハファブの建設に数百億ドルの初期投資が必要だからです。この障壁自体が最良の保護壁となっています。ビデオAIの保護壁は、数十PBのデータインフラと毎月発生する帯域幅の請求書です。

イーサンはポッドキャストで、ビデオモデルの「知性」の大部分は、ビデオ拡散モデル自体ではなく、その背後にある言語モデルから来ているというより深い推論を追加した。

ビデオ拡散モデルは比較的「鈍い」ため、テキストの説明をそのまま受け入れて画像を生成します。「猫が1匹」と書かれれば、純白の背景の前に静止した猫が生成されます——なぜなら、背景が何であるかや猫が何をしているかを教えていないからです。

「一只猫」を、精緻な映像言語の記述に拡張できるのは、その背後で「プロンプトリライティング」を行う大規模言語モデルである。Ethanは、Cosmos時代に「幸せな羊」をテストに用いたと語る。プロンプトリライティングなしでは生成される画像は極めてCGI的で、質感がまったくないが、リライティングを加えると、その効果は天と地ほど変わる——しかし、その動画拡散モデル自体には一切変更は加えられていない。

つまり、企業がビデオAI分野でどれだけ進めるかを決めるのは、ビデオモデルのパラメータ規模だけでなく、言語モデルとビデオモデルの両方のインフラを同時に支え、それらを効果的に連携させられるかどうかである。

これは総合的な体力を競う大会です。

次の戦場はすでに決まっている

もちろん、業界も道を模索しています。

プロンプトの再構成をエージェント化し、言語モデルを「指揮官」のように振る舞わせて複数の動画生成ツールを調整し、FFmpegなどの従来のソフトウェアで中間プロセスを処理する——これらの方向性の共通するロジックは、「言語モデルの推論コスト」と「動画拡散モデルの生成コスト」を階層的に分離し、毎回の動画生成呼び出しをより正確にし、無駄な計算とデータ移動を削減することである。

イーサンは「ビデオエージェント」の将来について非常に確信しています。彼は、今年末に転換点が訪れるだろうと予測しています。エージェントが生成する動画の品質が安定して「商業広告として配信可能」な水準に達したとき、企業はようやくそのコストを支払う意欲を示し、全体のコスト構造も変化し始めるでしょう。

ただし、一つ変わらないことがある：データの保存と移動を掌握する者が、このゲームのスタート地点を握る。

AIの分野では、「真の障壁」が一定の間隔で交代していく。最初はパラメータ数、次にトレーニングデータの規模、次にアラインメント技術、そして推論効率だった。今、ビデオAIは次の障壁を明らかにしつつある——それは何らかの神秘的なアルゴリズムのブレイクスルーではなく、冷たいインフラの請求書だ。

この費用は、最初からすべての人が支払えるようには設計されていません。

*ヘッダー画像提供：iMini AI