xAI 前研究員揭開視頻 AI 訓練的隱藏成本

前 xAI 研究員 Ethan He 透露視頻 AI 訓練的真實成本構成：儲存 10 億條視頻需 5 PB 空間，月儲存費超過 10 萬美元；壓縮後的特徵數據與原始視頻體積相當，疊加後月儲存費超過 20 萬美元；數據進出費用甚至高於儲存費。綜合估算單數據成本每月高達數百萬美元，尚未計入 GPU 算力。作者指出視頻模型的護城河不在算法，而在基礎設施，這道門檻將競爭鎖死在極少數玩家高度，行業格局與半導體晶圓廠類似。

文章作者、來源：宇航猿

關於 AI 燒錢，業內流傳著各種令人瞠目結舌的數字。xAI 花費超過 10 億美元建起 Colossus 超算集群；OpenAI 的月度算力賬單據稱高達數億美元；Anthropic 最近幾輪融資所獲資金，在公眾眼裡幾乎已與「GPU 時數」直接畫上等號。

大家討論的，幾乎都是算力。GPU 成了衡量一家 AI 公司實力的通用貨幣，也是每一篇融資報導裡最顯眼的那個數字。

但最近，我聽了一期 Latent Space 播客，受訪者是 xAI 前研究員 Ethan He——Ethan 在 2025 年中加入 xAI 時，面對的是一個沒有基礎設施、沒有數據、沒有現成模型的白紙狀態，然後用三個月時間和一支小團隊，從零搭建出了 Grok Imagine 視頻生成系統，達到了當時業內的一流水準。

在談到大規模視頻模型的訓練成本時，他說了一組數字，讓我突然意識到，這個行業可能一直算錯了賬。

Just storing these videos and feature data costs millions of dollars per month—this doesn’t even include computing costs.

帳單上的隱藏成本

從零到一開始訓練一個視頻大模型，需要花多少錢？先假設你的團隊有礦，GPU 算力隨便用。即便如此，你可能依然低估了這件事的巨量成本。

假設你要訓練一個世界級的影片生成模型，從網路上爬取了 10 億支影片，每支平均 5MB——這已經是相當保守的估計了。單單這項，你就需要 5PB（拍位元組）的儲存空間。根據 AWS S3 的定價，5PB 的標準儲存，每月約需 10 萬美元。

但這還只是原始影片。

在訓練視頻模型之前，業界通行的做法是先用 VAE（變分自編碼器）把視頻壓縮成「潛在空間」的特徵向量——因為一段視頻展開成像素，可能有幾十億個 token，任何 Transformer 都處理不了，必須先壓縮成模型能理解的連續向量。

但問題是，這份壓縮後的特徵資料，體積與原始影片相當，同樣需要長期存儲，隨時備用。

兩項疊加，數十 PB，每月存儲費就超過 20 萬美元。

然後是最出乎意料的那一項：數據進出費（egress/ingress）。

Ethan 表示，在 AWS 上下載 10 億條影片的頻寬費用，比儲存這些影片還貴。每次訓練，資料都必須從儲存層拉到計算層運行一次。影片模型的訓練不像語言模型那樣訓完就結束——需要迭代、調參、測試不同的資料比例，每一次實驗都意味著要重新處理全部資料。實驗跑得越多，這筆費用就乘以相應的倍數。

綜合算下來，Ethan 的估算是，光是數據這一塊，每個月就要幾百萬美元。GPU 的費用，還未開始計入。

這筆賬，我從沒見過哪篇 AI 行業報導細算過。

承受不起的頻寬費用

像 xAI 這樣自建 Colossus 數據中心的公司，是不是在存儲和頻寬上省了一大筆錢？

Ethan 的回答很直接：「當然，省了很多。」

這句話背後，藏著視頻 AI 行業一個不太被討論的結構性秘密。

大語言模型的訓練數據是文本，體積相對輕量，而且訓練完成之後，原始數據基本就完成了使命——你不需要反覆拉取全量語料來做推理或微調。但視頻數據完全不同：體積是文本的幾個數量級，而且每一次訓練實驗都要把全量數據完整過一遍。

迭代速度越快，數據搬運的成本就越高；而 Ethan 反覆強調，迭代速度，恰恰是視頻模型研發中最關鍵的變數。

這就形成了一個相互咬合的困局：你需要快速迭代來提升模型品質，但快速迭代意味著頻繁搬運數據，而頻繁搬運數據在公有雲上的帳單會把你壓垮。

Ethan 本人的經歷就是一個註腳。他在 NVIDIA 參與構建了 Cosmos 世界模型，在過程中意識到，視頻模型與語言模型一樣存在「規模定律」，還有很大的提升空間。當時他面臨的選擇，表面上看是「我需要更多 GPU」，但他沒明說的另一句至關重要的话是——他需要一個不用按 AWS 賬單計費的地方來存儲和傳輸數據。這也是他前往 xAI 的根本原因之一，而 Colossus 為他提供了這樣的環境。

對於沒有自建基礎設施的團隊來說，這筆賬是怎麼算的？每月數百萬美元的數據成本，疊加在 GPU 算力之上，意味著即使你擁有頂尖的算法團隊，即使你籌集到了足夠的資金，只要你仍在使用公有雲，你就正在與對手的自建機房，進行一場無底洞帳單的賽跑。

這道門檻，不是一家擁有優秀算法的創業公司能靠「技術取勝」跨過去的。

視頻模型的護城河不是模型

這讓我想起一個有趣的對比。

在大語言模型領域，「開源 vs 閉源」的競爭相當激烈，Llama 系列的出現讓許多小團隊也能在語言模型上推出具競爭力的產品，甚至逼得 OpenAI 和 Anthropic 不斷降低 API 價格。但在視頻生成領域，我們看到的格局截然不同：能持續推出頂尖視頻模型的，基本只有 Sora、Veo、可靈這些背靠巨量資源的團隊，沒有任何一家是靠開源社區在車庫中跑出來的。

很多人將此歸因於「數據和算力的差距」。這當然沒錯，但 Ethan 展示的這組數字告訴我們，問題比這更深：視頻 AI 的基礎設施成本，從一開始就將競爭門檻鎖定在極少數參與者的高度上。

這與半導體行業的邏輯有幾分相似。台積電之所以難以撼動，不僅因為它們有更好的設計，更因為一座新晶圓廠需要數百億美元的前期投入，這道門檻本身就是最好的護城河。視頻 AI 的護城河，就是那數十 PB 的數據基礎設施和每月滾動產生的頻寬賬單。

Ethan 在播客中還補充了一個更深的推論：視頻模型的「智能」，大部分其實來自背後的語言模型，而不是視頻擴散模型本身。

視頻擴散模型相對「愚鈍」，它只會根據文字描述照單全收地生成畫面，描述寫「一隻貓」，它就生成一隻貓，站在純白背景前，紋絲不動——因為你沒有告訴它背景是什麼、貓在做什麼。

真正理解用戶意圖、將「一隻貓」擴寫成一段精細的鏡頭語言描述的，是背後進行「提示詞重寫」的大型語言模型。Ethan 說，在 Cosmos 時期，他曾經用一個「快樂的羊」做測試：不經過提示詞重寫，生成出來的畫面極其 CGI、毫無質感；加上重寫之後，效果判若雲泥——而整個視頻擴散模型本身，並沒有發生任何改變。

這意味著，決定一家公司在視頻 AI 領域能走多遠的，不只是視頻模型的參數規模，而是能否同時支撐語言模型和視頻模型這兩套基礎設施，並讓它們有效協同。

這是一場比拼綜合體力的競賽。

下一個戰場，早就被劃好了

當然，行業也在摸索出路。

將提示詞重寫為 Agent 化、讓語言模型像「指揮官」一樣調度多個視頻生成工具、使用 FFmpeg 之類的傳統軟體處理中間環節——這些方向的共同邏輯是，將「語言模型的推理成本」與「視頻擴散模型的生成成本」分層計算，讓每次視頻生成的調用更為精準，減少無效的計算與資料搬運。

Ethan 對「影片 Agent」的走向相當篤定。他預測今年年底將出現一個轉折點——當 Agent 生成的影片品質能穩定達到「可投放商業廣告」的水準，企業才會真正願意為之付費，整體的成本結構也會隨之演變。

但有一點不會變：誰掌握了數據的存儲和流轉，誰就掌握了這場遊戲的起點。

在 AI 這個賽道上，「真正的壁壘」每隔一段時間就會輪換一次。先是參數量，然後是訓練數據規模，然後是對齊技術，然後是推理效率。現在，視頻 AI 正在揭示下一道壁壘——不是某種神秘的算法突破，而是一份冷冰冰的基礎設施賬單。

這筆賬，從一開始就沒打算讓所有人都算得起。

*頭圖來源：iMini AI