Cựu nghiên cứu viên của xAI tiết lộ chi phí ẩn khi đào tạo AI video

Ethan He, cựu nghiên cứu viên của xAI, tiết lộ cấu thành chi phí thực tế cho việc huấn luyện AI video: Lưu trữ 1 tỷ video cần 5 PB không gian, chi phí lưu trữ hàng tháng vượt quá 100.000 USD; dữ liệu đặc trưng đã nén có kích thước tương đương với video gốc, cộng lại chi phí lưu trữ hàng tháng vượt quá 200.000 USD; chi phí đưa và lấy dữ liệu thậm chí còn cao hơn chi phí lưu trữ. Ước tính tổng hợp, chi phí cho mỗi bộ dữ liệu có thể lên tới hàng triệu USD mỗi tháng, chưa tính đến năng lực GPU. Tác giả chỉ ra rằng lợi thế cạnh tranh của mô hình video không nằm ở thuật toán mà ở hạ tầng, rào cản này sẽ giới hạn sự cạnh tranh chỉ còn rất ít người chơi, cấu trúc ngành tương tự như các nhà máy sản xuất wafer bán dẫn.

Tác giả bài viết, nguồn:宇航猿

Về việc AI tiêu tiền, ngành công nghiệp đang lan truyền những con số khiến người ta kinh ngạc. xAI đã chi hơn 1 tỷ USD để xây dựng cụm siêu máy tính Colossus; hóa đơn năng lực tính toán hàng tháng của OpenAI được cho là lên tới hàng trăm triệu USD; số tiền Anthropic huy động được trong các vòng gọi vốn gần đây, trong mắt công chúng, gần như đã được đồng nhất với "giờ GPU".

Điều mọi người nói đến gần như đều là công suất tính toán. GPU đã trở thành loại tiền tệ phổ biến để đo lường sức mạnh của một công ty AI, đồng thời cũng là con số nổi bật nhất trong mọi bài báo về huy động vốn.

Nhưng gần đây, tôi đã nghe một tập podcast Latent Space phỏng vấn Ethan He, cựu nghiên cứu viên của xAI — khi Ethan gia nhập xAI vào giữa năm 2025, anh đối mặt với một tình trạng trắng tay: không có hạ tầng, không có dữ liệu, không có mô hình sẵn có, và sau đó, chỉ trong ba tháng cùng một đội ngũ nhỏ, anh đã xây dựng từ đầu hệ thống tạo video Grok Imagine, đạt đến trình độ hàng đầu ngành thời điểm đó.

Khi nói về chi phí huấn luyện các mô hình video quy mô lớn, anh ấy đưa ra một loạt con số, khiến tôi bỗng nhận ra rằng ngành này có thể đã tính toán sai từ lâu.

Chỉ riêng việc lưu trữ các video và dữ liệu đặc trưng này đã tốn vài triệu đô la mỗi tháng—chưa kể chi phí tính toán.

Chi phí ẩn trên hóa đơn

Để bắt đầu huấn luyện một mô hình video lớn từ con số không, bạn cần chi bao nhiêu tiền? Giả sử đội ngũ của bạn có sẵn mỏ và có thể sử dụng sức mạnh tính toán GPU tùy ý. Dù vậy, bạn vẫn có thể đánh giá thấp chi phí khổng lồ của việc này.

Giả sử bạn đang huấn luyện một mô hình tạo video cấp thế giới và đã thu thập 1 tỷ video từ internet, mỗi video trung bình 5MB — đây đã là một ước tính khá bảo thủ. Riêng khoản này, bạn cần 5PB (petabyte) không gian lưu trữ. Theo mức giá của AWS S3, 5PB lưu trữ tiêu chuẩn sẽ tốn khoảng 100.000 USD mỗi tháng.

Nhưng đây mới chỉ là video gốc.

Trước khi huấn luyện mô hình video, phương pháp phổ biến trong ngành là sử dụng VAE (Variational Autoencoder) để nén video thành các vector đặc trưng trong "không gian tiềm ẩn" – vì một đoạn video khi mở ra thành pixel có thể có hàng tỷ token, bất kỳ Transformer nào cũng không thể xử lý được, nên cần nén trước thành các vector liên tục mà mô hình có thể hiểu.

Vấn đề là, dữ liệu đặc trưng đã được nén này có kích thước tương đương với video gốc, cũng cần được lưu trữ dài hạn và sẵn sàng sử dụng bất cứ lúc nào.

Hai khoản cộng lại, hàng chục PB, phí lưu trữ hàng tháng đã vượt quá 200.000 USD.

Sau đó là mục khiến mọi người bất ngờ nhất: phí dữ liệu ra/vào (egress/ingress).

Ethan cho biết, chi phí băng thông để tải xuống 1 tỷ video từ internet trên AWS còn đắt hơn chi phí lưu trữ những video đó. Mỗi lần huấn luyện, dữ liệu đều phải được kéo từ lớp lưu trữ lên lớp tính toán để chạy qua một lần. Việc huấn luyện mô hình video không giống như mô hình ngôn ngữ, khi đã huấn luyện xong là xong—nó cần lặp lại, điều chỉnh tham số và thử nghiệm các tỷ lệ dữ liệu khác nhau; mỗi thí nghiệm đều có nghĩa là phải xử lý toàn bộ dữ liệu một lần nữa. Càng chạy nhiều thí nghiệm, chi phí này sẽ nhân lên tương ứng.

Tổng cộng, Ethan ước tính riêng về dữ liệu, mỗi tháng đã cần vài triệu đô la Mỹ. Chi phí GPU vẫn chưa được tính vào.

Tôi chưa bao giờ thấy bài báo nào trong ngành AI tính toán chi tiết khoản này.

Chi phí băng thông không chịu nổi

Vậy những công ty tự xây dựng trung tâm dữ liệu Colossus như xAI có đang tiết kiệm được một khoản lớn chi phí lưu trữ và băng thông không?

Ethan trả lời trực tiếp: “Tất nhiên, tiết kiệm được rất nhiều.”

Đằng sau câu nói này là một bí mật cấu trúc ít được thảo luận trong ngành AI video.

Dữ liệu huấn luyện của các mô hình ngôn ngữ lớn là văn bản, có kích thước tương đối nhẹ, và sau khi huấn luyện xong, dữ liệu gốc cơ bản đã hoàn thành nhiệm vụ — bạn không cần phải liên tục tải toàn bộ ngữ liệu để suy luận hoặc tinh chỉnh. Nhưng dữ liệu video thì hoàn toàn khác biệt: kích thước lớn hơn văn bản vài bậc độ lớn, và mỗi thí nghiệm huấn luyện đều phải xử lý toàn bộ dữ liệu một cách đầy đủ.

Tốc độ lặp càng nhanh, chi phí vận chuyển dữ liệu càng cao; trong khi Ethan liên tục nhấn mạnh rằng, tốc độ lặp chính là biến số quan trọng nhất trong phát triển mô hình video.

Điều này tạo thành một tình thế bế tắc lẫn nhau: bạn cần lặp lại nhanh để cải thiện chất lượng mô hình, nhưng lặp lại nhanh có nghĩa là di chuyển dữ liệu thường xuyên, và việc di chuyển dữ liệu thường xuyên trên đám mây công cộng sẽ khiến hóa đơn của bạn tăng vọt.

Hành trình của chính Ethan là một minh chứng. Anh ấy đã tham gia vào việc xây dựng mô hình vũ trụ Cosmos tại NVIDIA, và trong quá trình thực hiện, anh nhận ra rằng các mô hình video cũng tuân theo "định luật quy mô" tương tự như các mô hình ngôn ngữ, với tiềm năng cải thiện lớn. Lựa chọn mà anh ấy đối mặt lúc đó, nhìn bề ngoài là “Tôi cần nhiều GPU hơn”, nhưng một câu quan trọng không được nói ra rõ ràng—anh ấy cần một nơi không tính tiền theo hóa đơn AWS để lưu trữ và di chuyển dữ liệu. Đây cũng là một trong những lý do cốt lõi khiến anh chuyển sang xAI, và Colossus đã cung cấp cho anh môi trường đó.

Đối với các đội ngũ không tự xây dựng cơ sở hạ tầng, thì khoản chi phí này được tính toán như thế nào? Chi phí dữ liệu vài triệu đô la mỗi tháng, cộng thêm chi phí GPU, có nghĩa là dù bạn có đội ngũ thuật toán hàng đầu hay huy động được đủ vốn, miễn là bạn vẫn sử dụng đám mây công cộng, bạn đang chạy đua với cơ sở dữ liệu tự xây dựng của đối thủ bằng một hóa đơn không đáy.

Rào cản này không phải là điều một công ty khởi nghiệp có thuật toán xuất sắc có thể vượt qua bằng cách “chiến thắng bằng công nghệ”.

Rào cản của mô hình video không phải là mô hình

Điều này khiến tôi nhớ đến một sự so sánh thú vị.

Trong lĩnh vực mô hình ngôn ngữ lớn, cuộc cạnh tranh giữa “mã nguồn mở” và “mã nguồn đóng” diễn ra rất gay gắt; sự xuất hiện của loạt Llama đã giúp nhiều nhóm nhỏ cũng có thể tạo ra các sản phẩm cạnh tranh trong lĩnh vực mô hình ngôn ngữ, thậm chí buộc OpenAI và Anthropic phải liên tục giảm giá API. Tuy nhiên, trong lĩnh vực tạo video, chúng ta thấy một bức tranh hoàn toàn khác biệt: những đội ngũ có khả năng liên tục tạo ra các mô hình video hàng đầu về cơ bản chỉ gồm Sora, Veo, Keling – những đội ngũ được hỗ trợ bởi nguồn lực khổng lồ, và không có đội nào được xây dựng từ cộng đồng mã nguồn mở trong gara.

Nhiều người quy kết điều này là do “sự chênh lệch về dữ liệu và sức mạnh tính toán”. Điều này tất nhiên là đúng, nhưng con số mà Ethan tiết lộ cho chúng ta thấy rằng vấn đề còn sâu sắc hơn thế: chi phí cơ sở hạ tầng cho AI video đã khóa ngưỡng cạnh tranh ở mức rất cao ngay từ đầu.

Điều này có phần tương tự với logic của ngành bán dẫn. TSMC khó bị lung lay không chỉ vì họ có thiết kế tốt hơn, mà còn vì việc xây dựng một nhà máy wafer mới đòi hỏi vốn đầu tư ban đầu hàng trăm tỷ USD—chính rào cản này mới là hào sâu bảo vệ tốt nhất. Hàng rào bảo vệ của AI video chính là cơ sở hạ tầng dữ liệu hàng chục PB và hóa đơn băng thông hàng tháng liên tục phát sinh.

Ethan cũng bổ sung một suy luận sâu hơn trong podcast: “Trí thông minh” của các mô hình video phần lớn thực sự đến từ mô hình ngôn ngữ đằng sau, chứ không phải từ chính mô hình khuếch tán video.

Mô hình khuếch tán video tương đối «ngu ngốc», nó chỉ tuân theo mô tả văn bản để tạo hình ảnh: nếu mô tả là “một con mèo”, nó sẽ tạo ra một con mèo, đứng yên lặng trước nền trắng tinh—bởi vì bạn chưa chỉ định nền là gì hay con mèo đang làm gì.

Người thực sự hiểu ý định của người dùng và mở rộng “một con mèo” thành một mô tả cảnh quay tinh vi là mô hình ngôn ngữ lớn phía sau thực hiện việc “viết lại lời nhắc”. Ethan nói rằng, trong thời kỳ Cosmos, anh từng dùng “một con cừu vui vẻ” để thử nghiệm: nếu không qua bước viết lại lời nhắc, hình ảnh tạo ra cực kỳ CGI và không có chất lượng; nhưng sau khi thêm bước viết lại, hiệu quả khác nhau như trời với đất—trong khi toàn bộ mô hình khuếch tán video không có bất kỳ thay đổi nào.

Điều này có nghĩa là, điều quyết định một công ty có thể đi xa đến đâu trong lĩnh vực AI video không chỉ là quy mô tham số của mô hình video, mà còn là khả năng đồng thời duy trì cả hai cơ sở hạ tầng là mô hình ngôn ngữ và mô hình video, đồng thời khiến chúng phối hợp hiệu quả với nhau.

Đây là một cuộc thi đòi hỏi tổng thể thể lực.

Trận chiến tiếp theo đã được vạch sẵn từ lâu

Of course, the industry is also exploring solutions.

Việc tái cấu trúc lời nhắc dưới dạng Agent, khiến mô hình ngôn ngữ hoạt động như một “tổng chỉ huy” điều phối nhiều công cụ tạo video, đồng thời sử dụng các phần mềm truyền thống như FFmpeg để xử lý các bước trung gian — những hướng đi này đều có chung logic: phân tầng tính toán chi phí suy luận của mô hình ngôn ngữ và chi phí tạo video của mô hình khuếch tán, nhằm làm cho mỗi lần gọi tạo video trở nên chính xác hơn, giảm thiểu các phép tính và việc di chuyển dữ liệu không cần thiết.

Ethan rất chắc chắn về hướng đi của “video Agent”. Ông dự đoán đến cuối năm nay sẽ xuất hiện một điểm ngoặt—khi chất lượng video do Agent tạo ra có thể ổn định đạt mức “đủ tiêu chuẩn để quảng cáo thương mại”, các doanh nghiệp mới thực sự sẵn sàng chi trả, và cấu trúc chi phí toàn bộ sẽ thay đổi theo.

Nhưng có một điểm không thay đổi: ai kiểm soát việc lưu trữ và lưu chuyển dữ liệu, người đó sẽ kiểm soát điểm khởi đầu của trò chơi này.

Trong lĩnh vực AI, “rào cản thực sự” cứ sau một thời gian lại thay đổi. Trước hết là số lượng tham số, sau đó là quy mô dữ liệu huấn luyện, rồi đến kỹ thuật căn chỉnh, tiếp theo là hiệu suất suy luận. Bây giờ, AI video đang phơi bày rào cản tiếp theo—không phải là một bước đột phá thuật toán bí ẩn nào, mà là một hóa đơn cơ sở hạ tầng lạnh lùng.

This account was never meant to be affordable for everyone.

*Ảnh bìa nguồn: iMini AI