Ex-pesquisador da xAI revela custos ocultos do treinamento de IA de vídeo

O ex-pesquisador da xAI, Ethan He, revelou a composição real dos custos de treinamento de IA de vídeo: armazenar 1 bilhão de vídeos requer 5 PB de espaço, com custos mensais de armazenamento superiores a US$ 100.000; os dados de características comprimidos têm tamanho comparável ao dos vídeos originais, resultando em custos mensais de armazenamento superiores a US$ 200.000 quando somados; os custos de entrada e saída de dados são até maiores que os de armazenamento. Estimativas globais indicam que o custo único por dado pode chegar a milhões de dólares mensais, sem incluir a capacidade de GPU. O autor destaca que a vantagem competitiva dos modelos de vídeo não está no algoritmo, mas na infraestrutura — essa barreira limita a concorrência a um número extremamente reduzido de jogadores, com um cenário setorial semelhante ao das fábricas de wafers semicondutores.

Autor do artigo, fonte: Astronaut Monkey

Sobre o gasto de dinheiro em IA, circulam na indústria números impressionantes. A xAI gastou mais de US$ 1 bilhão para construir o cluster supercomputacional Colossus; a fatura mensal de poder de computação da OpenAI supostamente chega a centenas de milhões de dólares; os fundos levantados pela Anthropic em suas últimas rodadas de financiamento são, para o público, quase sinônimos de "horas de GPU".

O que todos estão discutindo é quase exclusivamente a capacidade de processamento. A GPU tornou-se a moeda universal para medir o poder de uma empresa de IA e o número mais destacado em cada relato de financiamento.

Mas recentemente, ouvi um episódio do podcast Latent Space, com a entrevista de Ethan He, ex-pesquisador da xAI — quando Ethan se juntou à xAI em meados de 2025, enfrentava um estado em branco, sem infraestrutura, sem dados e sem modelos prontos, e, em três meses, com uma pequena equipe, construiu do zero o sistema de geração de vídeos Grok Imagine, alcançando o padrão de ponta da indústria na época.

Ao falar sobre o custo de treinamento de modelos de vídeo em grande escala, ele citou um conjunto de números que me fez perceber de repente que este setor pode estar calculando errado há muito tempo.

Apenas armazenar esses vídeos e dados de características custa milhões de dólares por mês — isso sem contar os custos de processamento.

Custos ocultos na fatura

De zero a um, quanto custa treinar um grande modelo de vídeo? Suponha primeiro que sua equipe tem minas e pode usar GPU sem limites. Mesmo assim, você provavelmente ainda subestimará o custo massivo desse projeto.

Suponha que você queira treinar um modelo de geração de vídeo de nível mundial e tenha baixado 1 bilhão de vídeos da internet, com uma média de 5 MB cada—isso já é uma estimativa bastante conservadora. Só nesse item, você precisará de 5 PB (petabytes) de espaço de armazenamento. Com os preços da AWS S3, 5 PB de armazenamento padrão custam cerca de US$ 100.000 por mês.

Mas isso ainda é apenas o vídeo original.

Antes de treinar modelos de vídeo, a prática comum na indústria é comprimir primeiro o vídeo em vetores de características no "espaço latente" usando um VAE (Autoencoder Variacional)—pois um vídeo expandido em pixels pode ter bilhões de tokens, o que qualquer Transformer não consegue processar; é necessário comprimi-lo primeiro em vetores contínuos que o modelo possa entender.

O problema é que esses dados de características comprimidos têm um tamanho equivalente ao vídeo original e também exigem armazenamento de longo prazo, prontos para uso a qualquer momento.

Duas camadas叠加, dezenas de PB, as taxas de armazenamento mensais ultrapassam US$ 200.000.

E então a mais inesperada: taxas de entrada/saída de dados.

Ethan disse que o custo de largura de banda para baixar 1 bilhão de vídeos da internet na AWS é maior do que o custo de armazenar esses vídeos. A cada treinamento, os dados precisam ser puxados da camada de armazenamento para a camada de computação. O treinamento de modelos de vídeo não termina após uma única execução, como nos modelos de linguagem — exige iterações, ajustes de hiperparâmetros e testes de diferentes proporções de dados; cada experimento significa processar todo o conjunto de dados novamente. Quanto mais experimentos forem realizados, mais esse custo é multiplicado.

Somando tudo, Ethan estima que apenas os dados custarão milhões de dólares por mês. Os custos com GPUs ainda não foram incluídos.

Esta conta, eu nunca vi nenhuma reportagem da indústria de IA calcular detalhadamente.

Custo de largura de banda insuportável

Empresas como a xAI, que constroem seus próprios data centers Colossus, estão economizando significativamente em armazenamento e largura de banda?

A resposta de Ethan foi direta: "Claro, economizei muito."

Por trás desta frase, esconde-se um segredo estrutural pouco discutido da indústria de IA de vídeo.

Os dados de treinamento de grandes modelos de linguagem são textos, com volume relativamente leve, e, após o treinamento, os dados originais basicamente concluem sua missão — você não precisa repetidamente recuperar todo o corpus para inferência ou fine-tuning. Mas os dados de vídeo são completamente diferentes: seu volume é de várias ordens de grandeza maior que o de texto, e cada experimento de treinamento exige que todo o conjunto de dados seja processado integralmente.

Quanto mais rápida a iteração, maior o custo de movimentação de dados; e Ethan enfatizou repetidamente que a velocidade de iteração é exatamente a variável mais crítica no desenvolvimento de modelos de vídeo.

Isso cria um impasse interligado: você precisa de iterações rápidas para melhorar a qualidade do modelo, mas iterações rápidas significam transferência frequente de dados, e essa transferência frequente de dados no cloud público irá esmagar sua fatura.

A trajetória própria de Ethan é um testemunho disso. Ele participou da construção do modelo Cosmos na NVIDIA e, ao longo do caminho, percebeu que os modelos de vídeo apresentavam leis de escala semelhantes às dos modelos de linguagem, com grande potencial de melhoria. A escolha que ele enfrentava, à primeira vista, era “preciso mais GPUs”, mas uma frase igualmente crucial que ele não disse explicitamente era: ele precisava de um lugar onde não precisasse pagar conforme a fatura da AWS para armazenar e transferir dados. Essa foi uma das razões fundamentais para ele ir à xAI, e o Colossus lhe forneceu esse ambiente.

Para equipes que não possuem infraestrutura própria, como é feito esse cálculo? Os custos de dados de vários milhões de dólares por mês, somados à capacidade de processamento GPU, significam que, mesmo que você tenha uma equipe de algoritmos de primeira linha e tenha arrecadado fundos suficientes, enquanto ainda estiver usando a nuvem pública, estará competindo contra a infraestrutura própria dos concorrentes com uma fatura sem fim.

Essa barreira não pode ser ultrapassada por uma startup com um algoritmo excelente apenas por meio de "vantagem tecnológica".

A vantagem competitiva dos modelos de vídeo não é o modelo

Isso me lembra uma comparação interessante.

No campo dos grandes modelos de linguagem, a competição entre “open source” e “closed source” está bastante acirrada; a aparição da série Llama permitiu que muitas pequenas equipes desenvolvessem produtos competitivos em modelos de linguagem, forçando até a OpenAI e a Anthropic a reduzirem continuamente os preços de suas APIs. No entanto, no campo da geração de vídeo, o cenário é completamente diferente: apenas equipes com acesso a recursos massivos, como Sora, Veo e Ke Ling, conseguem produzir consistentemente modelos de vídeo de ponta — nenhuma delas surgiu de comunidades open source operando em garagens.

Muitos atribuem isso à "diferença em dados e poder de computação". Isso, é claro, está correto, mas os números revelados por Ethan nos mostram que o problema é mais profundo: o custo da infraestrutura de IA de vídeo desde o início fixou a barreira de entrada em um nível acessível apenas a poucos jogadores.

Isso tem alguma semelhança com a lógica da indústria de semicondutores. A TSMC é difícil de desafiar não apenas por ter um melhor design, mas porque a construção de uma nova fábrica de wafers exige um investimento inicial de centenas de bilhões de dólares — essa barreira é, por si só, o melhor fosso protetor. O fosso protetor da IA de vídeo é a infraestrutura de dados de dezenas de PB e as contas de largura de banda geradas mensalmente.

Ethan também acrescentou uma inferência mais profunda no podcast: a "inteligência" dos modelos de vídeo vem, na maioria, do modelo de linguagem subjacente, e não do próprio modelo de difusão de vídeo.

Os modelos de difusão de vídeo são relativamente "ingênuos"; eles apenas geram imagens conforme descrito no texto, exatamente como escrito: se o texto disser "um gato", eles gerarão um gato, parado diante de um fundo branco puro — porque você não informou a eles qual é o fundo ou o que o gato está fazendo.

Aquele que realmente compreende a intenção do usuário e expande “um gato” em uma descrição detalhada de linguagem cinematográfica é o grande modelo de linguagem por trás da “reescrita de prompts”. Ethan disse que, durante a era Cosmos, ele testou com “uma ovelha feliz”: sem a reescrita do prompt, a imagem gerada era extremamente CGI e sem textura; após a reescrita, o efeito era completamente diferente — e o próprio modelo de difusão de vídeo não sofreu nenhuma alteração.

Isso significa que o que determina o quão longe uma empresa pode ir no campo da IA de vídeo não é apenas o tamanho dos parâmetros do modelo de vídeo, mas sim a capacidade de sustentar simultaneamente as duas infraestruturas — modelo de linguagem e modelo de vídeo — e fazer com que elas trabalhem em conjunto de forma eficaz.

This is a competition of overall physical strength.

O próximo campo de batalha já foi definido

Claro, a indústria também está buscando caminhos.

A reescrita de prompts em formato de agente, fazendo com que o modelo de linguagem atue como um “comandante” coordenando várias ferramentas de geração de vídeo e utilizando softwares tradicionais como o FFmpeg para processar etapas intermediárias — essas abordagens compartilham a mesma lógica: separar o custo de inferência do modelo de linguagem do custo de geração do modelo de difusão de vídeo, permitindo que cada chamada de geração de vídeo seja mais precisa e reduzindo cálculos e transferências de dados desnecessários.

Ethan está bastante confiante sobre a direção dos "Agentes de Vídeo". Ele prevê que até o final deste ano haverá um ponto de inflexão — quando a qualidade dos vídeos gerados por Agentes puder ser consistentemente mantida no nível "apto para anúncios comerciais", as empresas estarão realmente dispostas a pagar por isso, e a estrutura de custos geral mudará consequentemente.

Mas um ponto não mudará: quem controlar o armazenamento e o fluxo dos dados controlará o ponto de partida deste jogo.

Nesta corrida da IA, “a verdadeira barreira” muda periodicamente. Primeiro foram os parâmetros, depois o volume de dados de treinamento, depois a tecnologia de alinhamento, depois a eficiência de inferência. Agora, a IA de vídeo está revelando a próxima barreira — não um avanço algorítmico misterioso, mas uma fatura de infraestrutura fria e objetiva.

Esta conta nunca foi feita para que todos pudessem pagar.

*Imagem de capa fornecida por: iMini AI