Exinvestigador de xAI revela los costos ocultos del entrenamiento de IA de video

Ethan He, exinvestigador de xAI, reveló la composición real del costo del entrenamiento de IA de video: almacenar 1 mil millones de videos requiere 5 PB de espacio, con costos mensuales de almacenamiento superiores a 100,000 dólares; los datos de características comprimidos tienen un tamaño comparable al video original, y al sumarlos, los costos mensuales de almacenamiento superan los 200,000 dólares; los costos de entrada y salida de datos incluso superan los costos de almacenamiento. Estimaciones combinadas indican que el costo unitario por datos puede alcanzar varios millones de dólares mensuales, sin incluir la potencia de cómputo GPU. El autor señala que la ventaja competitiva de los modelos de video no radica en los algoritmos, sino en la infraestructura; esta barrera restringe la competencia a un número extremadamente reducido de participantes, con un panorama industrial similar al de las fábricas de obleas de semiconductores.

Autor del artículo, fuente: Astronaut Monkey

Sobre el gasto de dinero en IA, circulan en la industria cifras asombrosas. xAI gastó más de 1 mil millones de dólares para construir el supercomputador Colossus; se dice que la factura mensual de capacidad de cómputo de OpenAI alcanza cientos de millones de dólares; el dinero recaudado por Anthropic en sus últimas rondas de financiación es visto por el público casi como sinónimo de «horas de GPU».

Lo que casi todos discuten es la potencia de cálculo. Las GPU se han convertido en la moneda universal para medir la capacidad de una empresa de IA y en el número más destacado en cada informe de financiación.

Pero recientemente escuché un episodio del podcast Latent Space, donde entrevistaron a Ethan He, exinvestigador de xAI: cuando Ethan se unió a xAI a mediados de 2025, se encontró con un estado en blanco, sin infraestructura, sin datos ni modelos existentes, y logró construir en solo tres meses, con un pequeño equipo, el sistema de generación de video Grok Imagine, alcanzando el nivel más alto de la industria en ese momento.

Al hablar sobre el costo de entrenar modelos de video a gran escala, mencionó una serie de cifras que me hicieron darme cuenta de repente que esta industria podría haber estado haciendo mal los cálculos.

Solo almacenar estos videos y datos de características cuesta varios millones de dólares al mes, sin contar los costos de computación.

Costos ocultos en la factura

¿Cuánto cuesta comenzar a entrenar un gran modelo de video desde cero? Supongamos que tu equipo tiene minas y acceso ilimitado a GPU. Incluso así, probablemente subestimes el enorme costo de este proyecto.

Supón que deseas entrenar un modelo de generación de video de nivel mundial y descargas mil millones de videos en línea, cada uno con un tamaño promedio de 5 MB: esto ya es una estimación bastante conservadora. Solo con esto, necesitarás 5 PB (petabytes) de espacio de almacenamiento. Según los precios de AWS S3, el almacenamiento estándar de 5 PB cuesta aproximadamente 100,000 dólares al mes.

Pero esto aún es solo el video original.

Antes de entrenar modelos de video, la práctica común en la industria es comprimir primero el video en vectores de características en un "espacio latente" utilizando un VAE (autoencoder variacional), ya que un video descompuesto en píxeles puede tener miles de millones de tokens, lo que supera la capacidad de cualquier Transformer; por lo tanto, es necesario comprimirlo primero en vectores continuos que el modelo pueda entender.

El problema es que estos datos de características comprimidos tienen un tamaño comparable al video original y también requieren almacenamiento a largo plazo, listos para usar en cualquier momento.

Al sumar ambos, decenas de PB, los costos de almacenamiento mensuales superan los 200,000 dólares.

Luego viene el más inesperado: los cargos por entrada/salida de datos.

Ethan dice que el costo de ancho de banda para descargar mil millones de videos desde Internet es más alto en AWS que el costo de almacenar esos videos. Cada entrenamiento requiere que los datos se transfieran desde la capa de almacenamiento hasta la capa de cómputo. El entrenamiento de modelos de video no termina una vez completado, como en los modelos de lenguaje: se necesita iterar, ajustar hiperparámetros y probar distintas proporciones de datos; cada experimento implica volver a procesar todo el conjunto de datos. Cuantos más experimentos se ejecuten, más se multiplica este costo.

En total, Ethan estima que solo en datos, se necesitan varios millones de dólares al mes. Los costos de las GPU aún no se han incluido.

Esta cuenta, nunca he visto que ningún informe de la industria de la IA la calcule detalladamente.

Costos de ancho de banda insostenibles

¿Las empresas que construyen sus propios centros de datos Colossus, como xAI, ahorrarían una gran cantidad de dinero en almacenamiento y ancho de banda?

La respuesta de Ethan fue directa: "Por supuesto, ahorré mucho."

Detrás de esta frase se esconde un secreto estructural del sector de IA de video que rara vez se discute.

Los datos de entrenamiento de los modelos de lenguaje grande son textos, de volumen relativamente ligero, y una vez completado el entrenamiento, los datos originales基本完成其使命—no necesitas volver a descargar todo el corpus para inferencia o ajuste fino. Pero los datos de video son completamente diferentes: su volumen es varios órdenes de magnitud mayor que el del texto, y cada experimento de entrenamiento requiere procesar completamente todo el conjunto de datos.

Cuanto más rápida sea la velocidad de iteración, mayor será el costo de transferencia de datos; y Ethan enfatiza repetidamente que la velocidad de iteración es precisamente la variable más crítica en el desarrollo de modelos de video.

Esto crea un círculo vicioso: necesitas iterar rápidamente para mejorar la calidad del modelo, pero las iteraciones rápidas significan transferir datos con frecuencia, y transferir datos con frecuencia en la nube pública te abrumará con facturas.

La trayectoria de Ethan mismo es una prueba. Participó en NVIDIA en la construcción del modelo del mundo Cosmos, y mientras lo hacía, se dio cuenta de que los modelos de video presentaban una "ley de escala" similar a la de los modelos de lenguaje, con mucho margen de mejora. La elección que enfrentaba en ese momento, vista superficialmente, era "necesito más GPU", pero una frase igualmente clave que no dijo explícitamente era: necesitaba un lugar donde no tuviera que pagar según la factura de AWS para almacenar y mover datos. Esta fue también una de las razones fundamentales por las que se fue a xAI, y Colossus le brindó ese entorno.

¿Cómo se calcula esta cuenta para los equipos que no tienen infraestructura propia? Los costos de datos de varios millones de dólares al mes, sumados a la potencia de cómputo GPU, significan que, incluso si tienes un equipo de algoritmos de primera línea o has recaudado fondos suficientes, mientras sigas usando la nube pública, estás compitiendo contra las instalaciones propias de tus competidores con una factura sin fondo.

Esta barrera no puede superarse solo con la "superioridad técnica" de una startup con buenos algoritmos.

La ventaja competitiva de los modelos de video no es el modelo

Esto me recuerda una comparación interesante.

En el ámbito de los modelos de lenguaje grandes, la competencia entre "open source" y "closed source" ha sido muy intensa; la aparición de la serie Llama ha permitido que muchos pequeños equipos desarrollen productos competitivos en modelos de lenguaje, incluso obligando a OpenAI y Anthropic a reducir constantemente los precios de sus API. Sin embargo, en el campo de la generación de video, el panorama es completamente diferente: solo equipos respaldados por recursos masivos, como Sora, Veo y Ke Ling, han logrado producir consistentemente modelos de video de élite, y ninguno ha surgido de la comunidad open source en un garaje.

Muchos lo atribuyen a la "brecha en datos y capacidad de cómputo". Esto es cierto, pero los números que Ethan revela nos muestran que el problema es más profundo: los costos de infraestructura para la IA de video desde el principio han fijado la barrera de entrada en un nivel accesible únicamente para unos pocos jugadores.

Esto es similar en cierta medida a la lógica de la industria de semiconductores. TSMC es difícil de desafiar no solo porque tiene un mejor diseño, sino porque la construcción de una nueva fábrica de obleas requiere una inversión inicial de cientos de miles de millones de dólares, y esta barrera es en sí misma el mejor foso de protección. La ventaja competitiva de la IA de video es la infraestructura de datos de decenas de PB y las facturas de ancho de banda generadas mensualmente.

Ethan también añadió una inferencia más profunda en el podcast: la "inteligencia" de los modelos de video proviene en su mayor parte del modelo de lenguaje subyacente, no del propio modelo de difusión de video.

Los modelos de video son relativamente "tontos"; solo generan imágenes según la descripción textual, sin cuestionarla: si se describe "un gato", generará un gato de pie frente a un fondo blanco puro, inmóvil, porque no se le ha indicado qué tipo de fondo hay ni qué está haciendo el gato.

La verdadera comprensión de la intención del usuario y la expansión de «un gato» en una descripción detallada de lenguaje cinematográfico la realiza el modelo de lenguaje grande que realiza la «reescritura de prompts». Ethan dice que, durante la época de Cosmos, probó con «una oveja feliz»: sin la reescritura del prompt, la imagen generada era extremadamente CGI y carecía de textura; tras añadir la reescritura, el resultado era completamente diferente, mientras que el propio modelo de difusión de video no sufrió ningún cambio.

Esto significa que lo que determina hasta dónde puede llegar una empresa en el campo de la inteligencia artificial de video no es solo el tamaño de los parámetros del modelo de video, sino la capacidad de sostener simultáneamente ambas infraestructuras —el modelo de lenguaje y el modelo de video— y hacer que funcionen en coordinación eficaz.

This is a competition of overall physical strength.

El próximo campo de batalla ya ha sido delimitado

Of course, the industry is also exploring solutions.

La reescritura de indicaciones mediante un agente, hacer que el modelo de lenguaje actúe como un "comandante" que coordine múltiples herramientas de generación de video, y utilizar software tradicional como FFmpeg para procesar los pasos intermedios: todos estos enfoques comparten la misma lógica, que consiste en calcular por separado el costo de inferencia del modelo de lenguaje y el costo de generación del modelo de difusión de video, para que cada llamada de generación de video sea más precisa y se reduzcan los cálculos y la transferencia de datos innecesarios.

Ethan está bastante seguro de la dirección de los "Agentes de video". Predice que a finales de este año habrá un punto de inflexión: cuando la calidad de los videos generados por los Agentes alcance de forma estable el nivel "aptos para publicidad comercial", las empresas estarán realmente dispuestas a pagar por ellos, y la estructura de costos general evolucionará en consecuencia.

Pero hay un aspecto que no cambiará: quien controle el almacenamiento y el flujo de datos, controlará el punto de partida de este juego.

En la carrera de la IA, "la verdadera barrera" cambia periódicamente. Primero fueron los parámetros, luego el volumen de datos de entrenamiento, luego las técnicas de alineación, y luego la eficiencia de inferencia. Ahora, la IA de video está revelando la próxima barrera: no un avance algorítmico misterioso, sino una factura de infraestructura fría y calculada.

Esta cuenta nunca se diseñó para que todos pudieran permitírsela.

*Imagen de portada: iMini AI