Un ancien chercheur de xAI révèle les coûts cachés de la formation des IA vidéo

L'ancien chercheur d'xAI, Ethan He, révèle la composition réelle des coûts d'entraînement de l'IA vidéo : stocker 1 milliard de vidéos nécessite 5 PB d'espace, avec des frais mensuels dépassant 100 000 $ ; les données de caractéristiques compressées ont un volume équivalent à celui des vidéos originales, portant les frais mensuels de stockage à plus de 200 000 $ lorsqu'elles sont combinées ; les coûts d'entrée et de sortie des données dépassent même les frais de stockage. Estimé globalement, le coût unitaire des données s'élève à plusieurs millions de dollars par mois, sans inclure la puissance de calcul GPU. L'auteur souligne que l'avantage concurrentiel des modèles vidéo ne réside pas dans les algorithmes, mais dans l'infrastructure ; ce seuil limite la concurrence à un très petit nombre d'acteurs, créant une structure industrielle similaire à celle des usines de fabrication de wafers semi-conducteurs.

Auteur de l'article, source : Astronaut Monkey

Concernant la dépense d'argent dans l'IA, divers chiffres ahurissants circulent dans l'industrie. xAI a dépensé plus de 1 milliard de dollars pour construire le cluster supercalculateur Colossus ; les factures mensuelles de puissance de calcul d'OpenAI seraient de plusieurs centaines de millions de dollars ; les fonds levés récemment par Anthropic sont, aux yeux du public, presque directement équivalents à des « heures GPU ».

Ce dont tout le monde parle, c'est presque exclusivement la puissance de calcul. Les GPU sont devenus la monnaie universelle pour mesurer la force d'une entreprise d'IA, et c'est le chiffre le plus visible dans chaque article de levée de fonds.

Mais récemment, j'ai écouté un épisode du podcast Latent Space interviewant Ethan He, ancien chercheur chez xAI — lorsqu'Ethan a rejoint xAI au milieu de l'année 2025, il a trouvé un environnement dépourvu d'infrastructure, de données et de modèles existants, et a réussi, en trois mois avec une petite équipe, à construire depuis zéro le système de génération vidéo Grok Imagine, atteignant ainsi un niveau parmi les meilleurs de l'industrie à l'époque.

En parlant du coût d'entraînement des grands modèles vidéo, il a cité un ensemble de chiffres qui m'ont soudain fait réaliser que cette industrie pourrait se tromper depuis tout ce temps.

Le simple stockage de ces vidéos et données de caractéristiques coûte plusieurs millions de dollars par mois — sans compter les coûts de calcul.

Coûts cachés sur la facture

Combien coûte de zéro à un de former un grand modèle vidéo ? Supposons que votre équipe possède une mine et que vous ayez accès à une puissance GPU illimitée. Même dans ce cas, vous sous-estimez probablement le coût énorme de cette entreprise.

Supposons que vous souhaitiez former un modèle de génération vidéo de niveau mondial en téléchargeant 1 milliard de vidéos en ligne, chacune d’une taille moyenne de 5 Mo — ce qui est déjà une estimation très conservatrice. Pour ce seul élément, vous aurez besoin de 5 Po (pétaoctets) d’espace de stockage. Selon les tarifs d’AWS S3, le stockage standard de 5 Po coûte environ 100 000 dollars par mois.

Mais ce n'est encore que la vidéo originale.

Avant d'entraîner un modèle vidéo, la pratique courante dans l'industrie consiste à utiliser un VAE (Variational Autoencoder) pour compresser la vidéo en vecteurs de caractéristiques dans un « espace latent » — car une vidéo décomposée en pixels peut contenir des milliards de tokens, ce que n'importe quel Transformer ne peut traiter ; il faut donc d'abord la compresser en vecteurs continus compréhensibles par le modèle.

Le problème est que ces données de caractéristiques compressées occupent un volume équivalent à celui de la vidéo originale et nécessitent également un stockage à long terme, prêtes à être utilisées à tout moment.

Deux couches superposées, des dizaines de pétaoctets, les frais de stockage mensuels dépassent 200 000 dollars.

Ensuite, le plus surprenant : les frais d'entrée/sortie de données.

Ethan affirme que le coût de la bande passante pour télécharger un milliard de vidéos depuis Internet sur AWS est plus élevé que le coût de stockage de ces vidéos. À chaque entraînement, les données doivent être transférées depuis la couche de stockage jusqu'à la couche de calcul. L'entraînement de modèles vidéo ne se termine pas comme celui des modèles linguistiques — il nécessite des itérations, un réglage des paramètres et des tests de différents rapports de données ; chaque expérience implique de retraiter l'ensemble des données. Plus d'expériences sont menées, plus ce coût est multiplié par un facteur correspondant.

Au total, Ethan estime que seules les données coûteront plusieurs millions de dollars par mois. Les frais liés aux GPU n'ont même pas encore été pris en compte.

Je n'ai jamais vu aucun article sur l'industrie de l'IA calculer cela en détail.

Frais de bande passante insupportables

Les entreprises comme xAI qui construisent leurs propres centres de données Colossus, économisent-elles ainsi une grosse somme sur le stockage et la bande passante ?

La réponse d'Ethan est directe : « Bien sûr, ça en fait économiser beaucoup. »

Derrière cette phrase se cache un secret structurel peu discuté de l'industrie de l'IA vidéo.

Les données d'entraînement des grands modèles linguistiques sont textuelles, de volume relativement léger, et une fois l'entraînement terminé, les données d'origine ont généralement accompli leur mission — vous n'avez pas besoin de récupérer à nouveau l'ensemble du corpus pour l'inférence ou le fine-tuning. Cependant, les données vidéo sont totalement différentes : leur volume est plusieurs ordres de grandeur supérieur à celui du texte, et chaque expérience d'entraînement nécessite de traiter intégralement l'ensemble des données.

Plus la vitesse d'itération est élevée, plus le coût de déplacement des données augmente ; Ethan insiste répétitivement sur le fait que la vitesse d'itération est précisément la variable la plus cruciale dans le développement de modèles vidéo.

Cela crée une impasse réciproque : vous avez besoin d'itérations rapides pour améliorer la qualité du modèle, mais des itérations rapides signifient un transfert fréquent de données, ce qui fait exploser votre facture sur le cloud public.

La trajectoire d'Ethan lui-même en est une preuve. Il a participé à la construction du modèle Cosmos chez NVIDIA et a progressivement réalisé que les modèles vidéo présentaient des « lois d'échelle » similaires à celles des modèles linguistiques, avec un potentiel de progression important. Le choix qui se présentait à lui semblait être « J'ai besoin de plus de GPU », mais une autre phrase, essentielle, n'a jamais été explicitée — il avait besoin d'un endroit où ne pas payer selon les factures AWS pour stocker et déplacer les données. C'est l'une des raisons fondamentales pour lesquelles il a rejoint xAI, et Colossus lui a offert cet environnement.

Pour les équipes ne disposant pas de leur propre infrastructure, comment se calcule ce coût ? Des coûts de données de plusieurs millions de dollars par mois, ajoutés à la puissance de calcul GPU, signifient que même si vous avez une équipe d’algorithmes de premier plan et que vous avez levé des fonds suffisants, tant que vous utilisez le cloud public, vous courrez derrière les datacenters dédiés de vos concurrents avec une facture sans fin.

Ce seuil ne peut pas être franchi par une startup dotée d'un excellent algorithme en comptant uniquement sur la « technologie ».

La barrière protectrice des modèles vidéo n'est pas le modèle

Cela me fait penser à une comparaison intéressante.

Dans le domaine des grands modèles linguistiques, la concurrence entre « open source » et « closed source » est très intense : l'apparition de la série Llama a permis à de nombreux petits groupes de développer des produits compétitifs en matière de modèles linguistiques, forçant même OpenAI et Anthropic à réduire continuellement leurs prix d'API. Toutefois, dans le domaine de la génération vidéo, la situation est totalement différente : seules des équipes disposant de ressources massives, comme Sora, Veo et Keling, parviennent à produire en continu des modèles vidéo de pointe, et aucune n'a émergé grâce à la communauté open source dans un garage.

Beaucoup attribuent cela à « l'écart entre les données et la puissance de calcul ». Cela est bien sûr exact, mais les chiffres révélés par Ethan nous montrent que le problème est plus profond : les coûts d'infrastructure de l'IA vidéo ont verrouillé dès le départ les barrières à l'entrée à un niveau accessible uniquement à un très petit nombre d'acteurs.

Cela ressemble en partie à la logique de l'industrie des semi-conducteurs. TSMC est difficile à déloger non seulement parce qu'elle dispose de meilleures conceptions, mais aussi parce qu'une nouvelle usine de puces nécessite un investissement initial de plusieurs centaines de milliards de dollars — ce seuil est en soi le meilleur avantage concurrentiel. L'avantage concurrentiel de l'IA vidéo réside dans l'infrastructure de données de plusieurs dizaines de pétaoctets et les factures de bande passante générées mensuellement.

Ethan a également ajouté une implication plus profonde dans le podcast : l'« intelligence » des modèles vidéo provient en grande partie du modèle linguistique sous-jacent, et non du modèle de diffusion vidéo lui-même.

Les modèles vidéo sont relativement « lents » ; ils se contentent de générer des images selon la description textuelle fournie. Si vous écrivez « un chat », il générera un chat, immobile devant un fond blanc pur — car vous ne lui avez pas indiqué ce que représente le fond ni ce que fait le chat.

C’est le grand modèle de langage chargé de réécrire les invites qui comprend véritablement l’intention de l’utilisateur et transforme « un chat » en une description détaillée de langage cinématographique. Ethan raconte qu’à l’époque de Cosmos, il avait testé avec « un mouton heureux » : sans réécriture de l’invite, l’image générée était extrêmement CGI et dépourvue de texture ; après ajout de la réécriture, l’effet était totalement différent — tandis que le modèle de diffusion vidéo lui-même n’avait subi aucune modification.

Cela signifie que ce qui détermine la portée d'une entreprise dans le domaine de l'IA vidéo n'est pas seulement la taille des paramètres du modèle vidéo, mais sa capacité à faire fonctionner simultanément les infrastructures des modèles linguistiques et vidéo, et à les faire coopérer efficacement.

C'est une compétition qui exige une endurance globale.

Le prochain champ de bataille a déjà été délimité

Of course, the industry is also exploring solutions.

La réécriture des invites sous forme d'agent, permettant au modèle linguistique d'agir comme un « commandant » en orchestrant plusieurs outils de génération vidéo, ainsi que l'utilisation de logiciels traditionnels comme FFmpeg pour traiter les étapes intermédiaires — ces approches partagent une logique commune : séparer le coût d'inférence du modèle linguistique du coût de génération du modèle de diffusion vidéo, afin de rendre chaque appel de génération vidéo plus précis et de réduire les calculs et le transfert de données inutiles.

Ethan est très confiant quant à l'évolution des « agents vidéo ». Il prédit qu'un point de bascule se produira à la fin de cette année — lorsque la qualité des vidéos générées par les agents atteindra de manière stable un niveau « adapté à la publicité commerciale », les entreprises seront enfin prêtes à payer, et la structure globale des coûts en sera transformée.

Mais un point ne changera pas : celui qui maîtrise le stockage et le flux des données maîtrise le point de départ de ce jeu.

Sur le segment de l’IA, « le véritable avantage concurrentiel » change périodiquement. D’abord, le nombre de paramètres, puis la taille des données d’entraînement, ensuite les techniques d’alignement, puis l’efficacité d’inférence. Maintenant, l’IA vidéo révèle la prochaine barrière — pas une percée algorithmique mystérieuse, mais une facture d’infrastructure froide et calculée.

This account was never meant to be affordable for everyone.

*Image de couverture : iMini AI