Бывший исследователь xAI раскрывает скрытые расходы на обучение видеоискусственного интеллекта

Бывший исследователь xAI Этан Хи раскрыл реальную структуру стоимости обучения видео-ИИ: для хранения 1 миллиарда видео требуется 5 ПБ места, ежемесячные расходы на хранение превышают 100 000 долларов США; сжатые признаковые данные занимают объем, сопоставимый с исходными видео, и в совокупности ежемесячные расходы на хранение превышают 200 000 долларов США; расходы на передачу данных еще выше, чем на хранение. Общая оценка стоимости одного набора данных составляет несколько миллионов долларов в месяц, не включая вычислительные мощности GPU. Автор отмечает, что конкурентное преимущество видео-моделей заключается не в алгоритмах, а в инфраструктуре — этот барьер ограничивает конкуренцию крайне небольшим числом участников, и отраслевая структура аналогична структуре заводов по производству полупроводниковых пластин.

Автор статьи, источник: Космическая обезьяна

В отрасли ходят самые невероятные цифры о расходах на ИИ: xAI потратила более 1 миллиарда долларов на создание суперкомпьютерного кластера Colossus; ежемесячные счета за вычислительные мощности OpenAI, как утверждают, достигают сотен миллионов долларов; средства, привлеченные Anthropic на последних раундах финансирования, в глазах общественности почти полностью эквивалентны «часам GPU».

Все, о чем говорят, — это вычислительная мощность. GPU стал универсальной валютой для оценки силы любой AI-компании и самым заметным числом в каждом отчете о привлечении финансирования.

Но недавно я послушал подкаст Latent Space, в котором интервьюировали бывшего исследователя xAI Эйthen Хи — когда Эйthen присоединился к xAI в середине 2025 года, перед ним стояла задача начать с нуля: отсутствовала инфраструктура, данные и готовые модели. За три месяца он и небольшая команда создали систему генерации видео Grok Imagine, достигнув уровня, соответствующего лучшим в отрасли на тот момент.

Говоря о стоимости обучения крупных видео-моделей, он привел ряд цифр, которые заставили меня вдруг осознать, что эта отрасль, возможно, все это время вела неправильный учет.

Только хранение этих видео и характеристических данных стоит несколько миллионов долларов в месяц — это еще не считая затрат на вычислительные мощности.

Скрытые расходы в счете

Сколько стоит начать обучение крупной видео-модели с нуля? Допустим, у вашей команды есть доступ к майнингу и вы можете использовать GPU-вычисления без ограничений. Даже в этом случае вы все еще можете недооценивать колоссальные затраты на этот процесс.

Предположим, вам нужно обучить мировой уровень модели генерации видео, и вы скачали с интернета 1 миллиард видео, в среднем по 5 МБ каждое — это уже довольно консервативная оценка. Только на это потребуется 5 ПБ (петабайт) места для хранения. С учетом тарифов AWS S3, хранение 5 ПБ стандартного хранилища будет стоить около 100 000 долларов США в месяц.

Но это еще только оригинальное видео.

Перед обучением видео-модели отраслевая практика предполагает предварительное сжатие видео в векторы признаков в «латентном пространстве» с помощью VAE (вариационного автокодировщика) — поскольку видео, развернутое в пиксели, может содержать десятки миллиардов токенов, что невозможно обработать любому Transformerу; необходимо сначала сжать его в непрерывные векторы, понятные модели.

Проблема в том, что сжатые характеристики данных занимают объем, сопоставимый с исходным видео, и также требуют долгосрочного хранения и готовности к использованию в любое время.

В совокупности десятки петабайт, ежемесячная стоимость хранения превышает 200 000 долларов США.

Затем самое неожиданное: комиссии за ввод и вывод данных.

Этан говорит, что стоимость пропускной способности для загрузки миллиарда видео из интернета на AWS выше, чем стоимость хранения этих видео. Каждый раз при обучении данные необходимо извлекать из слоя хранения и передавать в вычислительный слой. Обучение видео-моделей не заканчивается после одного прохода, как в языковых моделях — требуется итерация, настройка параметров, тестирование различных соотношений данных, и каждый эксперимент означает повторную обработку полного набора данных. Чем больше экспериментов проводится, тем больше эта сумма умножается на соответствующий коэффициент.

В целом, по оценке Эйтана, только на данных ежемесячно уходит несколько миллионов долларов. Расходы на GPU еще не учтены.

Этот счет я никогда не видел, чтобы его подробно рассчитывали в каком-либо отчете об индустрии ИИ.

Невыносимые расходы на пропускную способность

Такие компании, как xAI, которые строят собственные центры обработки данных Colossus, не экономят ли они огромные суммы на хранении и пропускной способности?

Ответ Эйтана был прямым: «Конечно, много сэкономили.»

За этой фразой скрывается структурная тайна индустрии видео ИИ, о которой редко говорят.

Обучающие данные для крупных языковых моделей — это текст, который имеет относительно небольшой объем, и после завершения обучения исходные данные в основном выполняют свою задачу — вам не нужно постоянно загружать полный корпус для вывода или тонкой настройки. Однако данные видео совершенно иные: их объем в несколько порядков больше текста, и каждый эксперимент по обучению требует полной обработки всего набора данных.

Чем быстрее итерации, тем выше стоимость передачи данных; Этан неоднократно подчеркивал, что скорость итераций — именно ключевой фактор в разработке видео-моделей.

Это создает взаимозависимый тупик: вам нужно быстро итерировать, чтобы улучшить качество модели, но быстрые итерации означают частую передачу данных, а частая передача данных на публичном облаке разорит вас счетами.

Путь самого Этана — это иллюстрация. Он участвовал в создании модели мира Cosmos в NVIDIA и постепенно осознал, что видеомодели подчиняются аналогичным «законам масштаба», что и языковые модели, и у них есть большой потенциал для улучшения. На тот момент перед ним стоял выбор, который на поверхности выглядел как «мне нужно больше GPU», но он не произнёс другую ключевую фразу — ему нужна была среда, где не приходилось бы считать расходы по счёту AWS для хранения и перемещения данных. Это одна из основных причин, по которой он перешёл в xAI, а Colossus предоставил ему именно такую среду.

Как выглядит этот расчет для команд, не имеющих собственной инфраструктуры? Ежемесячные затраты на данные в несколько миллионов долларов, добавленные к стоимости GPU-вычислений, означают, что даже если у вас есть команда алгоритмов мирового уровня и вы привлекли достаточное финансирование, пока вы используете публичное облако, вы соревнуетесь с собственными дата-центрами конкурентов, платя по бесконечному счету.

Этот барьер нельзя преодолеть только за счет «технологического превосходства» стартапа с отличным алгоритмом.

Укрепление видео-модели — это не модель

Это напоминает мне об интересном сравнении.

В области больших языковых моделей конкуренция между «открытым» и «закрытым» исходным кодом проходит очень остро: появление серии Llama позволило многим небольшим командам создавать конкурентоспособные языковые модели, вынуждая OpenAI и Anthropic постоянно снижать цены на API. Однако в области генерации видео наблюдается совершенно иная картина: лишь немногие команды, обладающие огромными ресурсами, такие как Sora, Veo и Keling, могут постоянно создавать передовые видео-модели, и ни одна из них не была создана за счет открытого сообщества в гараже.

Многие приписывают это «разнице в данных и вычислительной мощности». Это, конечно, верно, но цифры, представленные Этаном, показывают, что проблема глубже: стоимость инфраструктуры для видео ИИ с самого начала закрепила барьер для входа на уровне лишь немногих участников.

Это во многом похоже на логику полупроводниковой отрасли. TSMC трудно потеснить не только потому, что у них лучший дизайн, но и потому, что строительство нового заводского комплекса требует сотен миллиардов долларов первоначальных вложений — этот барьер сам по себе является лучшей защитой. Защитой для видео-ИИ являются десятки петабайт инфраструктуры данных и ежемесячные счета за пропускную способность.

Эthan также добавил более глубокий вывод в подкасте: «интеллект» видео-моделей в основном исходит от языковой модели, лежащей в основе, а не от самой видео-диффузионной модели.

Видео-диффузионные модели относительно «неуклюжи» — они просто буквально генерируют изображения в соответствии с текстовым описанием: если написано «кошка», они сгенерируют кошку, стоящую неподвижно на чисто белом фоне — потому что вы не указали, что находится на фоне и что делает кошка.

Тот, кто действительно понимает намерения пользователя и превращает «одну кошку» в детальное описание сценария с использованием кинематографического языка, — это крупная языковая модель, выполняющая «переписывание промптов». Этан говорит, что в период Cosmos он тестировал с помощью «счастливой овцы»: без переписывания промптов сгенерированное изображение было чрезвычайно CGI-образным и лишенным текстуры; после добавления переписывания эффект стал совершенно иным — при этом сама модель диффузии видео не изменилась ни на йоту.

Это означает, что то, насколько далеко компания сможет продвинуться в области видеоискусственного интеллекта, определяется не только параметрами видео-модели, а способностью одновременно поддерживать инфраструктуру как языковой, так и видео-модели и обеспечивать их эффективное взаимодействие.

Это соревнование, где побеждает общий физический потенциал.

Следующее поле боя уже определено

Конечно, отрасль также ищет пути решения.

Общая логика этих направлений — агентизация подсказок, превращение языковой модели в «командира», координирующего несколько инструментов генерации видео, и использование традиционного программного обеспечения, такого как FFmpeg, для обработки промежуточных этапов — заключается в том, чтобы разделить вычислительные затраты на логику языковой модели и генерацию видео с помощью диффузионных моделей, обеспечивая более точный вызов генерации видео и снижая неэффективные вычисления и перемещение данных.

Этан уверен в направлении развития «видео-агентов». Он прогнозирует, что к концу этого года наступит переломный момент — когда качество видео, генерируемого агентами, стабильно достигнет уровня, пригодного для коммерческой рекламы, компании действительно начнут платить за это, и общая структура затрат изменится.

Но одно остается неизменным: тот, кто контролирует хранение и поток данных, контролирует начало этой игры.

На этом рынке ИИ «настоящие барьеры» периодически сменяются друг другом: сначала количество параметров, затем объем обучающих данных, затем технологии согласования, затем эффективность вывода. Сейчас видео-ИИ раскрывает следующий барьер — не какое-то таинственное алгоритмическое прорывное решение, а холодный счет за инфраструктуру.

Этот счет изначально не был рассчитан на то, чтобы его могли оплатить все.

*Изображение обложки: iMini AI