Бувший дослідник xAI розкриває приховані витрати на навчання відео-ІІ

Бувший дослідник xAI Етан Хі з’ясував реальний склад витрат на навчання відеоштучного інтелекту: для зберігання 1 мільярда відео потрібно 5 ПБ місця, що коштує понад 100 тис. доларів США на місяць; стиснені ознакові дані за об’ємом дорівнюють оригінальним відео, а разом із ними витрати на зберігання перевищують 200 тис. доларів США на місяць; витрати на передачу даних навіть перевищують витрати на зберігання. Загальна оцінка вартості одного набору даних становить кілька мільйонів доларів США на місяць, не враховуючи обчислювальну потужність GPU. Автор зазначає, що конкурентна перевага відеомоделей полягає не в алгоритмах, а в інфраструктурі — цей бар’єр обмежує конкуренцію лише дуже обмеженим гравцям, а структура галузі схожа на ринок напівпровідникових виробництв.

Автор статті, джерело: АстроМавпаЇ

Щодо витрат на ШІ, у галузі ходять різні захоплюючі цифри: xAI витратила понад 1 мільярд доларів США на створення суперкомп’ютерного кластера Colossus; щомісячні витрати OpenAI на обчислювальні ресурси, як стверджують, досягають сотень мільйонів доларів США; гроші, зібрані Anthropic на останніх раундах фінансування, у громадській свідомості майже повністю асоціюються з «годинами GPU».

Про що всі говорять, майже всім є потужність обчислень. GPU став універсальною валютою для оцінки потужності AI-компаній і найбільш помітним числом у кожному звіті про фінансування.

Але недавно я прослухав подкаст Latent Space, у якому інтерв’ювали Етана Хі — колишнього дослідника xAI. Коли Етан приєднався до xAI в середині 2025 року, перед ним стояла повна пустота: немає інфраструктури, немає даних, немає готових моделей. Проте за три місяці з невеликою командою він з нуля створив відеогенеруючу систему Grok Imagine, досягнувши рівня, що відповідав найкращим у галузі на той момент.

Під час обговорення вартості навчання великих відеомоделей він навів ряд цифр, які змусили мене раптово усвідомити, що ця галузь, можливо, завжди неправильно рахувала.

Тільки зберігання цих відео та даних про ознаки коштує кілька мільйонів доларів на місяць — це ще не враховує витрати на обчислювальну потужність.

Приховані витрати у рахунку

Скільки коштує від нуля до одиниці навчання великої відеомоделі? Припустимо, що ваша команда має шахту і GPU-обчислення доступні без обмежень. Навіть тоді ви, ймовірно, все ще недооцінюєте надзвичайно велику вартість цього завдання.

Припустимо, ви хочете навчити світовий модель генерації відео, завантаживши з інтернету 1 мільярд відео, середня довжина кожного — 5 МБ — це вже досить консервативна оцінка. Лише на цьому етапі вам знадобиться 5 ПБ (петабайт) місця зберігання. За тарифами AWS S3, 5 ПБ стандартного зберігання коштують приблизно 100 000 доларів США щомісяця.

Але це ще початкове відео.

Перед навчанням відеомоделей галузевою практикою є попереднє стиснення відео за допомогою VAE (варіаційного автокодувальника) у вектори ознак у «потенційному просторі» — оскільки відео, розгорнуте у пікселі, може містити десятки мільярдів токенів, що перевищує можливості будь-якого Transformer, і його необхідно спочатку стиснути у безперервні вектори, зрозумілі для моделі.

Проблема в тому, що ці стиснені дані ознак мають розмір, порівнянний з оригінальним відео, і також вимагають довгострокового зберігання та готовності до використання.

Дві суміщені, десятки ПБ, щомісячна вартість зберігання перевищує 200 000 доларів США.

А потім — найбільш неочікувана стаття: комісії за вивід/вивід даних.

Еthan каже, що витрати на пропускну здатність для завантаження мільярда відео з інтернету в AWS дорожчі, ніж зберігання цих відео. Під час кожного навчання дані треба завантажувати зі шару зберігання до шару обчислень. Навчання відеомоделей не закінчується після однієї ітерації, як у мовних моделей — потрібно ітерувати, налаштовувати параметри, тестувати різні співвідношення даних, і кожен експеримент означає повторне проходження повного набору даних. Чим більше експериментів ви проводите, тим більше ця вартість збільшується у відповідній кількості разів.

Загалом, за оцінкою Етана, лише на даних щомісяця витрачається кілька мільйонів доларів США. Витрати на GPU ще не враховані.

Цей рахунок я ніколи не бачив, щоб його детально розраховували в будь-якому звіті про галузь ШІ.

Непереносимі витрати на пропускну здатність

Чи зберігають такі компанії, як xAI, значні кошти на зберіганні та пропускній здатності, створюючи власні центри обробки даних Colossus?

Відповідь Етана була прямою: «Звичайно, зекономило багато».

За цим реченням схований структурний секрет індустрії AI для відео, який рідко обговорюють.

Навчальні дані великих мовних моделей — це текст, який має відносно невеликий обсяг, і після завершення навчання вихідні дані зазвичай виконують свою задачу — вам не потрібно постійно завантажувати повний корпус для виведення або доналаштування. Але дані відео повністю інші: їх обсяг у кілька порядків більший за текст, і кожен навчальний експеримент вимагає повного проходження всього набору даних.

Чим швидше ітерації, тим вищі витрати на перенесення даних; а Етан неодноразово підкреслював, що швидкість ітерацій — саме ключовий фактор у розробці відеомоделей.

Це створює взаємозалежний тупик: вам потрібно швидко ітерувати, щоб покращити якість моделі, але швидкі ітерації означають часте переміщення даних, а часте переміщення даних на публічному хмарному середовищі зруйнує ваш рахунок.

Шлях самого Етана є ілюстрацією цього. Він працював у NVIDIA над створенням моделі світу Cosmos і, працюючи над цим, усвідомив, що відеомоделі підкоряються аналогічним «законам масштабу», як і мовні моделі, і що є ще великий потенціал для покращення. На той момент перед ним постало питання, яке на перший погляд звучало як «Мені потрібно більше GPU», але він не сказав відкрито ще одну ключову річ — йому знадобилося місце, де не треба платити за AWS-рахунки, щоб зберігати та переміщувати дані. Це було однією з основних причин, чому він пішов до xAI, а Colossus надав йому саме таке середовище.

Як розраховуються витрати для команд, які не мають власної інфраструктури? Щомісячні витрати на дані в кілька мільйонів доларів, додані до GPU-обчислювальних потужностей, означають, що навіть якщо у вас є команда з найкращих алгоритмістів і ви зібрали достатньо коштів, поки ви використовуєте публічне хмарне сховище, ви боретеся з власними центрами обробки даних суперників, плачучи за безкінечний рахунок.

Цей бар’єр не можна подолати лише за допомогою «технічної переваги» стартапу з відмінним алгоритмом.

Бар’єром відеомоделей не є модель

Це нагадує про цікавий контраст.

У сфері великих мовних моделей конкуренція між «відкритим» та «закритим» кодом дуже гостра: з’явлення серії Llama дозволило багатьом невеликим командам створювати конкурентоспроможні продукти у сфері мовних моделей, навіть змусивши OpenAI та Anthropic постійно знижувати ціни на API. Але в сфері генерації відео ми бачимо зовсім іншу картину: лише команди, що мають доступ до великих ресурсів, такі як Sora, Veo та KeLing, здатні стабільно створювати топові відеомоделі — жодна з них не була розроблена в гаражі за допомогою відкритої спільноти.

Багато хто приписує це «різниці в даних і обчислювальних потужностях». Це, звичайно, правильно, але цифри, які розкрив Етан, показують, що проблема глибша: вартість інфраструктури для відео-ІІ з самого початку заблокувала бар’єр для конкуренції на рівні лише кількох учасників.

Це схоже на логіку напівпровідникової галузі. TSMC важко змінити не лише через кращий дизайн, а й через те, що будівництво нової виробничої лінії вимагає сотень мільярдів доларів початкових інвестицій — сама ця бар’єр є найкращою захисною спорудою. Захисною спорудою для відео-ІІ є десятки PB інфраструктури даних та щомісячні рахунки за пропускну здатність.

Еthan додав ще один глибший висновок у подкасті: «розум» відеомоделей переважно походить від мовних моделей, а не від самих відео-дифузійних моделей.

Відео-моделі розповсюдження відносно «глупі» — вони просто сліпо генерують зображення згідно з текстовим описом: якщо написано «кіт», вони згенерують кота, що стоїть нерухомо на чисто білому тлі — бо ви не сказали їм, яким має бути тло чи що робить кіт.

Той, хто справді розуміє наміри користувача і розширює «одну кішку» до детальної описової камери, — це велика мова модель, що виконує «переписування підказок». Етан каже, що в період Cosmos він використовував «щасливу вівцю» як тест: без переписування підказок згенерована сцена була надто CGI-подібною і не мала текстури; після додавання переписування ефект став абсолютно іншим — а сама модель дифузії відео взагалі не змінилася.

Це означає, що не лише розмір параметрів відеомоделі визначає, наскільки далеко зможе зайти компанія в галузі відеоштучного інтелекту, а й здатність одночасно підтримувати як мовні, так і відеомоделі, забезпечуючи їх ефективну взаємодію.

Це змагання на загальну фізичну витривалість.

Наступне поле битви вже визначено

Звичайно, індустрія також шукає шляхи виходу.

Переписування підказок з акцентом на агентну архітектуру, що дозволяє мовній моделі діяти як «командир», координуючи кілька інструментів генерації відео, та використання традиційних програм, таких як FFmpeg, для обробки проміжних етапів — ці напрямки мають спільну логіку: розділити вартість висновку мовної моделі та вартість генерації відео за допомогою дифузійних моделей, щоб кожен виклик генерації відео був більш точним і зменшити непотрібні обчислення та перенесення даних.

Еthan дуже впевнений у майбутньому «відеоагентів». Він передбачає, що до кінця цього року настане переломний момент — коли якість відео, згенерованого агентом, стабільно досягне рівня «придатного для комерційної реклами», тоді компанії справді почнуть готовитися платити за це, і загальна структура витрат відповідно зміниться.

Але є одна річ, що не зміниться: той, хто контролює зберігання та потік даних, контролює початок цієї гри.

На цьому ринку штучного інтелекту «справжні бар’єри» періодично змінюються. Спочатку це була кількість параметрів, потім масштаб навчальних даних, потім технології вирівнювання, а потім ефективність виведення. Зараз відео-ШІ розкриває наступний бар’єр — не якийсь таємничий алгоритмічний прорив, а холодний рахунок за інфраструктуру.

Цей рахунок з самого початку не був призначений для того, щоб його міг оплатити кожен.

*Джерело головного зображення: iMini AI