Стаття розглядає шляхи розвитку світових моделей у галузі ембодірованого інтелекту. Зараз існують дві стратегії: «замінювальна» школа з Сіліконової долини, яка прагне повністю замінити VLA за допомогою WAM, та домінуюча в країні «інтеграційна» школа, яка розглядає світові моделі як доповнення до VLA. У статті зазначається, що світові моделі стикаються з трьома бульбашками — надмірним узагальненням визначень, високими вимогами до обчислювальних ресурсів та складністю практичного застосування. Автор вважає, що справжня світова модель має бути вбудована в реальний бізнес-цикл, допомагаючи машинам діяти у фізичному світі, а не просто прагнути до максимально реалістичного генерування зображень.

Автор статті, джерело: A Priori Lab

Від VLA до WAM: переоцінена революція та недооцінена еволюція.

За останні шість місяців у сфері ембодід-інтелекту відбулося дві найбільш шумні інтелектуальні бурі. Одна стосувалася екранів: від Sora до різноманітних моделей генерації відео, які почергово демонстрували свою потужність — деталі розливання води, рухи персонажів у безперервному просторі — що підняло розповідь про «AI, що відтворює реальність» до вершини, а заклики «Настав час світових моделей!» лунали по всьому світу. Інша стосувалася надгробків: головний науковий дослідник NVIDIA Джим Фан оголосив про «смерть VLA» за допомогою мема, на якому WAM (World Action Model) стоїть перед надгробком VLA (Vision-Language-Action Model), і прямо винес на перший план боротьбу між шляхами. (У цій статті обговорюються лише світові моделі ембодід-інтелекту)

Дві святкові події мають спільне ключове слово: світова модель.

Але дивно те, що чим більше людей говорять про ембодід-інтелект, тим більше він стає нечітким: хтось називає генерацію реалістичних відео моделлю світу, хтось — попереднє моделювання рухів робота моделлю світу, а хтось — симуляційне середовище для автономного транспорту також називає моделлю світу. Під одним і тим самим поняттям схований зовсім різний технічний контекст і комерційні цілі.

Найбільша небезпека сьогоднішніх світових моделей — це не «нечітке визначення», а те, що всі використовують найбільш вражаючу та легко поширювану їхню сторону, щоб визначити всю їхню цінність. Коли демонстрація «створення світу» заглушає суть «використання світу», світові моделі під керівництвом найкращих розповідачів відводяться від того місця, куди вони справді повинні йти: реальні фізичні сценарії Physical AI.

Світові моделі, звичайно, потребують здатності «створювати світ». Без тих захоплюючих генераційних демонстрацій вони не потрапили б так швидко в поле зору громадськості та капіталу. Але для індустрії Physical AI створення світу — це завжди лише початок проблеми. Світ у кінцевому підсумку має бути керований, перевірений, виправлений і перетворений на простір передбачення та основу для прийняття рішень перед діями машини. Генерація відео може відкрити двері до світових моделей, але не зможе пройти за них шлях до справжнього фізичного світу.

Нам ніколи не бракує нових ідей та нових історій; інтелект у тілі обов’язково знайде свою універсальну дорогу. Тоді, чи називатиметься цей шлях VLA, WAM, чи якось інакше, можливо, зовсім не матиме значення.

В кінці кінців, воно вже вкорінилося в нашому житті.

Світова модель не дорівнює «генерації зображень»

Пам’ятаєте Sora?

Тоді, коли OpenAI випустила Sora, заголовок звіту був «Моделі генерації відео як симулятори світу», і було оголошено, що моделі генерації відео можуть стати придатним шляхом до створення «універсального симулятора фізичного світу». Тоді Sora продемонструвала довгі відео з вмілим рухом камери, локальною 3D-сумісністю та здатністю зберігати стан об’єктів, і громадськість вперше інтуїтивно відчула: штучний інтелект, схоже, справді вчиться «будувати світ». У порівнянні з текстом і зображеннями, відео природно відповідає людській інтуїції щодо «світу» — воно має час, простір, рух і безперервні зміни, що легко створює ілюзію, що модель вже оволоділа фізичними законами.

Ці здібності природно підходять для демонстрації на презентаціях і найбільш легко привертають увагу капіталу та ЗМІ. З часом «генерація відео = світова модель» стала загальноприйнятим вхідним пунктом для багатьох.

Це, звичайно, не помилка. У цифрово-натуральних сценаріях генерація відео є ефективним рішенням, і вже з’явилося багато унікорнів. Їхні продукти в ігровій індустрії можуть використовуватися для генерації динамічних сцен у реальному часі, що знижує витрати на графіку та підвищує свободу гравців; у галузях з високими витратами на помилки, таких як авіакосмічна промисловість та високотехнологічне виробництво, вони розширюють межі тестування та багатою симуляційні сценарії, що також має чітку комерційну цінність. Генероване в цей момент «середовище» — це не просто зображення для глядачів, а інтерактивне, тестоване симуляційне середовище.

Справжнє непорозуміння виникає на кордонах, коли світові моделі зустрічаються з ембодірованим інтелектом: багато хто вважає, що здатність моделі генерувати неперервний, правдоподібний цифровий світ означає, що вона володіє розумінням, прогнозуванням і здатністю діяти у фізичному світі.

Голова Пекінського інституту штучного інтелекту Зхі Юань висловився дуже точно: сучасні технології генерації відео, які широко вважаються представниками світових моделей, за суттю є лише симуляцією світу на рівні пікселів. «Моделі генерації відео можуть створювати відео, де свині літають разом із літаками, оскільки їхні навчальні дані містять велику кількість контенту з науково-фантастичних фільмів; їхня мета ніколи не полягала у відтворенні законів реального фізичного світу».

Класичний приклад тілесної ситуації достатній, щоб показати різницю: підйом чашки. Модель може генерувати чашки з різних кутів з однаковим зовнішнім виглядом — це візуальна консистентність, яку вона засвоїла з відеоданих; але яка сила тертя виникає під час дотику? Чи витримає матеріал відповідний тиск? Коли чашка падає на стіл, це тому, що модель запам’ятала «чашки зазвичай на столі», чи вона справді розуміє гравітацію, опорну силу та контакти? Складні механічні відгуки, зміни стану після контакту, причинно-наслідкові обмеження реальних фізичних законів — це не те, що може охопити лише згенероване відео. Коли згенерований автомобіль, що рухається поперек, без перевірки вводиться в навчальну ланцюжок автономного водіння, реальний фізичний світ неодмінно дасть болючу відповідь.

Іншими словами, генерація відео — це одна з форм світової моделі, яка вже успішно застосовується в багатьох сценаріях, але вона далеко не та світова модель, яку передбачає ембодід-інтелект, і тим більше не є основною формою у контексті Physical AI. Визначати світову модель ембодід-інтелекту через візуальний ефект «створення світу» — це означає використовувати мірку з цифрового світу для вимірювання проблем фізичного світу.

VLA мертвий? Світові моделі — це не революція, а доповнення

«VLA помер, WAM успадкував» — це найпопулярніша історія в галузі.

За останні два роки VLA була основною стратегією в галузі ембодієнтованого інтелекту. Вона базується на підході до попереднього навчання великих мовних моделей, використовуючи величезний обсяг даних про дистанційне керування для створення відповідності між «відчуттям — командою — дією», що дозволяє роботам перейти від жорстких повторюваних дій до розуміння природної мови та розкладання складних завдань. Усі основні гравці галузі раніше використовували VLA як основу своєї технологічної бази.

Але слабкі місця VLA дуже очевидні: вони базуються на імітаційному навчанні, що зводиться до запам’ятовування та відображення, а не до глибинного розуміння фізичних законів — і вже при зустрічі з новими сценаріями або об’єктами, яких не було в даних, їх здатність до узагальнення швидко зникає. Підхід WAM, запропонований Джимом Фаном, саме спрямований на вирішення цієї проблеми. Його основна ідея — перехід від «семантичного розуміння» до «фізичного прогнозування»: замість безпосереднього виведення дій, спочатку прогнозується майбутній стан світу, а потім обчислюється послідовність дій у зворотному порядку — це еквівалентно тому, щоб робот перед дією «програвав» у своїй уяві наслідки, що підвищує його здатність адаптуватися до незнайомих сценаріїв.

Тому «теорія перевороту» швидко поширилася: VLA — це застаріла парадигма, а світові моделі — це наступне покоління відповідей для ембодірованого інтелекту. Але у реальних промислових застосуваннях справи набагато складніші, ніж «або життя, або смерть».

Галузь розділилася на дві чіткі лінії, що ґрунтуються на різних технологічних філософіях та комерційних цілях:

Одна лінія — альтернативна, що домінується Сіліконовою долиною. До неї належать NVIDIA та Google DeepMind, які, опираючись на достатню обчислювальну потужність та запаси даних, прагнуть до повної перебудови парадигми. NVIDIA у Cosmos 3 об’єднала мову, зображення, відео та послідовності рухів у єдиній фреймворці Physical AI, намагаючись зробити генерацію, симуляцію та прогнозування рухів не окремими модулями, а єдиним цілим. Waymo World Model, розроблений у співпраці Waymo та Google DeepMind за допомогою моделі Genie 3, використовується не лише для генерації рідкісних сценаріїв, таких як незвичайні погодні умови або втручання тварин, а головне — для того, щоб ці сценарії керувалися діями водія, розташуванням доріг та мовними умовами, щоб тестувати реакцію систем автономного вождення у контрфактичних ситуаціях.

Цей шлях найбільш амбітний і найбільш відповідає «революційному нарративу», але має дуже високі бар’єри — це гра топових гігантів.

Інший підхід — більш поширений у Китаї — «фузійний». Більшість гравців не вибрали повного перебудовування, а замість цього включили модель світу як доповнення до можливостей VLA, інтегрувавши її в існуючу архітектуру. У травні 2026 року Zhifangping випустила вбудовану велику модель VLA під назвою AlphaBrain. Вона запозичила механізм розподілу обов’язків людського мозку «великий мозок — мозочок — тулуб» і за допомогою взаємодії «швидкої та повільної систем» вбудувала здатність «передбачення» моделі світу безпосередньо всередину архітектури VLA — повільна система відповідає за сприйняття стану середовища та високорівневе планування поведінки, швидка система — за дрібні сенсорні дані та швидку відповідь. Засновник Zhifangping Го Яньдун чітко стверджує: «Модель світу і VLA абсолютно не суперечать одне одному — це просто галузь однієї технологічної лінії. Якщо ви хочете вирішувати довгострокові завдання міркування, вам знадобиться модель світу + VLA або їх об’єднання».

Galaxy General також досягла великих успіхів: їхня модель LDA-1B, випущена в квітні цього року, одночасно вивчає стратегії, передбачає фізичні процеси та здійснює візуальну сприйняття в єдиній фреймворці, вперше досягнувши об’єднання моделі світу та моделі дій на промисловому рівні в 1 мільярд параметрів. Відповідні результати були прийняті на провідній конференції з робототехніки RSS, а ваги моделі та код навчання вже відкрито випущені. Вони не зосереджуються на питанні «вибрати VLA чи модель світу», а замість цього практично об’єднують передбачення та виконання в одній моделі, використовуючи сильні сторони кожного підходу та компенсуючи слабкості.

На нашу думку, «заміна» та «інтеграція» не мають абсолютної правоти чи помилки — це просто різні вибори на різних етапах. VLA не «помре» справді, а світові моделі не є революцією, що зруйнує все; вони доповнюють VLA саме тією відсутньою здатністю до фізичного прогнозування. Фінальна взаємодія між ними, ймовірно, буде полягати у шаровій співпраці, а не у боротьбі на виживання. Насправді, перемогу визначає не те, наскільки концепція модна, а хто першим зможе налагодити ланцюжок: дані, симуляції та реальне розгортання, щоб роботи справді потрапили у реальні сценарії.

Моделі світу ще не реалізовані, але вже розгортається концептуальна ілюзія

Коли популярність концепції випереджає її технічну реалізацію, пузирі майже неминучі. У сьогоднішньому секторі світових моделей вже виявлено щонайменше три пузирі, які вимагають уваги.

Першим етапом є визначення бульбашки. Сьогодні «світова модель» перетворилася на кошик, у який можна все підкидати. Ян Лекун вважає її абстрактним прогнозом стану світу, Лі Фейфей визначає її як інтерактивне 3D-представлення простору, NVIDIA позиціонує її як фізичний генеративний симулятор на основі ШІ, деякі стартапи використовують генерацію відео як підміну, а інші просто перейменовують традиційні симуляційні рушії на «світову модель». У Китаї вже десятки компаній оголошують про розробку світових моделей, але, ймовірно, кожна з них має на увазі зовсім різну річ. Коли технічне поняття можна безмежно тлумачити, воно втрачає значення технічного критерію. За узагальненням визначень стоїть спільний тиск із боку потреб у фінансуванні та маркетингових історій — адже назва «світова модель» звучить набагато цінніше, ніж «інструмент генерації відео» або «рішення для оптимізації симуляцій».

Другим етапом є інвестиційна бульбашка обчислювальних потужностей. Основний підхід до навчання світових моделей ґрунтується на величезних обсягах відеоданих та надвеликій обчислювальній потужності — саме це є сферою впливу NVIDIA. Хуан Ренсюнь прямо заявив на конференції GTC, що до 2027 року чіпси Blackwell і Rubin, а також супутні системи, розроблені для моделей ембодід-інтелекту, принесуть NVIDIA щонайменше 1 трильйон доларів доходу. У певному сенсі, підтримка головними гравцями Сіліконової долини напрямку «універсальна мультимодальна світова модель» дуже добре узгоджується з бізнес-логікою NVIDIA — продаж інфраструктури обчислювальних потужностей. Але вартість входу на цей шлях для більшості компаній є неподоланною. Навіть невеликі команди, які раніше інвестували у VLA, важко зможуть витримати такий розмір необоротних витрат, не кажучи вже про те, щоб почати з нуля в сфері світових моделей. Коли всі обговорюють один і той самий високопотужний напрямок, але майже ніхто не може чітко розрахувати співвідношення витрат і прибутку — це саме й є сигнал бульбашки.

Третій, найбільш смертельний ефект — це розбіжність між моделлю та реальністю. Усі концептуальні історії в кінцевому підсумку повинні відповісти на один і той самий питання: чи здатна вона реально покращити продуктивність? Але реальність така: розрив між симуляцією та реальністю не зникає автоматично лише тому, що назва моделі змінилася з VLA на WAM. Навіть дрібна помилка в відео — наприклад, проникнення через об’єкт, антигравітація або нечіткі межі — при перенесенні на навчання робота може закріпитися як помилкове фізичне уявлення. Прогноз, який виглядає логічним, але суперечить фізичним законам, може ввести реального робота в оману глибше, ніж зовсім не використовувати модель для навчання.

Головний науковець Antelope Bot, Шень Юйцзюнь, зазначив ключову відмінність: у цифровому світі генеративні моделі можуть прагнути до високої чіткості та реалістичності, і трохи повільніше — не страшно; але для моделей фізичного світу першочерговою вимогою є швидкість, стабільність та точність — необхідно отримувати відгуки в реальному часі та підтримувати дії. Багато команд зосереджені на тому, щоб робити сценарії у цифровому світі все більш реалістичними, але ігнорують те, що дані про справжні фізичні взаємодії є найбільш дефіцитним ресурсом. Моделі світу можуть показувати чудові показники у симуляції, але поки вони не підтвердили свою справжню цінність на виробничих лініях, в логістичних складах чи на відкритих дорогах, вони залишаються лише науковими дослідженнями в лабораторії, а не інфраструктурою промислового рівня.

Отже, яким має бути світова модель для Physical AI або ембодід-інтелекту? Відповідь ніколи не знаходиться у демонстраційних відео на презентаціях, а в реальних вимогах сценаріїв. Її основний критерій оцінки — не «наскільки реалістичним є згенерований світ», а «чи допомагає вона машинам краще діяти у фізичному світі», чи зменшує вона витрати на спроби та помилки, чи підвищує універсальність, чи інтегрується у реальні бізнес-циклы.

Згідно з поточними практиками галузі, справжні учасники, що рухаються в правильному напрямку, роблять одне й те саме: перетворюють світові моделі з «орієнтованих на демонстрацію» на «орієнтовані на завдання». Іншими словами, кінцева форма світової моделі — це не самостійний «продукт», а базова здатність, вбудована в різноманітні фізичні системи. Вона прихована в симуляційних фонових процесах автономного ведення транспорту, у модулях планування руху роботів, у передбачувальних системах заводських ліній, тихо виконуючи передбачення, проби, корекції. Більшість користувачів навіть не відчувають її існування.

Саме тоді настав час світових моделей, хоча їх можна було б назвати інакше.

Світові моделі в осягненій інтелігентності: шлях вперед поза візуальним генеруванням

Світова модель не дорівнює «генерації зображень»

VLA мертвий? Світові моделі — це не революція, а доповнення

Моделі світу ще не реалізовані, але вже розгортається концептуальна ілюзія