Команда Лі Фей-Фей пояснює концепцію «світової моделі», Sora класифікується як рендерер

3 червня 2026 року команда World Labs разом із професором Стенфордського університету Лі Фейфей опублікувала концептуальну аналітичну статтю під прямолінійною назвою: «Функціональна класифікація світових моделей». Перше речення статті розкриває галузеву угоду: «Світові моделі — це один із найважливіших, а також найбільш часто неправильно використовуваних термінів у сфері штучного інтелекту сьогодні».

Цей контекст, хто хоч трохи стежив за AI-індустрією, не є незнайомим.

У лютому 2024 року OpenAI випустила модель генерації відео Sora, назва технічного звіту якої гучно стверджувала: «Модель генерації відео як симулятор світу». На той час Джим Фан, директор з робототехніки NVIDIA, залишив у LinkedIn коментар, який потім багато хто цитував: Sora є суттєво «моделлю світу, в якій єдиним дозволеним дією є бездіяльність». З іншого боку, за публічними повідомленнями, команда AI Tesla неодноразово називала внутрішній компонент прогнозування системи повністю автономного пілотування «моделлю світу» або «симулятором світу». Ігрові рушії, інструменти 3D-генерації, моделі ембодід-інтелекту — усі ці продукти й технології були засунуті в один кошик і позначені однією міткою.

Відеогенератор, мережа для передбачення автономного вождення, модель керування роботом, фізичний двигун — що їх об’єднує? Майже нічого. Але всі вони називаються «моделями світу».

Після двох з половиною років концептуальної плутанини нарешті хтось спробував систематично розібратися. Команда Лі Фейфей не представила нову модель, не оголосила новий стандарт і не продемонструвала жодних функцій продукту. Вони зробили щось більш фундаментальне: повернулися до теоретичного джерела — частково спостережуваного марківського процесу прийняття рішень — і звели всі системи, що називаються «світовими моделями», до трьох різних функціональних проекцій одного й того ж когнітивного циклу.

Три проекції: рендерер, симулятор, планувальник. У класифікаційній рамці World Labs Sora та подібні моделі генерації відео належать до рендерерів.

Чому один термін може містити стільки взаємно суперечливих значень?

Щоб зрозуміти коріння цієї хаосу, спочатку потрібно поставити більш фундаментальне питання: коли компанія каже «ми працюємо над світовою моделлю», що вона має на увазі?

Для OpenAI метою Sora є «розуміння та відтворення фізичного світу у відео». Згідно з технічним звітом, Sora, навчаючись статистичним закономірностям у величезних обсягах відеоданих, здатний генерувати зображення, що відповідають візуальній логіці: склянка, що падає на підлогу, розбивається, паперовий літак, що випускається з руки, летить, а людина, яка йде, почергово рухає ногами. Ці зображення виглядають так, наче «розуміють фізику».

Для Tesla «світова модель» — це нейромережа в системі FSD, яка передбачає траєкторії руху учасників руху протягом наступних кількох секунд. Вона повинна виводити точні 3D-позиції, швидкість та орієнтацію, щоб модуль планування маршруту міг розрахувати безпечні рішення щодо керування. Ця модель не має виводити пікселі — вона виводить вектори та ймовірнісні розподіли.

Для робототехнічних компаній «модель світу» — це внутрішній симуляційний механізм, що дозволяє маніпулятору передбачити: «Якщо я відштовхну цей склянку на 5 см вліво, вона перевернеться?». Він повинен розуміти властивості об’єктів, контактну механіку та стабільність, а на виході надає оцінку доцільності дії.

Мети трьох типів компаній абсолютно різні. Компанії з генерації відео звертають увагу на точність пікселів, компанії з автономного ведення транспортних засобів — на точність прогнозування фізичного стану, а компанії з робототехніки — на передбачуваність наслідків дій. Всі вони працюють над «моделями світу», але роблять зовсім не одне й те саме.

World Labs у статті прямо вказує на суть проблеми: ці системи отримали однакову назву, бо дійсно кожна з них відображає якийсь аспект «розуміння світу». Але кожна з них охоплює лише один етап повного циклу пізнання, тоді як маркетингові формулювання, медіа-покриття та капіталістичні нарративи представили їх як повні моделі світу.

Ще одним фактором, що сприяє плутанині понять, є внутрішнє напруження самих термінів. Слово «світова модель» має в собі велику нарративну складову — воно звучить більш образно й вражаюче, ніж «модель генерації відео» або «модель передбачення відео», і краще підходить для підтримки високих оцінок та історій інвестування. Коли технічні можливості не відповідають громадським очікуванням, перетворення цього поняття на інструмент пропаганди стає неминучим.

Що було б повноцінною «моделлю світу» у 1960-х роках?

Класифікаційна рамка World Labs побудована на основі теорії, яка здається застарілою: частково спостережуваний марковський процес прийняття рішень.

Ця рамка описує повний цикл взаємодії агента з середовищем. Агент перебуває в певному стані середовища, виконує дію, яка змінює стан середовища; агент отримує часткове спостереження через сенсори, яке спричиняє оновлення внутрішнього стану, а оновлена когнітивна модель керує наступною дією. Цикл повторюється.

У цій структурі повна функція «світової моделі» повинна включати три етапи: генерація спостережень із стану (пікселі, хмари точок тощо, які бачить людський око або збираються сенсорами), передбачення наступного стану на основі дій і поточного стану (прогнозування фізичних змін), та генерація дій із спостережень і мети (прийняття рішень та планування).

Мовні моделі вивчають статистичні закономірності текстових послідовностей, тоді як світові моделі вивчають просторові та часові статистичні характеристики. Як світло відбивається від поверхонь різних матеріалів, як об’єкти рухаються під дією сили тяжіння, як енергія передається після зіткнення твердих тіл — саме ці закономірності мають виявляти світові моделі.

Команда World Labs зазначає у статті, що всі системи, які зараз називаються «світовими моделями», насправді є лише проекціями окремих етапів зазначеного повного циклу. Деякі системи виконують лише «від стану до спостереження», інші — лише «від дії до наступного стану», а треті — лише «від спостереження до дії». Кожна з них вирізає лише дугу циклу, але позначає її як повний круг.

Цінність цієї аналітичної рамки полягає в тому, що вона надає порівняльну систему координат, яка виходить за межі маркетингових слів. Незалежно від того, як компанія пакує свій продукт, якщо її помістити назад у цикл POMDP, щоб побачити, що вона отримує на вхіді, що видає на виході та яких етапів бракує, її межі здатностей виявляються очевидними.

Межі можливостей рендерера, симулятора та планувальника

У класифікації World Labs перша категорія визначається як «рендерери». Їхній основний завдання — генерувати високоточні піксельні виводи, спрямовані на людське візуальне сприйняття. Вхідними даними є представлення певного стану середовища (може бути текстовий опис, параметри 3D-сцени або неявне кодування), а вихідним — послідовні кадри.

Напрямок оптимізації рендерера — візуальна реалістичність, а не фізична точність. У статті World Labs зазначено, що згенеровані рендерером будівлі можуть бути «хиткими», оскільки він не розв’язує рівняння структурної механіки; розбризкані рідини можуть виглядати дуже реалістично, але об’єм, швидкість потоку та сила удару рідини можуть повністю не відповідати реальним фізичним величинам. Тому такі моделі не можна використовувати для архітектурного проектування, навчання роботів чи будь-яких завдань, що вимагають фізично точного моделювання.

Genie 3 від Google, різні моделі перетворення тексту у відео та майже всі інструменти генерації відео на основі ШІ належать до цієї категорії. Sora також входить до них.

Другий тип — «симулятор». Його основна мета — не генерувати зображення для людини, а створювати точний стан, придатний для подальших обчислень. Вхідні дані — поточний стан середовища та зовнішні сили (або дії), вихідні дані — наступний стан, що відповідає фізичним і геометричним законам реального світу. Стан, що генерується симулятором, можна використовувати для аналізу напружень, обчислення енергоспоживання, виявлення зіткнень, а також як вхідні дані для рендерера, щоб створити візуалізацію, але його основна цінність полягає у обчислювальній природі самого стану.

NVIDIA Omniverse є типовим прикладом таких систем. Це не AI-навійна модель, а платформа цифрових близнюків, що поєднує традиційні фізичні двигуни та AI-прискорені обчислення. World Labs у статті оцінює, що симулятори є мостом між візуалізацією та плануванням, але основним обмеженням є нестача якісних 3D-фізичних анотованих даних. За оцінками World Labs у статті, даних, необхідних для навчання таких моделей, на кілька порядків менше, ніж відеоданих, доступних у Інтернеті.

Третій тип — «планувальник». Його вхідні дані — це спостережувані дані (зображення з камер, хмари точок лазерного сканера, показання тактильних датчиків тощо) та цільові команди, а вихід — яку дію слід виконати на наступному кроці. Моделі VLA (візуально-мовна-дія) та World Action Models належать до цієї категорії.

Різниця між трьома категоріями — це не дрібні розбіжності в технічних підходах, а фундаментальна функціональна диференціація. Рендерер виводить пікселі для людей, симулятор виводить стани для обчислення машинами, а планувальник виводить дії для виконавців. Система може одночасно володіти кількома здібностями, але коли більшість систем, які називаються «моделями світу», насправді здійснюють лише рендеринг, то тотожність «рендерингу» і «розуміння світу» є серйозною когнітивною помилкою.

Двірня тривала два роки, чи є Sora моделлю світу

У лютому 2024 року OpenAI випустила Sora, назва технічного звіту якої прямо стверджувала: «Моделі генерації відео як симулятори світу». Цей вибір слів викликав запеклі дискусії серед академічного середовища та спільноти розробників.

Прихильники вважають, що відео, згенероване Sora, демонструє 3D-просторову узгодженість, сталість об’єктів та певне інтуїтивне розуміння фізичних взаємодій. Зубний слід залишається на укушеному гамбургері, а собака, що біжить снігом, розкидає сніжинки — ці деталі, здається, свідчать про те, що модель засвоїла деякі фізичні закони.

Основний аргумент опонентів походить з класичного визначення світової моделі в галузі підсилювального навчання: світова модель повинна здатна передбачати перехід стану на основі дій. Іншими словами, за умови поточного стану та введення дії, модель повинна виводити наступний стан після дії. Sora цього не робить. Користувач не може сказати Sora «відштовхнути чашку зліва», а потім спостерігати, чи впаде чашка, в якому напрямку вона впаде та куди розлетяться уламки.

Коментар Джима Фана точно відображає цей суперечливий момент: «Sora за суттю є моделлю світу, але вона дозволяє лише бездіяльність (no-op) як єдину дію». Це означає, що Sora дійсно передбачає, як середовище змінюється з часом, але цей процес змін не піддається жодному зовнішньому впливу — він може розвиватися лише вздовж причинно-наслідкових ланцюжків, вбудованих у відеодані. Він не здійснює інтерактивне моделювання, а лише продовжує пасивну послідовність спостережень.

На Reddit у розділі r/MachineLearning багато дослідників підсиленого навчання висловили більш гостру критику: системи, які не можуть передбачати перехід стану на основі дій, не можна називати моделями світу, лише моделями прогнозування відео.

Класифікаційна рамка World Labs дає вирішувальну відповідь на цю суперечку. У циклі POMDP дії є ключовим вхідним сигналом, що забезпечує перехід станів; система без цього вхідного сигналу є лише проекцією етапу «генерації спостережень» у повному когнітивному циклі. Sora є рендерером, а не повноцінною світовою моделлю, тим більше не світовим симулятором.

Але це не означає, що Sora не має цінності. Рендеринг вирішує іншу проблему: як генерувати зображення, що відповідають людським візуальним очікуванням. Ця проблема сама по собі надзвичайно складна і має великий комерційний потенціал. Проблема полягає в тому, що подання здатності рендерингу як «розуміння світу» вводить у оману технічних фахівців і інвесторів, змушуючи їх вважати, що ці моделі вже володіють здатністю фізичного моделювання або тілесної взаємодії.

Промислова цінність уточнення понять

Визначення меж поняття «світова модель» — це не академічна гра зі словами. Це безпосередньо впливає на вибір технологій, інвестиційні рішення та рівень розуміння можливостей ШІ серед громадськості.

Для виробничої компанії, яка оцінює можливість використання певної «світової моделі» для навчання роботів, зрозуміння, чи є ця модель рендерером, симулятором чи планувальником, є необхідною умовою для уникнення мільйонів доларів витрат на спроби та помилки. Модель, яка здатна лише генерувати відеозображення, навіть дуже реалістичні, не може замінити точні розрахунки сил, траєкторій руху та наслідків зіткнень.

Для інвестиційних інституцій розрізнення трьох типів проекцій дозволяє точніше визначити, де саме проект розташований у технологічному стеку. Стартап, який називає себе «світовою моделлю», але чий продукт за суттю є рендерером, має конкурентами компанії з генерації відео, а не платформи цифрових близнюків чи моделі керування роботами. Це безпосередньо впливає на методи оцінки ринкового розміру та вибір компаній-аналогів.

Для академічної спільноти чітка класифікація є передумовою для створення порівнянних еталонів. Якщо термін «світові моделі» продовжуватиме узагальнюватися, дослідникам буде важко визначити, що вважати покращенням, а що — проривом, і рецензування колегами буде базуватися на неоднозначностях.

World Labs у статті також зазначає, що метою пояснення концепцій не є створення протистояння. Майбутній напрямок розвитку — це об’єднання трьох типів проекцій. Модель, яка справді розуміє фізичні властивості склянки, повинна здатна одночасно відтворювати її візуальний вигляд, симулювати фізичні процеси при її перевертанні та планувати, як маніпулятор може стабільно її захопити. Але до того моменту, як технології досягнуть цього рівня, розуміння меж кожної з них має більше практичного значення, ніж мрії про їх об’єднання.

За оцінками World Labs у статті, симулятори та технології цифрових двійників, такі як NVIDIA Omniverse, спрямовані на потенційний ринок понад трильйон доларів США у сфері заводів, складів та ланцюгів поставок. Ця цифра походить із оцінок самих виробників; досягнення цього рівня ринком залежить від того, чи зможуть симулятори подолати обмеження, пов’язане з дефіцитом якісних 3D-фізичних даних.

Для поточного етапу індустрії ШІ найважливішим розумінням, можливо, є дуже просте: здатність генерувати реалістичні відео не означає розуміння фізичного світу; називати систему «моделлю світу» не означає, що вона справді симулює світ. Проникнути крізь маркетингову мову, проаналізувавши, які вхідні дані отримує система в циклі POMDP, які результати вона видає та який елемент відсутній — це найчесніший спосіб оцінити межі технічних можливостей.