Фей-Фей Лі публікує рамки для світових моделей у робототехніці та іграх

Фей-Фей Лі хоче вирішити суперечку, яка довго тривала в спільноті штучного інтелекту: що саме вважається «моделлю світу», а що — просто вишуканий генератор відео у лабораторному халаті.

Професор Стенфордського університету та генеральний директор World Labs опублікував «Функціональну таксономію світових моделей» 3 червня 2026 року, розробивши рамки, які класифікують світові моделі на три різні функції: рендерер, симулятор і планувальник. У статті стверджується, що ці три ролі утворюють взаємопов’язаний цикл, який лежить в основі того, що Лі називає «просторовою інтелігентністю» — видом ШІ, здатним реально розуміти та взаємодіяти з фізичними середовищами.

Три роботи, одна модель

Функція відображення відповідає за візуальну генерацію. Вона створює візуальні зображення високої точності на основі вхідних даних. Саме це і роблять більшість сучасних «моделей світу», і Лі стверджує, що системи, які застрягли на цьому рівні, взагалі не є справжніми моделями світу.

Функція симулятора працює глибше. Вона не просто показує, як виглядає щось. Вона моделює фізику, причинно-наслідкові зв’язки та те, як об’єкти взаємодіють з часом. Рендерер може показати вам, як куля котиться до краю скелі. Симулятор знає, що куля впаде.

Функція планувальника використовує розуміння симулятором того, як працює світ, для побудови планів дій. Це різниця між штучним інтелектом, який просто спостерігає за кухнею, і тим, що може зрозуміти, як приготувати вам сендвіч, не зламавши всі тарілки в шафі.

Ці три функції не працюють ізольовано. У статті Лі вони описуються як утворюють неперервний цикл, де кожна здатність підтримує та посилює інші. Рендерер інформує симулятор про візуальний контекст, симулятор надає планувальнику фізично обґрунтовані прогнози, а мети планувальника визначають, що рендерер і симулятор повинні пріоритизувати.

Чому робототехніці це так потрібно

Лі стверджував, включаючи раніший маніфест з листопада 2025 року, що світові моделі можуть звести до мінімуму розрив між симуляцією та реальністю. Якщо ви зможете створити достатньо точну цифрову копію фізичного світу, роботи зможуть спочатку навчатися саме там.

World Labs вже почала застосовувати цю теорію на практиці. Компанія запустила Marble — свій перший комерційний продукт — у листопаді 2025 року. Marble створює стійкі, високоякісні 3D-світи з багатомодальних запитів, що означає, що ви можете описати середовище за допомогою тексту, зображень або інших вхідних даних, а Marble побудує навігований 3D-простір на основі цього опису. Система вже використовується в середовищах робототехнічного моделювання.

На відміну від відео, яке є фіксованою послідовністю кадрів, світи Marble зберігають сталу геометрію та фізику під час вашого руху через них. Робот, який навчається в середовищі Marble, може підходити до однієї й тієї ж полиці з різних кутів і знаходити ті самі об’єкти на тих самих позиціях.

Гроші, що стоять за місією

World Labs зібрала 1 мільярд доларів у лютому 2026 року, розширивши попередній раунд у 230 мільйонів доларів. Серед інвесторів — AMD, Autodesk, NVIDIA та Fidelity.

Загальний обсяг фінансування в $1,23 млрд робить World Labs одним із небагатьох стартапів у сфері ШІ, що зосереджуються на просторовій інтелігенції, а не на гонці зброї великих мовних моделей, яка домінує в головних заголовках.