Фей-Фей Ли публикует рамочную структуру для мировых моделей в робототехнике и играх

Фей-Фей Ли хочет уладить спор, который уже некоторое время ведётся в сообществе ИИ: что действительно считается «моделью мира», а что просто изысканный генератор видео в лабораторном халате.

Профессор Стэнфордского университета и генеральный директор World Labs опубликовал «Функциональную таксономию мировых моделей» 3 июня 2026 года, представив рамки, классифицирующие мировые модели на три отдельные функции: рендерер, симулятор и планировщик. В статье утверждается, что эти три роли образуют взаимосвязанный цикл, лежащий в основе того, что Ли называет «пространственным интеллектом» — видом ИИ, способным действительно понимать и взаимодействовать с физическими средами.

Три работы, одна модель

Функция рендеринга отвечает за визуальную генерацию. Она создает высокоточные визуальные представления на основе входных данных. Именно это и делают большинство современных «моделей мира», и Ли убедительно аргументирует, что системы, застрявшие на этом уровне, не являются настоящими моделями мира.

Функция симулятора работает глубже. Она показывает не только, как что-то выглядит. Она моделирует физику, причинно-следственные связи и то, как объекты взаимодействуют со временем. Рендерер может показать вам, как мяч катится к краю обрыва. Симулятор знает, что мяч упадет.

Функция планировщика использует понимание симулятором того, как устроен мир, чтобы определять последовательности действий. Это разница между ИИ, который просто наблюдает за кухней, и ИИ, который может понять, как приготовить вам бутерброд, не разбив все тарелки в шкафу.

Эти три функции не работают изолированно. В статье Ли они описываются как образующие непрерывный цикл, где каждая способность подпитывает и усиливает другие. Рендерер информирует симулятор о визуальном контексте, симулятор предоставляет планировщику физически обоснованные прогнозы, а цели планировщика определяют, что рендереру и симулятору нужно приоритизировать.

Почему робототехнике это так необходимо

Ли утверждал, в том числе в более раннем манифесте от ноября 2025 года, что мировые модели могут преодолеть разрыв между симуляцией и реальностью. Если вы сможете создать достаточно точную цифровую копию физического мира, роботы смогут сначала обучаться там.

World Labs уже приступила к практическому применению этой теории. Компания запустила свой первый коммерческий продукт Marble в ноябре 2025 года. Marble создает постоянные, высокоточные 3D-миры на основе мультимодальных запросов, что означает: вы можете описать среду с помощью текста, изображений или других входных данных, а Marble построит на основе этого описания навигируемое 3D-пространство. Система уже используется в средах робототехнического моделирования.

В отличие от видео, которое представляет собой фиксированную последовательность кадров, миры Marble сохраняют постоянную геометрию и физику при перемещении через них. Робот, обучающийся в среде Marble, может подходить к одной и той же полке с разных углов и находить одни и те же объекты на тех же позициях.

Деньги, стоящие за миссией

World Labs привлекла 1 миллиард долларов в феврале 2026 года, продолжив предыдущий раунд на 230 миллионов долларов. Среди инвесторов — AMD, Autodesk, NVIDIA и Fidelity.

Общий объем финансирования в 1,23 млрд долларов США ставит World Labs в исключительное положение среди стартапов в области ИИ, сосредоточенных на пространственном интеллекте, а не на гонке вооружений в области крупных языковых моделей, которая доминировала в заголовках.