Команда Ли Фэй-Фэй поясняет концепцию «модели мира», Sora классифицируется как рендерер

3 июня 2026 года команда World Labs совместно с профессором Стэнфордского университета Ли Фэйфэй опубликовала концептуальную аналитическую статью с максимально прямым названием: «Классификация функций мировых моделей». Первая фраза статьи разрушает отраслевой молчаливый договор: «Мировые модели — один из самых важных и наиболее часто неправильно используемых терминов в области искусственного интеллекта сегодня».

Этот контекст знаком всем, кто хоть немного следил за индустрией ИИ.

В феврале 2024 года OpenAI выпустила модель генерации видео Sora, название технического отчета которой гласило: «Модель генерации видео как симулятор мира». Тогда Джим Фан, директор по робототехнике NVIDIA, оставил в LinkedIn комментарий, который позже стал широко цитироваться: «Sora по сути является “моделью мира, в которой единственным допустимым действием является отсутствие действия”». В то же время, согласно публичным сообщениям, команда AI Tesla неоднократно называла предсказательный компонент своей системы полного автономного вождения «моделью мира» или «симулятором мира». Игровые движки, инструменты для создания 3D-контента, модели встраиваемого интеллекта — все эти продукты и технологии были запихнуты в одну корзину и помечены одной и той же этикеткой.

Генератор видео, сеть для прогнозирования автономного вождения, модель управления роботом, физический движок — в чем их общее? Почти ни в чем. Но все они называются «моделями мира».

После более чем двухлетнего хаоса в понятиях наконец кто-то попытался систематически разобраться. Команда Ли Фэйфэй не представила новую модель, не объявила новый стандарт и не продемонстрировала никаких функций продукта. Они сделали что-то более фундаментальное: вернулись к теоретическому источнику — частично наблюдаемому марковскому процессу принятия решений — и свели все системы, называемые на рынке «моделями мира», к трем различным функциональным проекциям одного и того же когнитивного цикла.

Три проекции: рендерер, симулятор, планировщик. В классификационной рамке World Labs Sora и аналогичные модели генерации видео относятся к рендерерам.

Почему один термин может вместить столько взаимно противоречивых значений?

Чтобы понять корни этого хаоса, нужно сначала задать более фундаментальный вопрос: когда компания говорит «мы работаем над мировой моделью», что она имеет в виду?

Для OpenAI цель Sora — «понимать и воспроизводить физический мир в видео». Согласно техническому отчету, Sora, обучаясь на статистических закономерностях в огромном объеме видеоданных, способен генерировать изображения, соответствующие визуальной интуиции: чашка, упавшая на пол, разбивается, бумажный самолетик, выпущенный из рук, летит, а человек при ходьбе поочередно двигает ногами. Эти изображения выглядят так, будто «понимают физику».

Для Tesla «модель мира» — это нейронная сеть, предсказывающая траектории движения участников дорожного движения в течение следующих нескольких секунд в системе FSD. Она должна выводить точные 3D-позиции, скорость и направление, чтобы модуль планирования маршрута мог рассчитать безопасные решения для вождения. Эта модель не выводит пиксели — она выводит векторы и распределения вероятностей.

Для робототехнических компаний «модель мира» — это внутренний симуляционный механизм, позволяющий манипулятору предсказывать: «Если я сдвину эту чашку на 5 см влево, она упадет?». Ему необходимо понимать свойства объектов, контактную механику и устойчивость, а результатом является оценка выполнимости действия.

Цели трех типов компаний совершенно разные. Компании, занимающиеся генерацией видео, заботятся о точности воспроизведения пикселей, компании в области автономного вождения — о точности предсказания физического состояния, а компании в робототехнике — о предсказуемости последствий действий. Все они работают над «моделями мира», но на самом деле занимаются совершенно разными вещами.

World Labs в статье напрямую указывает на суть проблемы: эти системы получили одно и то же название, потому что действительно отражают какой-то аспект «понимания мира». Однако каждая из них выполняет лишь один этап полного цикла познания, но при этом маркетинговые формулировки, средства массовой информации и капиталистические нарративы представляют их как полные модели мира.

Еще одним фактором, усиливающим путаницу в понятиях, является напряженность самого термина. Слово «модель мира» само по себе несет в себе масштабный нарратив и звучит более вдохновляюще, чем «модель генерации видео» или «модель прогнозирования видео», лучше поддерживая высокую оценку и инвестиционные истории. Когда технические возможности не могут соответствовать общественным ожиданиям, превращение концепции в инструмент пропаганды становится неизбежным.

Вернуться к 1960-м годам, каким должен был быть полный «модель мира»

Классификационная рамка World Labs основана на кажущейся древней теории: частично наблюдаемый марковский процесс принятия решений.

Эта рамка описывает полный цикл взаимодействия агента с окружающей средой. Агент находится в определённом состоянии окружающей среды, выполняет действие, которое изменяет состояние окружающей среды, агент получает частичное наблюдение через сенсоры, наблюдение запускает обновление внутреннего состояния, обновлённое познание управляет следующим действием. Цикл повторяется.

В рамках этой модели полные функции «мировой модели» должны включать три этапа: генерация наблюдений из состояния (пиксели, облака точек и т.д., видимые человеческим глазом или собираемые сенсорами), прогнозирование следующего состояния на основе действия и текущего состояния (предсказание физических изменений), генерация действия на основе наблюдений и цели (планирование принятия решений).

Языковые модели изучают статистические закономерности текстовых последовательностей, а модели мира — статистические характеристики пространства и времени. Именно такие закономерности, как отражение света на различных поверхностях, движение объектов под действием силы тяжести и передача энергии при столкновении твердых тел, должны быть захвачены моделями мира.

Команда World Labs отмечает в статье, что все существующие сегодня системы, называемые «моделями мира», на самом деле являются проекциями лишь одного из этапов вышеуказанного полного цикла. Некоторые системы выполняют только рендеринг «от состояния к наблюдению», другие — только прогнозирование «от действия к следующему состоянию», третьи — только планирование «от наблюдения к действию». Каждая из них выделяет лишь дугу цикла, но при этом маркирует себя как полный круг.

Ценность этой аналитической рамки заключается в том, что она предоставляет сравнительную систему координат, выходящую за рамки маркетинговых формулировок. Независимо от того, как компания упаковывает свой продукт, достаточно поместить его обратно в цикл POMDP, чтобы посмотреть, что он получает на вход, что выдает на выходе и каких этапов не хватает — тогда его границы возможностей станут очевидны.

Границы возможностей трех проекций: рендерер, симулятор, планировщик

В классификации World Labs первый класс определяется как «рендерер». Его основная цель — генерировать высокоточное пиксельное изображение, ориентированное на человеческое визуальное восприятие. Входом является представление состояния среды (может быть текстовым описанием, параметрами 3D-сцены или неявным кодированием), а выходом — последовательные кадры.

Направление оптимизации рендерера — визуальная реалистичность, а не физическая точность. В статье World Labs прямо указано, что сгенерированные рендерером здания могут быть «неустойчивыми», поскольку он не решает уравнения структурной механики; брызги жидкости могут выглядеть реалистично, но объем жидкости, скорость потока и сила удара могут совершенно не соответствовать реальным физическим величинам. Следовательно, такие модели нельзя использовать для архитектурного проектирования, обучения роботов или любых задач, требующих физически точного моделирования.

Genie 3 от Google, различные модели преобразования текста в видео и почти все инструменты генерации видео на основе ИИ относятся к этой категории. Sora также входит в их число.

Второй тип — «симулятор». Его основная цель — не создавать изображения для человека, а генерировать точные состояния, пригодные для последующих вычислений. Входными данными являются текущее состояние среды и внешние силы (или действия), выходными — следующее состояние, точно соответствующее законам физики и геометрии реального мира. Состояния, генерируемые симулятором, могут использоваться для анализа напряжений, расчета энергопотребления, обнаружения столкновений, а также в качестве входных данных для рендерера для создания визуализации, но их основная ценность заключается в вычисляемости самого состояния.

NVIDIA Omniverse является типичным представителем таких систем. Это не модель, изначально созданная на основе ИИ, а платформа цифровых двойников, объединяющая традиционные физические движки и вычисления, ускоренные ИИ. World Labs в статье отмечает, что симуляторы служат мостом между рендерингом и планированием, однако основным ограничением является дефицит высококачественных 3D-физических аннотированных данных. По оценкам World Labs, представленным в статье, данных, используемых для обучения таких моделей, на несколько порядков меньше, чем видеоданных, доступных в интернете.

Третий тип — «планировщик». Его входными данными являются наблюдаемые данные (изображения с камер, облака точек лазерного сканирования, показания тактильных датчиков и т.д.) и целевые команды, а выходом — следующее действие, которое необходимо выполнить. Модели VLA (визуально-языковые-действия) и World Action Models относятся к этому типу.

Различия между тремя категориями — это не тонкие различия в технических подходах, а фундаментальная функциональная дифференциация. Рендерер выводит пиксели для человека, симулятор выводит состояние для машинных вычислений, планировщик выводит действия для исполнителей. Система может одновременно обладать несколькими способностями, но когда большинство систем, называемых «моделями мира», по сути выполняют только рендеринг, отождествление «рендеринга» с «пониманием мира» является серьезным когнитивным несоответствием.

Двухлетняя дискуссия: является ли Sora мировой моделью?

В феврале 2024 года OpenAI выпустила Sora, название технического отчета которого прямо гласило: «Модель генерации видео как симулятор мира». Эта формулировка немедленно вызвала ожесточенные споры в академическом сообществе и среди разработчиков.

Сторонники считают, что видео, сгенерированные Sora, демонстрируют трехмерную пространственную согласованность, устойчивость объектов и некоторое интуитивное понимание физических взаимодействий. Укушенный гамбургер оставляет следы зубов, а собака, бегущая по снегу, разбрасывает снежные брызги — эти детали кажутся свидетельством того, что модель освоила некоторые физические законы.

Основной аргумент противников основан на классическом определении мировой модели в области обучения с подкреплением: мировая модель должна быть способна предсказывать переходы состояний на основе действий. То есть, при заданном текущем состоянии и входе действия модель должна выводить следующее состояние после действия. Sora этого не делает. Пользователь не может сказать Sora «отодвинуть чашку влево» и затем наблюдать, упадет ли чашка, в каком направлении она упадет и куда разлетятся осколки.

Комментарий Джима Фана точно выявил это противоречие: «Sora по сути является моделью мира, но она допускает только no-op в качестве единственного действия». Это означает, что Sora действительно предсказывает эволюцию среды со временем, но этот процесс не подвержен никакому внешнему вмешательству и может развиваться только вдоль причинно-следственных цепочек, заложенных в данных видео. Он не осуществляет интерактивное моделирование, а лишь продолжает пассивную последовательность наблюдений.

На подразделе Reddit r/MachineLearning многие исследователи в области усиленного обучения выразили более резкую критику: системы, не способные предсказывать переходы состояний на основе действий, нельзя называть моделями мира, только моделями прогнозирования видео.

Классификационная рамка World Labs дает окончательный ответ на этот спор. В цикле POMDP действия являются ключевым входом, определяющим переходы состояний; система без этого входа представляет собой лишь проекцию этапа «генерации наблюдений» в полном когнитивном цикле. Sora — это рендерер, а не полная модель мира и тем более не симулятор мира.

Это не означает, что Sora не имеет ценности. Рендеринг решает другую задачу: как генерировать изображения, соответствующие человеческим визуальным ожиданиям. Эта задача сама по себе чрезвычайно сложна и обладает огромной коммерческой ценностью. Проблема в том, что представление возможностей рендеринга как «понимания мира» вводит в заблуждение технических руководителей и инвесторов, заставляя их ошибочно полагать, что эти модели уже обладают способностью к физическому моделированию или телесному взаимодействию.

Отраслевая ценность уточнения концепций

Определение границ понятия «модель мира» — это не академический спор о словах. Оно напрямую влияет на выбор технологий, инвестиционные решения и уровень понимания возможностей ИИ общественностью.

Для производственного предприятия, оценивающего возможность использования т.н. «модели мира» для обучения роботов, важно понять, является ли эта модель рендерером, симулятором или планировщиком, чтобы избежать миллионных потерь на пробах и ошибках. Модель, способная генерировать только видеокадры, даже самые реалистичные, не может заменить точные расчеты сил, траекторий движения и последствий столкновений.

Для инвестиционных институтов различение трех типов проекций позволяет более точно определить технологический стек, в котором находится проект. Стартап, называющий себя «моделью мира», но имеющий в основе продукт, являющийся рендерером, имеет в качестве конкурентов компании по генерации видео, а не платформы цифровых двойников или модели управления роботами. Это напрямую определяет способ оценки размера рынка и выбор аналогичных компаний.

Для академического сообщества четкая классификация является предпосылкой для создания сопоставимых эталонов. Если термин «модели мира» продолжит использоваться в обобщенном смысле, исследователям будет сложно определить, что считать улучшением, а что — прорывом, и рецензирование будет основываться на неоднозначности.

World Labs в статье также отмечает, что уточнение концепций не направлено на создание противостояния. Будущее развитие будет направлено на слияние трех типов проекций. Модель, действительно понимающая физические свойства чашки, должна уметь одновременно визуализировать ее внешний вид, симулировать физические процессы при опрокидывании и планировать, как манипулятор может надежно схватить ее. Однако до тех пор, пока технологии не достигнут этого уровня, осознание границ каждого из направлений имеет большее практическое значение, чем фантазии о их слиянии.

По оценкам World Labs, представленным в статье, симуляторы и технологии цифровых двойников, такие как NVIDIA Omniverse, нацелены на потенциальный рынок объемом более триллиона долларов в таких областях, как заводы, склады и цепочки поставок. Эта цифра основана на собственной оценке производителей; достижение этого масштаба рынка зависит от того, сумеют ли симуляторы преодолеть дефицит высококачественных 3D-физических данных.

Для текущего этапа индустрии ИИ наиболее важное понимание, возможно, очень простое: способность генерировать реалистичные видео не означает понимания физического мира; называться моделью мира не означает настоящего моделирования мира. Проникнув сквозь маркетинговую риторику и проанализировав, какие входные данные получает система в цикле POMDP, какие результаты она выдает и какого звена не хватает, — это самый честный способ оценить границы технологических возможностей.