Статья обсуждает пути развития мировых моделей в области встраиваемого интеллекта. В настоящее время существуют два подхода: «замещающий» подход из Кремниевой долины, стремящийся полностью заменить VLA с помощью WAM, и доминирующий в Китае «интегрирующий» подход, который рассматривает мировые модели как дополнение к возможностям VLA. Статья указывает, что мировые модели сталкиваются с тремя пузырями — чрезмерным обобщением определений, высокими требованиями к вычислительным ресурсам и трудностями с практическим применением. Автор считает, что настоящие мировые модели должны быть встроены в реальные бизнес-циклы, помогая машинам действовать в физическом мире, а не просто стремиться к максимальной реалистичности генерируемых изображений.Автор статьи, источник: Axiom Labs
От VLA до WAM: переоцененная революция и недооцененная эволюция.
За последние полгода в области встраиваемого интеллекта произошло два самых шумных медиа-всплеска. Один касался экрана: от Sora до различных моделей генерации видео, которые последовательно демонстрировали свои возможности — детали разливающейся воды, движение персонажей в непрерывном пространстве — подняли нарратив «AI воссоздает реальность» до апогея, и возникали восклицания: «Вот и пришли мировые модели». Другой касался надгробия: главный научный сотрудник NVIDIA Джим Фан объявил с помощью мема, на котором WAM (World Action Model) стоит перед надгробием VLA (Vision-Language-Action Model), что «VLA мертв, да здравствуют мировые модели», прямо выведя спор о направлениях на первый план. (В данной статье обсуждаются только мировые модели встраиваемого интеллекта)
Два праздника объединены одним ключевым словом: мировая модель.
Но парадоксально то, что чем больше людей говорят о персонализированном интеллекте, тем более расплывчатым становится его определение: одни называют генерацию реалистичных видео «моделью мира», другие — предварительное моделирование движений роботов — «моделью мира», а третьи — симуляционную среду для автономного вождения тоже называют «моделью мира». Под одним и тем же понятием скрываются совершенно разные технические цели и коммерческие запросы.
Самая большая опасность современных моделей мира — это никогда не «неясное определение», а то, что все используют самую легкую для демонстрации и создания вирусного эффекта сторону, чтобы определить всю их ценность. Когда демонстрация «создания мира» затмевает суть «использования мира», модели мира уводятся теми, кто лучше всех умеет рассказывать истории, прочь от того места, куда они действительно должны идти: реальные физические сценарии Physical AI.
Модели мира, конечно, должны обладать способностью «создавать мир». Без тех впечатляющих генеративных демонстраций они не смогли бы так быстро попасть в поле зрения публики и капитала. Но для отрасли Physical AI создание мира — это лишь начало проблемы. В конечном счете, этот мир должен быть управляемым, проверяемым и корректируемым, чтобы стать пространством для предварительного моделирования и основой для принятия решений перед действиями машины. Генерация видео может открыть дверь в мир моделей, но не пройдет за них путь к реальному физическому миру.
Мы никогда не испытываем нехватки новых концепций и новых нарративов; эмбоди-интеллект обязательно проложит свой собственный универсальный путь. Тогда, назовется ли этот путь VLA, WAM или как-то иначе, возможно, это вообще перестанет иметь значение.
В конце концов, оно уже встроено в нашу жизнь.
Мировая модель не равна просто «генерации изображений»
Вы помните Sora?
В то время, когда OpenAI выпустила Sora, заголовок отчета звучал как «Модели генерации видео как симуляторы мира», и было объявлено, что модели генерации видео могут стать жизнеспособным путем к созданию «универсального симулятора физического мира». Тогда Sora продемонстрировала длинные видео с движением камеры, локальной трехмерной согласованностью и способностью поддерживать состояние объектов, впервые дав публике интуитивное ощущение: ИИ, похоже, действительно учится «создавать мир». По сравнению с текстом и изображениями, видео естественным образом соответствует человеческому интуитивному восприятию «мира» — с временем, пространством, движением и непрерывными изменениями, что легко вызывает иллюзию, будто модель уже овладела физическими законами.
Эти возможности идеально подходят для презентаций и легче всего привлекают внимание капитала и СМИ. Со временем «генерация видео = мировая модель» стала для многих стандартной точкой входа.
Это, конечно, не ошибка. В цифровых нативных сценариях подходы, основанные на генерации видео, являются эффективным решением, и уже появилось множество компаний-единорогов. Их продукты могут использоваться в игровой индустрии для создания динамических сцен в реальном времени, снижая затраты на графику и повышая свободу игроков; в областях с высокой стоимостью ошибок, таких как аэрокосмическая промышленность и передовое производство, они расширяют границы тестирования и обогащают симуляционные сценарии, что также имеет четкую коммерческую ценность. Создаваемая в этот момент «среда» — это не просто изображение для зрителей, а интерактивная, тестируемая симуляционная среда.
Настоящее недопонимание возникает на границе областей, когда модели мира сталкиваются с встраиваемым интеллектом: многие предполагают, что если модель может генерировать непрерывный и правдоподобный цифровой мир, это означает, что она обладает пониманием, предсказанием и способностью действовать в физическом мире.
Водитель Института искусственного интеллекта Цзиньхуа, Ван Чжунъюань, точно отметил: текущие технологии генерации видео, широко принимаемые в качестве представителей моделей мира, по сути являются лишь симуляцией мира на уровне пикселей. «Модели генерации видео могут создавать изображение стаи свиней, летящих вместе с самолетами, поскольку их обучающие данные содержат множество содержимого научно-фантастических фильмов; их цель никогда не заключалась в воспроизведении законов физического мира».
Классический сценарий с физическим взаимодействием достаточно ярко иллюстрирует эту разницу: захват стакана. Модель может генерировать стаканы, выглядящие одинаково с разных углов — это визуальная согласованность, которую она освоила на основе видеоданных. Но какова сила трения при прикосновении? Сможет ли материал выдержать соответствующее давление при захвате? Когда стакан падает на стол, это потому, что модель запомнила «стаканы обычно находятся на столе», или она действительно понимает законы гравитации, опорной силы и контактных ограничений? Сложные механические реакции, изменения состояния после контакта, причинно-следственные ограничения реальных физических законов — всё это не может быть охвачено одним сгенерированным видео. Когда сгенерированная машина, движущаяся боком, без проверки вводится в обучающую цепочку автономного вождения, реальный физический мир неизбежно ответит болезненной реакцией.
Другими словами, генерация видео — это одна из форм модели мира, которая уже успешно применена во многих сценариях, но она далеко не та модель мира, которую требует встроенная интеллектуальная система, и тем более не основная форма в контексте Physical AI. Определять модель мира встроенного интеллекта через визуальные эффекты «создания мира» означает использовать мерку цифрового мира для измерения проблем физического мира.
VLA мертв? Мировые модели — не революция, а дополнение
«VLA мертва, WAM наследует её» — это самый популярный нарратив в отрасли.
За последние два года VLA была основной парадигмой в области встраиваемого интеллекта. Она использует подход предварительного обучения крупных языковых моделей, создавая отображение «восприятие — команда — действие» на основе огромного объема данных дистанционного управления, что позволяет роботам переходить от жесткого повторения действий к пониманию естественного языка и разбиению сложных задач. Все основные игроки отрасли ранее использовали VLA в качестве базовой технологической платформы.
Однако слабое место VLA также очевидно: оно основано на имитационном обучении, что приводит к запоминанию и сопоставлению, но не обеспечивает глубинного понимания физических законов. Как только возникают новые сценарии или объекты, не встречавшиеся в данных, его способность к обобщению быстро теряется. Подход WAM, предложенный Джимом Фаном, как раз направлен на решение этой проблемы. Его основная логика заключается в переходе от «семантического понимания» к «физическому предсказанию»: вместо прямого вывода действий сначала предсказывается будущее состояние мира, а затем обратно вычисляется последовательность действий — это как если бы робот сначала «прогонял» последствия своих действий в воображении, прежде чем их выполнить, тем самым повышая способность адаптироваться к незнакомым сценариям.
Таким образом, теория «революции» быстро набрала обороты: VLA — это устаревшая старая парадигма, а модели мира — это следующее поколение ответов для встраиваемого интеллекта. Однако в реальной промышленной практике дело обстоит далеко не так просто, как «либо жив, либо мертв».
Отрасль разделяется на две четкие траектории, обусловленные различными технологическими философиями и коммерческими целями:
Одна из них — альтернативное направление, возглавляемое Кремниевой долиной. Представлено NVIDIA и Google DeepMind, оно опирается на обширные вычислительные ресурсы и запасы данных, стремясь к полной перестройке парадигмы. NVIDIA в Cosmos 3 объединила язык, изображения, видео и последовательности действий в единую рамку физической модели ИИ, пытаясь сделать генерацию, симуляцию и предсказание действий неразрывными компонентами. Waymo World Model, разработанный в сотрудничестве Waymo и Google DeepMind с использованием возможностей модели Genie 3, предназначен не только для генерации редких сценариев, таких как необычные погодные условия или внезапное появление животных, но и для того, чтобы эти сценарии управлялись действиями водителя, планировкой дороги и языковыми условиями, что позволяет тестировать реакцию систем автономного вождения в контрфактических ситуациях.
Этот путь самый амбициозный и наиболее соответствует «революционному нарративу», но барьеры для входа чрезвычайно высоки — это игра для крупнейших гигантов.
Еще одна более распространенная在国内 подход — «синтетический». Большинство игроков не выбрали полный перезапуск, а вместо этого интегрировали модель мира как дополнение к возможностям VLA, встроив ее в существующую архитектуру. В мае 2026 года ZhiSquare выпустила встроенную большую модель VLA под названием AlphaBrain. Вдохновленная разделением функций в человеческом мозге — «большой мозг — мозжечок — тело» — она объединяет «быструю и медленную системы», встроив способность «предварительного моделирования» модели мира непосредственно в архитектуру VLA: медленная система отвечает за восприятие состояния среды и планирование высокого уровня поведения, а быстрая система — за тонкую сенсорику и быструю обратную связь. Основатель ZhiSquare Го Яндун прямо заявляет: «Модель мира и VLA совершенно не противоречат друг другу — это всего лишь ветвь одной и той же технологической линии. Если вы хотите решать более долгосрочные задачи рассуждения, вам понадобится модель мира + VLA, или же объединение модели мира и VLA».
Galaxy General также достигла значительных успехов: их модель LDA-1B, выпущенная в апреле этого года, одновременно обучается стратегиям, физическому прогнозированию и визуальному восприятию в единой архитектуре, впервые объединив модель мира и модель действий на промышленном уровне в 1 миллиард параметров. Соответствующие результаты были приняты на ведущей конференции по робототехнике RSS, а веса модели и код обучения уже опубликованы как открытые. Они не зацикливаются на выборе между VLA и моделью мира, а более практично обеспечивают совместное использование одной и той же модели для прогнозирования и выполнения, извлекая преимущества каждой и компенсируя слабые стороны.
На наш взгляд, «замена» и «интеграция» не имеют абсолютного права или неправа — это просто разные выборы на разных этапах. VLA не «умрёт» по-настоящему, а мировые модели не являются революцией, уничтожающей всё; они дополняют VLA недостающей способностью физического прогнозирования. Итоговые отношения между ними, скорее всего, будут основаны на иерархическом сотрудничестве, а не на борьбе до победного конца. То, что действительно определяет победу того или иного подхода, — это не то, насколько концепция модна, а кто первым сможет наладить цепочку данных, симуляций и реального развертывания, чтобы роботы действительно вошли в реальные сценарии.
Модели мира еще не реализованы, но уже раздувают концептуальную истерию
Когда популярность концепции опережает её техническую реализацию, пузырь становится почти неизбежным результатом. В текущей гонке моделей мира уже проявилось как минимум три пузыря, на которые стоит обратить внимание.
Первый уровень — это определение пузыря. Сегодня «модель мира» превратилась в корзину, в которую можно положить всё что угодно. Ян Лекун считает её абстрактным предсказанием состояния мира, Ли Фейфей определяет её как интерактивное 3D-представление пространства, NVIDIA позиционирует её как физический генеративный симулятор на базе ИИ, стартапы кто-то использует генерацию видео для заполнения, а кто-то просто переименовывает традиционные симуляторы в «модель мира». В Китае уже десятки компаний заявляют о разработке модели мира, но, возможно, они имеют в виду совершенно разные вещи. Когда техническое понятие можно бесконечно интерпретировать, оно часто теряет смысл технического стандарта. За обобщением определений стоят совместные усилия по привлечению финансирования и маркетинговым нарративам: ведь называть это «моделью мира» гораздо выгоднее, чем «инструментом генерации видео» или «решением для оптимизации симуляции».
Вторым слоем является пузырь вычислительных мощностей. Основная траектория обучения современных моделей мира основана на огромных объемах видеоданных и сверхмощных вычислительных ресурсах — именно это является сильной стороной NVIDIA. Хуан Ренсюнь прямо заявил на конференции GTC, что чипы Blackwell и Rubin, а также сопутствующие системы, разработанные для моделей эмбоди-интеллекта и других применений, принесут NVIDIA как минимум 1 триллион долларов дохода к 2027 году. В определенном смысле, продвижение ведущими игроками Силиконовой долины концепции «универсальной мультимодальной модели мира» полностью соответствует коммерческой логике NVIDIA — продаже инфраструктуры вычислительных мощностей. Однако порог входа по затратам на эту траекторию для подавляющего большинства компаний является практически бездонным: даже небольшие команды, ранее инвестировавшие в VLA, с трудом могут позволить себе такие масштабы утерянных затрат, не говоря уже о входе в сегмент моделей мира с нуля. Когда все обсуждают лишь одну и ту же высокомощную траекторию, но почти никто не может точно рассчитать соотношение затрат и выгоды — это само по себе является сигналом пузыря.
Третий, и самый смертельный, — это пузырь реального внедрения. Все концептуальные нарративы в конечном итоге должны ответить на один и тот же вопрос: способны ли они действительно улучшить реальную производительность? Но реальность такова, что разрыв между симуляцией и реальностью не исчезнет автоматически лишь потому, что название модели изменилось с VLA на WAM. Мельчайшие артефакты, такие как проникновение через границы, антигравитация или нечеткие границы в видео, при обучении роботов закрепятся как ошибочные физические представления; прогноз, который выглядит разумно, но нарушает физические законы, может ввести реальный робот в заблуждение даже сильнее, чем полное отсутствие моделирования.
Бывший главный научный сотрудник Antelope Wave Шэнь Юйцзюнь отметил ключевое различие: в цифровом мире генеративные модели могут стремиться к высокой детализации и реалистичности, и небольшая задержка не имеет значения; однако модели физического мира должны в первую очередь быть быстрыми, стабильными и точными, способными обеспечивать мгновенную обратную связь и поддерживать действия. Многие команды сосредоточены на том, чтобы делать сценарии в цифровом мире все более реалистичными, но игнорируют то, что данные о реальных физических взаимодействиях являются самым дефицитным ресурсом. Модели мира могут демонстрировать отличные показатели в симуляциях, но пока они не подтвердили свою реальную ценность на производственных линиях, в логистических складах или на открытых дорогах, они остаются лишь научными исследованиями в лаборатории, а не промышленной инфраструктурой.
Так какова же должна быть модель мира для Physical AI или встраиваемого интеллекта? Ответ никогда не содержится в демонстрационных видео на презентациях, а заключается в требованиях реальных сценариев. Его основной критерий оценки — не «насколько реалистичен сгенерированный мир», а «может ли он помочь машине лучше действовать в физическом мире», снижать стоимость ошибок, повышать обобщающую способность и интегрироваться в реальные бизнес-циклы.
Из текущей практики отрасли видно, что настоящие игроки, движущиеся в правильном направлении, делают одно и то же: переводят модели мира с «ориентированного на демонстрацию» на «ориентированный на задачи» подход. Другими словами, конечная форма модели мира — это не отдельный «продукт», а базовая способность, встроенная в различные физические системы. Она скрыта в симуляционных бэкендах автономных автомобилей, в модулях планирования движений роботов, в предиктивных системах производственных линий, тихо выполняя задачи предсказания, проб и корректировок. Чаще всего пользователи даже не осознают её существования.
Тогда наступит эра мировых моделей, хотя их, конечно, можно называть иначе.
