От кода к познанию: Глубокий обзор эволюции роботизированных мозгов

Автор: Matt White, глобальный главный технический директор по ИИ Linux Foundation

Составил: Феликс, PANews

Человекоподобные роботы

Ван Синьсинь (генеральный директор Unitree Technologies) и Мэтт Уайт

Несколько недель назад в Шанхае во время ужина один из моих спутников в поездке (умный человек, который обычно следит за новостями и наблюдает за окружающим, но не очень разбирается в робототехнике) задал вопрос, на который я ждал весь маршрут.

Мы видели роботизированных собак, бегающих повсюду, роботов-андроидов, выполняющих кунг-фу на демонстрационной сцене в офисе Unitree, и роботизированные руки, складывающие одежду. Как они это делают? Их управляет крупная языковая модель (LLM)? Как именно это работает? Существует ли какая-то языковая модель, управляющая их движениями?

Это отличный вопрос, и честно говоря: в некоторой степени да, но реальная история намного интереснее. Роботы, которых вы видите в социальных сетях, — это не ChatGPT в металлическом корпусе. Они работают на стеке технологий (многоуровневое взаимодействие ИИ). Этот стек за последние три года изменился больше, чем за последние тридцать лет. Языковые модели — лишь часть этого стека. Важную роль также играют визуальные модели, модели действий, деревья поведения, классические контуры управления и новая семья систем под названием «модели мира». А «модели мира», пожалуй, являются наиболее важным из всех развивающихся направлений.

Это длинная статья, которая начнётся с самого начала, постепенно описывая каждое крупное изменение, и в конечном итоге достигнет нынешнего этапа: роботы теперь не только могут реагировать на мир, но и представлять его.

Один: Эпоха до LLM — когда роботы были просто программным обеспечением

На протяжении десятилетий создание роботов означало написание огромного количества кода, и почти весь этот код не требовал изучения.

Классические промышленные роботы представляют собой башнеобразную структуру, состоящую из тщательно спроектированных модулей. Например, оранжевый манипулятор, сваривавший шасси Toyota в 90-х годах прошлого века, или BigDog от Boston Dynamics начала 2000-х.

Восприятие: фильтрация изображения с камеры, обнаружение краев, идентификация положения детали с использованием геометрического сопоставления.
Оценка состояния: определение положения и скорости движения робота с использованием колесных энкодеров, гироскопа и акселерометра (слияние сенсоров).
Планирование: при заданной целевой позе вычислить бесконфликтный путь на известной карте с использованием алгоритмов, таких как A* или RRT.
Control: At the lowest level, the PID controller adjusts motor torque hundreds or thousands of times per second to follow the path.

Эти уровни обычно создаются разными сотрудниками различных лабораторий и тщательно склеиваются друг с другом. Поведение (например, «если чашка красная, возьми её, иначе подожди») кодируется как конечный автомат или дерево поведения: то есть блок-схема, которую робот выполняет пошагово.

Человекоподобные роботы

Преимущества этого метода очевидны. Он предсказуем и соответствует стандартам безопасности. Именно поэтому ваш автомобиль оснащен эффективной системой ABS.

Недостатки также очевидны. Такой робот может проявить свой интеллект только в сценариях, предвиденных инженерами. Как только его поместить в новую фабрику, при новых условиях освещения или при новом цвете стаканов, он сломается. Его способность к обобщению практически равна нулю.

Второе: машинное обучение незаметно вмешивается

В 2010-х годах глубокое обучение начало решать задачи на уровне восприятия. Сверточные нейронные сети (CNN), которые превзошли людей в задаче классификации изображений ImageNet, можно было дообучить для обнаружения точек захвата на объектах, сегментации мебели в комнате или распознавания позы человека. Внезапно уровень «восприятия» на вершине технологического стека больше не требовал ручной настройки — его можно было просто обучить.

Затем механизм обучения распространился на уровень «управления». Исследователи из Беркли, DeepMind и OpenAI показали, что усиленное обучение (позволяющее роботизированным агентам пробовать миллионы раз в симулированной среде и усиливать эффективные действия) может порождать удивительно ловкие походки, манипуляции с объектами руками (OpenAI решила головоломку одной рукой в 2019 году — это был важный этап), а также стратегии движения, адаптирующиеся к различным типам местности.

Еще одно параллельное направление исследований — это имитационное обучение, часто называемое клонированием поведения: записываются сотни попыток человека управлять роботом для выполнения задачи, после чего нейронная сеть обучается предсказывать, какие действия предпримет человек, основываясь на том, что наблюдает робот.

Ключевым моментом здесь является то, что каждая изученная стратегия слишком узка. Обучив сеть поднимать красный кубик, она не знает, как обращаться с желтым стаканом. Обучив ее ходить по траве, она падает на кафельном полу. Обобщение остается насущной проблемой.

Стоит отметить, что в этот период появилась инфраструктура, которая до сих пор поддерживает почти всё: ROS — роботизированная операционная система (впервые выпущена в ноябре 2007 года). ROS — это не операционная система в смысле Windows или Linux, а middleware-фреймворк, универсальная система робототехнических каналов. Он позволяет «узлам камеры», «узлам навигации», «узлам контроллеров роботизированных манипуляторов» и десяткам других узлов публиковать и подписываться на сообщения через общую шину.

Текущая версия ROS2 работает на уровне основы большинства научных и коммерческих роботов по всему миру — от лабораторий Стэнфордского университета до китайских стартапов, занимающихся роботами-андроидами. Когда люди говорят об «операционной системе» роботов, они почти всегда имеют в виду ROS2 вместе с различными пакетами восприятия, планирования и управления, работающими на ней.

Человекоподобные роботы

ROS2: это не операционная система, а универсальный канал для обмена сообщениями между независимыми робототехническими программами

Три: Применение LLM в робототехнике

Затем родился ChatGPT.

Внезапно появился такой элемент: LLM. Он способен читать простые английские инструкции, выполнять многошаговые рассуждения, писать код и вызывать функции. Робототехники почти мгновенно поняли, что именно это и было недостающим звеном, над которым они годами работали. Самой сложной частью выполнения полезных задач роботом в доме или офисе обычно является не управление моторами, а взаимодействие человека и робота: как человек сообщает роботу, что нужно сделать, и как робот разбивает эту цель на атомарные действия, которые он уже умеет выполнять?

Первым применением LLM для роботов было рассматривать языковую модель как компилятор естественного языка, расположенный поверх ROS. Модель следующая:

Принесите кофейную чашку с кухонной стойки и поставьте её на мой стол.
LLM генерирует план на основе списка доступных атомарных навыков робота: это может быть последовательность вызовов функций, автомат с состояниями или дерево поведения, написанное на XML.
Узлы ROS2 будут поэтапно выполнять этот план. Если какой-либо шаг завершится неудачей, информация об ошибке будет передана LLM для перепланирования.

Проект SayCan от Google в 2022 году был очень простой версией этой концепции: LLM предлагает навыки, отдельная модель «доступности» оценивает вероятность успешного выполнения каждого навыка, а робот выбирает комбинацию навыков с наивысшей совокупной оценкой. Открытые фреймворки ROS-LLM, ROSGPT и ROSA, разработанные лабораторией исследований Huawei, продвигают эту модель.

Это действительно значительный прорыв. Внезапно вы можете сказать роботу: «Убери со стола и выбрось перерабатываемые отходы в синий контейнер», и он попытается выполнить некоторые разумные действия. Однако обратите внимание, что здесь всё ещё есть проблемы: языковая модель по-прежнему находится на уровне планирования. Фактические команды действий по-прежнему генерируются нижележащими контроллерами, тщательно спроектированными или специально обученными. Языковая модель — это просто умный диспетчер, который не отвечает за управление.

Человекоподобные роботы

Четвертое: визуально-языково-движательная модель (VLA), когда мозг начинает управлять роботом

Человекоподобные роботы

Робот Keenon XMAN-R1 извлекает лекарства с полок в автоматизированной аптеке компании Galbot в Пекине. Всего за 100 000 долларов США

Следующий скачок будет сложнее, но и важнее. Исследователи поставили более амбициозный вопрос: а что, если модель不仅能 планировать, но и напрямую генерировать команды действий? Что, если изображения с камеры и языковые инструкции подаются непосредственно в нейронную сеть, и на выходе получаются движения суставов на следующую миллисекунду?

Это модель визуального-языкового-действия (VLA). Она сейчас является доминирующей парадигмой в области человеческих и четырехногих роботов.

Первым широко известным визуально-языковым роботом стал RT-2, представленный Google DeepMind в 2023 году. Его изюминка заключается в использовании большой визуально-языковой модели (уже обученной описывать изображения и отвечать на вопросы), которую дополнительно обучают на данных роботизированных демонстраций, рассматривая роботизированные действия как еще один тип токенов, подлежащих предсказанию. Та же самая нейронная сеть, которая раньше могла выводить «кот сидит на коврике», теперь может генерировать последовательность токенов, кодирующих «переместить правую лапу вперед на 3 см, сжать лапу, поднять на 5 см». Рассуждение и действие выполняются в рамках одной и той же модели.

Затем, в середине 2024 года команда во главе со Стэнфордским университетом выпустила OpenVLA — открытую модель VLA с 7 миллиардами параметров, обученную на наборе данных Open X-Embodiment. Этот набор данных объединяет более миллиона обучающих фрагментов от 21 разных исследовательской лаборатории, охватывающих 22 различных робототехнических платформы. Это впервые позволило людям за пределами Google загружать универсальные робототехнические модели и начинать их модифицировать. Это изменило всю область за одну ночь.

Сегодня ведущие VLA, хотя и в небольшом количестве, быстро развиваются:

π0 и π0.5 от Physical Intelligence: отличная адаптация к задачам.
NVIDIA Isaac GR00T N1.7: открытые веса, коммерческая лицензия, разработан специально для человекоподобных роботов, и является моделью, которую большинство китайских аппаратных компаний в настоящее время используют для дообучения на своих собственных данных.
Helix и обновленный Helix-02 от Figure AI: проприетарные технологии, но важные с архитектурной точки зрения.
AgiBot's Genie Envisioner: платформа на основе китайской мировой модели.
SmolVLA, NORA, ACoT-VLA, CogACT: в академической среде появляется все больше VLA, исследующих различные направления дизайна.

Как работает VLA (без математических формул)

Можно представить VLA как объединение трех входных сигналов в один выходной.

Первый поток данных — это визуальные данные. RGB-камеры (иногда датчики глубины или лидар), а также тактильные датчики на кончиках пальцев обрабатываются визуальным кодировщиком (обычно моделью Transformer, такой как DINOv2 или SigLIP), который сжимает каждое изображение в несколько сотен «визуальных токенов», обобщающих то, что видит робот.

Второй поток данных — это язык. Ваша команда («передай мне отвертку») преобразуется в токены так же, как в ChatGPT.

Эти два потока данных соединяются и подаются на вход в Transformer «стержень» (обычно небольшую открытую языковую модель, такую как Qwen3 или Llama). Этот стержень отвечает за вывод, объединяя информацию, которую он видит, с информацией, которую ему задают.

Третий поток данных: действие, вытекающее с другой стороны. Здесь возникают различия в архитектурных решениях:

Дискретные токены действий: модель напрямую генерирует токены, которые можно декодировать в углы суставов или позиции конечных эффекторов, подобно тому, как ChatGPT генерирует слова. Этот подход прост, но при высокочастотной работе может вызывать задержки.
Action head for diffusion or flow-matching: A standalone miniature network receives the output of the backbone and denoises to generate a smooth joint position trajectory, similar to image diffusion models, but generating motion instead. This is what π0 does, resulting in smoother and more natural actions.
Action chunking: Instead of predicting the next single instruction, predict the entire set of instructions for the next half-second to smooth out jitter.

Человекоподобные роботы

В модели VLA: два входных потока, выход команд движения, вывод и действие объединены в одной сети.

Это ключевое архитектурное изменение: рассуждение и действие больше не разделены. Обучив нейросеть распознавать чашку, вы также научили её захватывать чашку. Именно эта связь позволяет VLA обобщать, чего не могли делать их предшественники.

Пять: Двухмозговая стратегия, как работают вместе LLM и VLA

Здесь есть деталь, которую редко подробно объясняют в маркетинге. Сегодня самые производительные роботы-андроиды работают не на одной единой системе VLA, а на двух моделях с разной скоростью, общающихся друг с другом. Это иногда называют двухсистемной или архитектурой системы 1 / системы 2, заимствованной из психологической модели Дэниела Канемана, которая утверждает, что у людей есть быстрый интуитивный мозг и медленный вдумчивый мыслящий мозг.

Helix от Figure AI сделал этот дизайн классическим, и теперь он (а также его варианты) почти повсеместно копируется. Особенно важно, что NVIDIA GR00T N1.7 использует этот дизайн, и большинство китайских человеческих роботов также его применяют. Его структура выглядит следующим образом:

Система 2 (S2): медленное мышление. Визуально-языковая модель с 7 миллиардами параметров, работающая с частотой около 7–9 Гц (то есть 7–9 раз в секунду). Ее задача — наблюдать за сценой, интерпретировать инструкции, выполнять многошаговые рассуждения (например, «миска находится за коробкой с хлопьями; мне нужно сначала убрать коробку») и генерировать высокоуровневые намерения — обычно в виде набора компактных внутренних векторов, а не текста.
Система 1 (S1): быстрореагирующий мозг. Много меньшая (около 80 миллионов параметров) модель визуально-моторной стратегии, работающая с частотой 200 Гц. Она получает вектор намерений от S2 и последние данные с датчиков, выводя непрерывные команды на суставы. Она не обладает никаким реальным «мышлением», просто реагирует.

Недавно компания Figure добавила в Helix-02 систему 0 (System 0). Она расположена ниже двойной мозговой системы и представляет собой рефлекторный слой, а не третий когнитивный уровень. Это сеть с 10 миллионами параметров, работающая на частоте 1 кГц, которая отвечает за базовую балансировку и координацию всего тела, заменив более ста тысяч строк ручного кода управления движениями на C++. Вы можете представить S0 как приобретённую спинномозговую рефлекторную систему: она не осуществляет рассуждения или планирования, а лишь поддерживает тело в вертикальном положении и координирует его движения, в то время как мышление выполняется верхней двойной мозговой системой.

Человекоподобные роботы

Современная архитектура с двумя мозгами у человеоподобных роботов: система 2 мыслит медленно, система 1 реагирует быстро — под ними находится рефлекторный уровень системы 0, отвечающий за равновесие, тактильный контакт и координацию всего тела

Это разделение обусловлено физическими ограничениями. Если команды движения отправляются только каждые 200 миллисекунд (что соответствует скорости работы крупного VLA), движения робота будут медленными, как будто он движется под водой. Частота обновления команд движения должна превышать естественные колебания управляемых суставов, что означает необходимость сотен или тысяч обновлений в секунду. Ни одна из Transformer-моделей с 7 миллиардами параметров не может работать с такой скоростью на роботе, работающем от батареи.

Таким образом, когнитивные задачи распределены: крупная и медленная модель отвечает за мышление; компактная и быстрая модель — за действия. Они не общаются на английском языке, а используют изученные латентные векторы: медленная модель отправляет абстрактные цели, а быстрая модель знает, как их интерпретировать.

Шесть: Облако, крайние вычисления и размещение «мозга»

Where exactly are all these calculations performed?

Сегодня между командами роботов сложился почти идеологический консенсус, согласно которому критически важные для безопасности контуры управления должны работать локально. Причин две:

Задержка. Время передачи туда и обратно по WiFi или сотовой сети составляет оптимистичные 30–80 миллисекунд. А команды действий необходимо обновлять каждые 1–5 миллисекунд. Такой сетевой цикл просто не может работать нормально.

Reliability. Robots operate in factories, warehouses, kitchens, hospitals, and other locations. The network may go offline at any time. If a robot stops working the moment Wi-Fi is lost, it becomes a safety hazard.

Таким образом, современное разделение выглядит примерно так:

Встроенный (локальный), работает на устройствах, подобных модулям NVIDIA Jetson Thor или AGX Thor (около 2 000 TFLOPS, 128 ГБ памяти, потребление 40–130 Вт):

Все функции S0/S1: равновесие, движение, точный контроль.
VLA сам по себе (система 2) все чаще квантуется в форматы FP8 или FP4 для адаптации к ограничениям аппаратного обеспечения. Сегодня модели с объемом параметров от 2 до 7 миллиардов могут работать непосредственно на устройстве.
Восприятие, слияние сенсоров и безопасная мониторинговая программа, охватывающая любые другие операции.

Облако или удаленный сервер (если существует):

Диалоговый интерфейс («Эй, робот, что мне приготовить на ужин?»): такие интерфейсы могут допускать задержки.
Cluster learning: Thousands of robots send remote operation data back to the server to be aggregated into the next version of the model.
Требуется масштабное долгосрочное планирование, возможно, с использованием передовых масштабных моделей.
Панель управления и мониторинг оператора.

Кроме того, существует растущий средний слой: локальные边缘-серверы, расположенные на заводах или складах, которые общаются с кластерами роботов через локальные сети с задержкой всего в несколько миллисекунд. Более крупные LLM могут быть развернуты на этом уровне для выполнения сложных задач планирования, которые отдельные роботы не должны управлять самостоятельно.

Китайская волна человеческих роботов построена на этом предположении: Unitree, AgiBot, Xpeng IRON, Fourier, EngineAI. Их роботы оснащены бортовыми вычислительными системами (обычно Jetson, иногда также китайскими чипами, такими как Huawei Ascend), а облачные вычисления используются для обучения в кластерах и интерфейсов диалога, а не для контуров управления.

Человекоподобные роботы

Место фактического выполнения мозга робота: критические для безопасности циклы работают локально, а в облаке обрабатываются задачи, которые могут подождать.

Семь: Почему открытые модели внезапно стали центром внимания

Если смотреть только на демонстрации, может показаться, что эта область доминируется несколькими хорошо финансируемыми американскими компаниями. Но на самом деле всё гораздо сложнее. Темпы развития физического ИИ в значительной степени определяются открытыми весовыми моделями, которые может скачать и дообучить любой желающий.

Перечисленные модели, хотя и не многочисленны, имеют большое значение:

OpenVLA (Stanford University): первая открытая модель общего назначения для роботов с 7 млрд параметров.
NVIDIA Isaac GR00T (N1, N1.5, N1.7): открытые веса вскоре будут доступны, а коммерческие лицензии также вскоре появятся; модель обучена на десятках тысяч часов видеозаписей с точки зрения человека. GR00T N1.7 будет выпущен в марте 2026 года, и любой пользователь с человекоподобным роботом сможет бесплатно использовать его двухсистемную архитектуру.
Физический интеллект π0: выпуск весов для исследований.
NVIDIA Cosmos: базовая модель для открытого мира.
AgiBot World: Крупный открытый набор данных от стартапа из Шанхая, содержащий демонстрации дистанционного управления человеобразными роботами.
LeRobot от Hugging Face: открытая библиотека, ставшая центром сбора для всех вышеупомянутых платформ.
Mimic robotics: mimic-video — это открытая модель видео-действий, эффективность которой в использовании образцов в 10 раз выше, чем у традиционных VLA.

Это важно по двум причинам. Во-первых, стартапы в области роботов больше не должны тратить десятки миллионов долларов на предварительное обучение базовой модели: они могут взять GR00T или π0 и дообучить их на данных своих роботов. Именно так поступают Unitree, ZhiJi Dynamics, Booster, Galbot и десятки других китайских компаний меньшего масштаба. Именно поэтому компания с несколькими сотнями сотрудников может создавать человеческих роботов, которые могут ходить, говорить и складывать одежду: они стоят на плечах открытой технологической стеки.

Во-вторых, открытые модели — единственный реальный путь решения проблем безопасности. Если полностью закрытая модель работает внутри робота на производственной линии, и внешние наблюдатели не имеют никакого доступа к ее логике вывода, это неизбежно превращается в кошмар для регуляторов. Открытые модели позволяют аудиторам, исследователям и операторам реально проверить, чему именно был обучен робот.

Восемь: Какие еще вопросы остались нерешенными?

Если вы посмотрели достаточно много видео с демонстрацией роботов, вы, вероятно, также видели много видео с отказами роботов. Современные роботы на базе LLM+VLA действительно впечатляют, но у них также есть явные ограничения. Вот основные проблемы:

Восстановление задачи после перерыва. Способность VLA справляться с неожиданными изменениями превосходит любые предыдущие технологии. Однако, когда что-то действительно идет не так (например, ошибка захвата, скольжение объекта или посторонний человек входит в рабочую зону), возвращение к правильному ходу действий остается слабым местом. Робот слепо повторяет неудачные действия.
Образцовая эффективность. Для обучения VLA с нуля требуется десятки тысяч часов данных удаленного управления. Люди же могут освоить новый инструмент за несколько минут. Этот разрыв в эффективности огромен.
Обобщение между сущностями. Модель, обученная на роботизированной руке Franka в лаборатории Стэнфорда, не может быть идеально перенесена на человеобразного робота Unitree в складе в Шэньчжэне. Их физические формы различны.
Долгосрочные задачи. Любые задачи, требующие более 30–60 секунд непрерывного поведения и содержащие несколько подцелей, легко отклоняются от цели. Задача «приготовь мне завтрак» всегда остается недостижимой.
Физические основы. VLA обучается на имитации, а не на понимании. Она не понимает принципа того, почему вода выливается, когда опрокидывается стакан. Она просто видела некоторые примеры и прогнозирует, что произойдет дальше, на основе сопоставления шаблонов.
Пространственное рассуждение. Несмотря на то, что они мультимодальны, они неожиданно слабо справляются с задачами типа «обойти препятствие, а не пройти через него» или «сложить эти предметы так, чтобы они не упали».

Последняя серия уязвимостей побудила отрасль обратить внимание на совершенно другую модель.

Девять: Мировая модель

Представьте себе: что бы произошло, если бы вместо того, чтобы обучать робота предсказывать действия, вы обучили его предсказывать последствия этих действий?

Модель мира (World Model) — это нейронная сеть, которая на основе текущего состояния мира (обычно видео или последовательности кадров) и заданных действий предсказывает, как будет выглядеть мир дальше. Проще говоря, представьте её как обучающийся видео-прогнозатор с рулем: вы показываете ей последние секунды изображения с камеры и говорите «робот переместит руку вперед на 10 см», а она генерирует реалистичное видео, предсказывая, что будет в следующую секунду.

Почему это важно?

Поскольку после создания мировой модели робот может думать перед действием. Он может заранее сгенерировать три-четыре различных варианта действий, спрогнозировать результат каждого из них, оценить их и выбрать наилучший вариант. Все это происходит до начала движения моторов. Именно так работает шахматный движок: он не запоминает ходы, а моделирует будущее. Раньше в области физических роботов такой возможности не существовало, поскольку никогда не было достаточно точных моделей для симуляции сложного и многообразного реального мира.

Человекоподобные роботы

World models allow robots to simulate multiple possible future scenarios, score them, and select the optimal one before any motors are activated.

Каким будет мировая модель в 2026 году?

Существует множество самых передовых мировых моделей, которые быстро развиваются. Ниже приведены некоторые из них:

NVIDIA Cosmos: серия открытых моделей для открытого мира, включающая Cosmos Predict 2.5 (генеративная модель), Cosmos Transfer 2.5 (модель управляемого моделирования), Cosmos Reason 2 (визуально-языковой рационализатор для роботов) и новейшую Cosmos Policy. Cosmos Policy продвигается дальше, напрямую выводя действия для управления путем пост-обучения модели мира. Cosmos обучалась на данных видео, составляющих десятки тысяч часов GPU (Cosmos Predict 2.5 является моделью мира в этой серии).
DeepMind Genie 3: интерактивная модель мира, способная генерировать полностью навигируемые среды на основе текстовых подсказок со скоростью 24 кадра в секунду и стабильно работать в течение нескольких минут. Изначально разработана для игровых сред.
Meta V-JEPA 2: при предварительной подготовке использовалось более миллиона часов веб-видео, а затем — всего 62 часа роботизированного видео для обучения с условием действий. На реальных роботизированных манипуляторах в различных лабораториях, без какой-либо специфической обучения для задач, достигнута успешность нулевого образца для операций «захват-размещение» в 80%. Метод «JEPA» принципиально отличается по архитектуре от других методов.
DeepMind Dreamer 4: Используя только офлайн-данные и без какого-либо взаимодействия с окружающей средой, научился собирать алмазы в Minecraft (задача из 20 000 шагов). Это доказывает, что настоящее обучение с подкреплением в виртуальных мирах возможно.
AgiBot’s Genie Envisioner: единая платформа мировых моделей из Китая, обученная на более чем 3000 часах реальных видео с операциями человеческих роботов. Она может генерировать как предсказанные траектории развертывания, так и исполнимые траектории действий. AgiBot использует NVIDIA Cosmos Predict 2 в качестве базовой сети и проводит дообучение на собственных данных. Именно это и есть описанная ранее модель «открытый технологический стек + собственные данные».
Toyota Research Institute на основе Cosmos: модель мира для усиления данных и навигации в удалённом управлении.

Человекоподобные роботы

Шесть ключевых мировых моделей 2025–2026 годов, каждая из которых предлагает разные представления о том, как машинам следует изучать физику.

Ten: альтернативная архитектура, поскольку в этой области пока нет единого мнения

Создание мировых моделей не имеет единого стандарта. Споры о архитектуре — один из самых интересных споров в области ИИ сегодня, и они напрямую влияют на то, что роботы смогут делать в будущем. Следует обратить внимание на три лагеря:

Пиксельное видео-диффузионное моделирование (школа Cosmos/Sora): использование диффузионных моделей для предсказания фактических пикселей будущих кадров. Преимущество заключается в том, что это может служить генератором синтетических данных, способным отображать совершенно новые робототехнические демонстрации, которых никогда не было. Недостатки — высокая стоимость, иногда нарушение физических законов и то, что предсказание пикселей, которые никогда не будут видеть, является потерей.

Архитектура совместного скрытого предсказания (JEPA), известная как школа Лекуна: вместо предсказания пикселей предсказываются абстрактные представления следующего кадра. Отбрасываются текстурные детали, сохраняется только семантическая суть объектов в сцене. Преимущество — высокая эффективность и фокус на факторах, критически важных для действий. Недостаток — сложность в использовании. Область исследуется с помощью моделей V-JEPA, V-JEPA 2 и новой гибридной модели JEPA-VLA.

Потенциальные действия в моделях мира (семейство Genie/Dreamer): обучение сжимать целые видео в потенциальный «язык действий», который захватывает структуру поведения, а затем обучение модели мира предсказывать следующее потенциальное состояние на основе следующего потенциального действия. Преимущество заключается в возможности обучения на видео из интернета без действий, а затем добавления небольшого объема реальных данных роботов. Недостаток — потенциальные действия непонятны людям, что усложняет анализ безопасности.

Человекоподобные роботы

Пиксельная диффузия, JEPA и потенциальные действия: одна цель, совершенно разные подходы к построению моделей мира

十一：Применение роботов на основе мировых моделей

Если перейти вперёд на несколько лет, архитектура передовых человекоподобных роботов может выглядеть так:

На VLA установлена мировая модель. Когда робот сталкивается с новой ситуацией, он выполняет действия, подобные следующим:

VLA предложила несколько вариантов последующих действий (это по-прежнему стратегия).
Модель мира получает каждое возможное действие и моделирует гипотетическое видео длительностью 1–3 секунды.
Оценщики будут оценивать по предполагаемым результатам: был ли поднят стакан? Что-то упало? Кто-то был задет?
Робот выберет действие с наивысшим баллом и выполнит только его первую часть.
Real sensor data feedback; cyclic repetition.

Это моделируемое управление с прогнозированием — технология, которая уже много лет используется для стабилизации ракет и квадрокоптеров, но она заменяет искусственно выведенные физические уравнения на обученные модели мира. Ее масштабируемость заключается в том, что модель мира предварительно обучена на миллионах часов видео, а не потому, что кто-то написал уравнения Навье-Стокса для кухонной среды.

Его преимущества нарастают поэтапно:

Ситуация с восстановлением улучшилась. Если при захвате происходит ошибка, мировая модель может предложить несколько путей коррекции и выбрать наиболее перспективный.
Общая способность улучшена. Модель мира, обученная на видеороликах в интернете, пережила на несколько порядков больше «физических явлений», чем любой набор данных дистанционного управления роботами.
Долгосрочное планирование становится управляемым. Планируйте в воображении, а не в реальности.
Разрыв между симуляцией и реальностью сократился. Раньше для обучения требовалось использовать собственные симуляторы (например, Isaac Sim, физический движок Newton), а затем надеяться, что результаты обучения перенесутся на реальные приложения. Сейчас же можно обучаться с использованием симуляторов, уже обученных на соответствие реальным видео. Таким образом, разрыв стал меньше.
Синтетические данные растут экспоненциально. Модель мира может почти бесплатно генерировать миллионы различных траекторий роботов с разным освещением, материалами и конфигурациями объектов. Это решает одну из крупнейших проблем в этой области.

Кроме того, он обладает важным преимуществом в безопасности. Роботы, способные моделировать последствия действий, могут отказаться выполнять опасные операции: не из-за ограничений предустановленных правил, а потому что они предвидят, что в будущем кто-то может быть ранен.

Человекоподобные роботы

Два способа движения: VLA реагирует на то, что видит; роботы с моделью мира думают перед движением

十二：还应该知道的事

Проблема данных — это настоящая ключевая проблема: если невозможно предоставить данные модели, все инновации в архитектуре не имеют значения. В настоящее время основным технологическим ограничением является удалённое управление (человек в VR-устройстве дистанционно управляет роботом как марионеткой). Конкурентное преимущество робототехнической компании всё больше зависит от её конвейера сбора данных, а не от самой модели. Agi Robotics уже создала склады, заполненные операторами. Закон масштабирования ловкости NVIDIA GR00T N1.7 показывает, что увеличение количества видео в первом лице человека напрямую и предсказуемо повышает ловкость роботов. Это также одна из причин структурного преимущества Китая: более низкая стоимость труда для сбора данных, более терпимая среда для развертывания и активная координация цепочек поставок на государственном уровне.

Симуляция — это параллельная вселенная. NVIDIA Isaac Sim, полностью новая открытая физическая движок Newton (версия 1.0 будет официально выпущена в апреле 2026 года) и платформа Omniverse позволяют компаниям обучать роботов в миллионах параллельных симуляционных средах, не развертывая их в реальном мире. Большинство функций, кажущихся «роботизированным интеллектом», на самом деле развиваются в симуляционной среде, а затем переносятся на аппаратное обеспечение.

Экономическая эффективность начинает проявляться. Unitree доставил около 5500 человеческих роботов в 2025 году и планирует достичь 10 000–20 000 единиц в 2026 году. Средняя цена снизилась с 85 000 долларов США до 25 000 долларов США за два года. Робот R1 от Unitree продается за 5900 долларов США. Цена запуска Noetix Bumi составляет 1400 долларов США. Цена на аппаратное обеспечение человеческих роботов приближается к уровню цен на потребительскую электронику, в то время как внутренние AI-технологии все еще отстают от демонстрационных продуктов. Этот разрыв в конечном итоге сократится, и тогда рост рынка окажет значительное влияние на всю отрасль.

Модели сбоев выглядят странно. Когда LLM-роботы выходят из строя, они делают это способами, недоступными традиционным роботам. Например, уверенно совершают ошибки, «галлюцинируют» о наличии определённых функций или попадают в циклические диалоги со своим планировщиком. В традиционной робототехнике к этому относятся с достаточной долей скептицизма, что вполне оправдано — они настаивают на том, что обучающие системы должны находиться под безопасным контролем и иметь ограничения поведения. На данный момент наиболее надёжными развернутыми роботами являются гибридные: мозг VLA помещён внутрь ручной конструкции безопасной клетки.

Рассказ о «моменте ChatGPT» — это полезная, но вводящая в заблуждение метафора: Хуань Ренсюнь постоянно говорит всем, что у роботов наступил момент ChatGPT. Он говорит это, потому что NVIDIA продает лопаты и кирки. Более честная версия: сейчас мы примерно на этапе GPT-2 физического ИИ. Он мощный и производит впечатление; но недостаточно мощный, чтобы его можно было развернуть без присмотра. Он быстро развивается, но еще не достиг точки вирусного взрыва, а движется по медленному, но устойчивому восходящему тренду.

Заключение

Человекоподобные роботы

Эволюция четырехногого робота Unitree (справа налево)

На демонстрации, которую мы увидели в офисе Unitree, пять человекоподобных роботов G1 исполняли боевые искусства с тщательно спланированными движениями, управляемыми встроенным контроллером типа VLA, а удалённый оператор следил за тем, чтобы всё проходило гладко. По сути, это не было полностью автономно. Но весь процесс: восприятие, планирование, управление движением — постепенно заменяется нейросетями. Через два года те же роботы смогли выполнить те же движения без предварительной хореографии, поскольку они заранее сформировали всё движение и выбрали оптимальную версию.

Описанный в этой статье весь процесс развития: от ручных контроллеров к машинному обучению с восприятием, затем к планировщику на основе LLM, далее к VLA, затем к архитектуре с двумя системами, и наконец к модели мира, — на самом деле представляет собой медленное смещение центра роботизированного интеллекта. Он начался в уме инженеров, затем перешел в ручные коды, после этого переместился на уровень восприятия, затем в планировщик, далее — на уровень стратегии. Сейчас он в конечном итоге движется к созданию модели самого мира.

Каждое преобразование делает роботов более универсальными, адаптивными и полезными. Если преобразование мировой модели сработает, оно действительно наделит роботов мощными возможностями: настолько мощными, что вопрос перестанет быть «Что могут делать роботы?», а станет «Что мы должны им позволить делать?»

Читайте также: Обзор более 30 компаний, занимающихся роботами-андроидами: кто победит к 2026 году?