Автор: Matt White, глобальний головний технічний офіцер з штучного інтелекту Linux Foundation
Перекладено: Фелікс, PANews

Ван Сінсін (генеральний директор Unitree Technologies) та Метт Уайт
Кілька тижнів тому в Шанхаї під час вечері один з друзів, з яким я подорожував (розумний, звичайно слідкуючий за новинами і спостерігаючий за оточуючим, але не дуже знайомий з робототехнікою), задав питання, на яке я чекав увесь час подорожі.
Ми бачимо роботів-псів, які бігають повсюди, роботів-андроїдів, які виконують кунг-фу на демонстраційній сцені в офісі Unitree, і маніпуляторів, які складають одяг. Як вони це роблять? Чи вони працюють під керівництвом великих мовних моделей (LLM)? Як саме це працює? Чи існує якась мовна модель, що керує їхніми рухами?
Це чудове питання, і чесно кажучи: у певному сенсі так, але справжня історія набагато цікавіша. Роботи, яких ви бачите в соціальних мережах, — це не ChatGPT у металевих оболонках. Вони працюють на наборі технологій (багатошарова взаємодія штучного інтелекту). За останні три роки цей набір змінився більше, ніж за останні тридцять років. Мовні моделі — це лише частина цього. Важливими компонентами є також візуальні моделі, моделі дій, дерева поведінки, класичні контрольні контури та нова група систем під назвою «моделі світу». А «моделі світу», ймовірно, є найважливішим з усіх розвитків.
Це довгий текст, який починається з початку, поступово розповідає про кожну велику зміну і врешті-решт доходить до сьогоднішнього етапу: роботи не лише можуть реагувати на світ, а й уявити його.
Один: Ера до LLM: коли роботи були лише програмним забезпеченням
Декілька десятиліть виробництво роботів означало написання великої кількості коду, і майже весь цей код не вимагав навчання.
Класичні промислові роботи — це вежеподібні конструкції, зібрані з добре спроектованих модулів. Наприклад, оранжеві маніпулятори, що зварювали шасі Toyota у 90-х роках минулого століття, або BigDog від Boston Dynamics на початку 2000-х.
- Відчуття: фільтрація зображення з камери, виявлення країв, використання геометричного співставлення для визначення розташування деталі.
- Оцінка стану: поєднання колісних енкодерів, гіроскопа та акселерометра (сенсорна інтеграція) для визначення позиції та швидкості руху робота.
- Планування: за заданою цільовою позою обчислити безколізійний шлях у відомій карті за допомогою алгоритмів, таких як A* або RRT.
- Контроль: на найнижчому рівні PID-регулятор щосекунди сотні тисячі разів регулює крутний момент двигуна, щоб дотримуватися цього шляху.
Ці рівні зазвичай створюються різними людьми з різних лабораторій і тщеславно складаються. Поведінка (наприклад, «якщо чашка червона — підніми її, інакше чекай») кодується як скін-автомат або дерево поведінки: тобто діаграма, яку робот виконує крок за кроком.

Переваги цього методу очевидні. Він передбачуваний і відповідає стандартам безпеки. Саме тому ваш автомобіль оснащений ефективною системою ABS.
Недоліки також очевидні. Такий робот може проявити свій інтелект лише в сценаріях, передбачених інженерами. Як тільки його помістять у нову фабрику, при нових умовах освітлення або з новим кольором чашок, він зламається. Його здатність до узагальнення майже нульова.
Два: машинне навчання тихо втручається
У 2010-х роках глибоке навчання почало вирішувати проблеми рівня сприйняття. Ті згорткові нейронні мережі (CNN), які перемогли людей у завданні класифікації зображень ImageNet, можна було переоснастити для виявлення точок захоплення на об’єктах, сегментації меблів у кімнаті або визнання пози людини. Незабаром рівень «сприйняття» на вершині технічного стеку більше не потребував ручного проектування — його можна було безпосередньо навчати.
Потім механізм навчання поширився на рівень «контролю». Дослідники з Університету Берклі, DeepMind і OpenAI показали, що підсилювальне навчання (яке дозволяє роботизованим агентам тисячі разів пробувати дії в симуляції та підсилювати ефективні поведінки) може призводити до дивовижно витончених походок, керування об’єктами руками (OpenAI в 2019 році розв’язала кубик Рубіка однією рукою — це був визначальний момент), а також стратегій руху, адаптованих до різних типів місцевості.
Іншим паралельним напрямком досліджень є навчання шляхом імітації, яке зазвичай називають клонуванням поведінки: записуються сотні спроб людини, яка керує роботом на відстані для виконання певної задачі, а потім навчається нейромережа передбачати, які дії вживає людина на основі того, що бачить робот.
Ключем усього є те, що кожна вивчена стратегія надто вузька. Навчивши мережу піднімати червоний кубик, вона не знає, як поводитися з жовтою чашкою. Навчивши її ходити по траві, вона падає на кахлі. Здатність до узагальнення залишається гострою проблемою.
Варто зазначити, що в цей період з’явилася інфраструктура, яка досі підтримує майже все: ROS — робототехнічна операційна система (вперше випущена в листопаді 2007 року). ROS — це не операційна система у сенсі Windows або Linux, а фреймворк проміжного програмного забезпечення, універсальна система робототехнічних каналів. Вона дозволяє «вузлам камери», «вузлам навігації», «вузлам контролера роботизованої руки» та десяткам інших вузлів публікувати та підписуватися на повідомлення через спільну шину.
Поточна версія ROS2 працює в основі більшості наукових і комерційних роботів по всьому світу — від лабораторій Стенфордського університету до китайських стартапів у сфері людиноподібних роботів. Коли люди говорять про «операційну систему» роботів, вони майже завжди мають на увазі ROS2 разом із різними пакетами сприйняття, планування та керування, які на ньому працюють.

ROS2: це не операційна система, а загальний канал для взаємодії між незалежними робототехнічними програмами
Три: Застосування LLM у робототехніці
Потім з’явився ChatGPT.
З’явився ось цей річ: LLM. Він може читати прості англійські інструкції, виконувати багатокрокові міркування, писати код і викликати функції. Робототехніки майже миттєво зрозуміли, що саме це було відсутнім ланцюжком, якого вони шукали роками. Найскладніша частина в тому, щоб заставити робота виконувати корисні завдання вдома чи в офісі — це не керування моторами, а взаємодія людини з роботом: як людина повідомляє роботу, що робити, і як робот розбиває цю мету на атомарні дії, які він вже вміє виконувати?
Перша хвиля застосування LLM до роботів полягала у вважанні мовних моделей компілятором природної мови, розташованим над ROS. Модель така:
Принесіть кавову чашку з кухонної стільниці і поставте її на мій стіл.
LLM генерує план на основі списку доступних атомарних навичок робота: може бути послідовністю викликів функцій, скін-автоматом або деревом поведінки, написаним у XML.
Вузли ROS2 будуть виконувати цей план поступово. Якщо якийсь крок не вдасться, інформація про невдачу буде надіслана LLM для перепланування.
Проєкт SayCan від Google 2022 року є дуже компактною версією цієї ідеї: LLM пропонує навички, окрема модель «доступності» оцінює ймовірність успіху кожної навички на даний момент, а робот вибирає комбінацію навичок з найвищим спільним балом. Відкриті фреймворки ROS-LLM, ROSGPT і ROSA, розроблені під керівництвом лабораторії досліджень Huawei, поширюють цю модель.
Це справді величезний стрибок. Наприклад, ви можете сказати роботу: «Прибери стіл і викинь переробні матеріали в синій сміттєвий контейнер», і він спробує виконати деякі раціональні дії. Але зверніть увагу: мовна модель все ще знаходиться на рівні планування. Реальні команди дій генеруються нижчими рівнями — спеціально розробленими або навченими контролерами. Мовна модель є лише розумним диспетчером, а не приводом.

Чотири: Візуально-мовна-рухова модель (VLA), коли мозок починає керувати роботом

Робот Keenon XMAN-R1 забирає ліки з полиць у автоматизованій аптекі компанії Galbot у Пекіні. Лише 100 000 доларів США
Наступний стрибок буде складнішим, але й важливішим. Дослідники поставили більш амбітне питання: а що, якщо модель зможе не лише планувати, а й безпосередньо генерувати команди дій? Що, якщо зображення з камери та мовні команди подаватимуться безпосередньо в нейронну мережу, і вона відразу видасть рух суглобів на наступну мілісекунду?
Це модель візуально-мовної-дієвої (VLA). Вона зараз є домінуючою парадигмою у сфері людиноподібних та чотириногих роботів.
Першим широко відомим візуальним мовним роботом був RT-2, представлений Google DeepMind у 2023 році. Його геніальність полягає в тому, що він використовує велику візуальну мовну модель (яка вже була навчена описувати зображення та відповідати на запитання) і продовжує навчати її за допомогою даних демонстрацій робота, але вважає роботичні дії ще одним типом токенів, які потрібно передбачити. Той самий нейронна мережа, яка раніше могла виводити «кіт сидить на килимку», тепер може виводити серію токенів, що кодують «перемістити праву лапу вперед на 3 сантиметри, зімкнути лапу, підняти на 5 сантиметрів». Висновки та дії виконуються в одній моделі.
Потім, у середині 2024 року, команда під керівництвом Стенфордського університету представила OpenVLA — відкриту VLA-модель з 7 мільярдами параметрів, навчену на наборі даних Open X-Embodiment. Цей набір даних об’єднує понад мільйон тренувальних фрагментів від 21 різного дослідницького лабораторії, що охоплюють 22 різних робототехнічні тіла. Це був перший раз, коли люди поза Google могли завантажити універсальну робототехнічну модель і почати її модифікувати. Вона змінила весь напрямок за одну ніч.
Зараз лідери VLA, хоча їх кількість невелика, швидко розвиваються:
- π0 та π0.5 від Physical Intelligence: чудова адаптація до завдань.
- NVIDIA Isaac GR00T N1.7: відкриті ваги, комерційна ліцензія, розроблений спеціально для людиноподібних роботів — це модель, яку більшість китайських компаній-виробників обладнання зараз використовують для до навчання на власних даних.
- Helix і оновлений Helix-02 від Figure AI: власні технології, але важливі з архітектурної точки зору.
- AgiBot’s Genie Envisioner: платформа на основі китайської світової моделі.
- SmolVLA, NORA, ACoT-VLA, CogACT: у академічному середовищі з’являється все більше VLA, які досліджують різні напрямки дизайну.
Як працює VLA (без математичних формул)
Можна уявити VLA як об'єднання трьох вхідних сигналів у один вихідний.
Перший потік даних — це візуальні дані. RGB-камери (іноді датчики глибини або лідар), іноді тактильні датчики на кінчиках пальців, обробляються візуальним кодувальником (зазвичай моделлю Transformer, такою як DINOv2 або SigLIP), який стискає кожне зображення до кількох сотень «візуальних токенів», що узагальнюють те, що бачить робот.
Другий потік — це мова. Ваша інструкція («передай мені вівертку») перетворюється на токени так само, як у ChatGPT.
Ці два потоки даних з’єднуються і подаються на вхід Transformer «основі» (зазвичай невеликій відкритій мовній моделі, такій як Qwen3 або Llama). Ця основа відповідає за виведення, поєднуючи отриману інформацію з тим, що їй запитують.
Третій потік даних: дія, що витікає з іншого кінця. Саме тут розходяться різні архітектурні рішення:
- Дискретні токени дій: модель безпосередньо генерує токени, які можна розкодувати як кутові положення суглобів або положення кінцевого елемента, подібно до того, як ChatGPT генерує слова. Цей підхід простий, але при високочастотному виконанні може викликати зупинки.
- Дифузія або збіг потоку (flow-matching) заголовка дії: окрема мікромережа отримує вихідні дані основної мережі та знімає шум, генеруючи плавну траєкторію положень суглобів, подібно до моделей дифузії зображень, але генеруючи рух. Саме так працює π0, забезпечуючи більш плавні та природні дії.
- Блокування дій: замість прогнозування наступної окремої команди, передбачається набір команд на наступні півсекунди, що згладжує коливання.

У моделі VLA: два вхідні потоки, вихід команд руху, висновок і дія об’єднані в одній мережі.
Це суттєва зміна архітектури: висновки та дії більше не розділені. Навчивши нейромережу розпізнавати склянку, ви також навчили її хапати склянку. Саме це зв’язування дозволяє VLA узагальнювати, чого не могли робити їхні попередники.
П’ять: Стратегія двох мозків, як LLM і VLA працюють разом
Тут є деталь, яку рідко пояснюють у маркетингу. Найкращі за продуктивністю роботи-андроїди сьогодні працюють не на одній системі VLA, а на двох моделях з різною швидкістю, які спілкуються між собою. Іноді це називають двосистемною архітектурою або архітектурою системи 1 / системи 2, запозиченою з психологічної моделі Деніела Канемана, яка стверджує, що людина має швидке інтуїтивне мислення та повільне, роздумливе мислення.
Helix від Figure AI зробив цей дизайн класичним, і зараз його (та його варіанти) майже повсюдно копіюють. Особливо важливо, що NVIDIA GR00T N1.7 використовує цей дизайн, і більшість китайських роботів-андроїдів також використовують цей дизайн. Його структура така:
- Система 2 (S2): повільне мислення. Візуально-мовна модель з 7 мільярдами параметрів, що працює з частотою приблизно 7–9 Гц (тобто 7–9 разів на секунду). Її завдання — спостерігати за сценами, розбирати інструкції, виконувати багатокрокові міркування (наприклад, «миска за коробкою з крупами; спочатку потрібно перемістити коробку») і видаавати високорівневі наміри — зазвичай набір стислих внутрішніх векторів, а не тексту.
- Система 1 (S1): швидка реакційна мозкова система. Модель візуально-рухової стратегії значно меншого розміру (приблизно 80 мільйонів параметрів), що працює з частотою 200 Гц. Вона отримує вектор намірів від S2 та найновіші дані датчиків і виводить безперервні команди для суглобів. Вона не має жодного реального «мислення» — вона лише реагує.
Недавно компанія Figure додала до Helix-02 систему 0 (System 0). Вона розташована під подвійною мозковою системою і є рефлексивним шаром, а не третьою когнітивною шаром. Це мережа з 10 мільйонами параметрів, що працює з частотою 1 кГц, яка відповідає за базову рівновагу та координацію всього тіла, замінивши понад 100 000 рядків ручно написаного C++ коду для керування рухом. Ви можете уявити S0 як набуту спинномозкову рефлексивну систему: вона не здійснює міркувань чи планування, а лише забезпечує підтримку тіла у вертикальному положенні та координацію, тоді як мислення виконується вищою подвійною мозковою системою.

Сучасна людоподібна робототехніка з двомозковою архітектурою: система 2 міркує повільно, система 1 реагує швидко — під ними є рефлексивний рівень системи 0 для підтримки рівноваги, тактильного контакту та координації всього тіла
Це розбиття обумовлено фізичними обмеженнями. Якщо команди руху відправляються лише кожні 200 мілісекунд (швидкість роботи великої ВЛА), рух робота буде таким повільним, наче він рухається під водою. Частота оновлення команд руху повинна перевищувати природну частоту коливань керованих суглобів, що означає необхідність сотень або тисяч оновлень на секунду. Жодна Transformer-модель з 7 мільярдами параметрів не зможе працювати з такою швидкістю на роботі з батарейним живленням.
Тому когнітивні завдання розподілені: велика та повільна модель відповідає за міркування; мала та швидка модель — за дії. Вони не спілкуються англійською, а використовують навчені латентні вектори: повільна модель висилає абстрактні цілі, а швидка модель знає, як їх інтерпретувати.
Шість: хмара, крайові обчислення та розташування «мозку»
Де саме відбуваються всі ці обчислення?
Зараз між командами роботів майже сформувалася сильна, майже ідеологічна згода, що ключові контури керування, що стосуються безпеки, повинні працювати локально. Причини дві:
Затримка. Час передачі туди-сюди через WiFi або клітинну мережу, навіть при оптимістичному прогнозі, становить 30–80 мілісекунд. А команди дій потрібно оновлювати кожні 1–5 мілісекунд. Така мережева петля взагалі не може працювати.
Надійність. Роботи функціонують на заводах, складах, кухнях, лікарнях тощо. Мережа може відключитися в будь-який момент. Якщо робот зупиниться при втраті Wi-Fi, він стане небезпечною загрозою.
Отже, сучасне розділення приблизно таке:
Вбудовано (локально), працює на пристроях, подібних до модулів NVIDIA Jetson Thor або AGX Thor (приблизно 2 000 TFLOPS, 128 ГБ пам’яті, споживання потужності 40–130 Вт):
- Всі функції S0/S1: рівновага, рух, точне керування.
- VLA сама по собі (система 2), щоб адаптуватися до обмежень апаратного забезпечення, все частіше квантується до форматів FP8 або FP4. Зараз моделі з діапазоном 2–7 мільярдів параметрів можуть працювати безпосередньо на пристрої.
- Відчуття, синтез датчиків та безпечні моніторингові програми, які можуть охопити будь-яку іншу операцію.
Хмарний або віддалений сервер (якщо він існує):
- Діалоговий інтерфейс («Привіт, роботе, що мені приготувати на вечерю?»): такі інтерфейси можуть допускати затримки.
- Кластерне навчання: тисячі роботів надсилають дані про віддалене керування назад на сервер, щоб їх було можна включити до наступної версії моделі.
- Потрібно провести масштабне довгострокове планування, можливо, з використанням передових моделей масштабу.
- Панель управління та моніторингу оператора.
Крім того, існує все зростаючий середній шар: локальні крайові сервери, розташовані на фабриках або складах, які зв’язуються з кластерами роботів через локальні мережі з затримкою лише в кілька мілісекунд. Більш потужні LLM можуть бути розгорнуті на цьому рівні для виконання складних завдань планування, які окремі роботи не повинні керувати самостійно.
Хвильова хвиля китайських роботів-андроїдів побудована саме на цій припущенні: Unitree, AgiBot, Xpeng IRON, Fourier, EngineAI. Їхні роботи оснащені вбудованими обчислювальними можливостями (зазвичай Jetson, іноді також китайськими чіпами, як Huawei Ascend), а хмара використовується для навчання кластерів та діалогових інтерфейсів, а не для петлі керування.

Місце реального виконання робота-мозку: безпечні критичні ланцюги працюють локально, а хмару використовують для обробки справ, які можуть зачекати
Сім: чому відкриті моделі раптово стали центром уваги
Якщо дивитися лише на демонстрації, може здатися, що ця галузь домінується кількома добре фінансованими американськими компаніями. Але справа набагато складніша. Швидкість розвитку фізичного ІІ в значній мірі визначається відкритими моделями ваг, які може завантажити та доналаштувати будь-хто.
Наведені моделі, хоч і нечисленні, мають велике значення:
- OpenVLA (Стенфордський університет): Перша відкрита загальна робототехнічна модель розміром 7B.
- NVIDIA Isaac GR00T (N1, N1.5, N1.7): відкриті ваги наближаються до запуску, а комерційні ліцензії також скоро з’являться; модель навчена на десятках тисяч годин відео з першої особи. GR00T N1.7 буде випущений у березні 2026 року, і будь-хто, хто має людиноподібного робота, зможе безкоштовно використовувати його архітектуру з двома системами.
- Фізична інтелігентність π0: випуск ваг для дослідження.
- NVIDIA Cosmos: базова модель відкритого світу.
- AgiBot World: Великий відкритий набір даних від стартапу з Шанхаю, що містить демонстрації дистанційного керування людиноподібними роботами.
- Hugging Face LeRobot: відкрита бібліотека, яка стала місцем збирання всіх вищезазначених платформ.
- mimic robotics mimic-video: відкритий моделювальний відео-дія, який має в 10 разів вищу ефективність зразків порівняно з традиційними VLA.
Це важливо з двох причин. По-перше, стартапи роботів більше не повинні витрачати десятки мільйонів доларів на попереднє навчання базової моделі: вони можуть взяти GR00T або π0 і доопрацювати її за допомогою даних своїх роботів. Саме це роблять Unitree, ZhiJi Dynamics, Booster, Galbot та десятки менших китайських компаній. Ось чому компанія з кількома сотнями співробітників може створювати людиноподібних роботів, які можуть ходити, говорити та складати одяг: вони стоять на плечах відкритих технологічних стеків.
Друге, відкрите джерело — єдина реальна можливість вирішення проблем безпеки. Якщо повністю закрита модель працює всередині робота на виробничій лінії, а зовнішній світ не має жодного доступу до її логіки висновків, це безперечно нічим іншим, як нічним сном регуляторів. Відкриті моделі дозволяють аудиторам, дослідникам та операторам справді перевірити, чому саме було навчено робота.
Вісім: Які ще питання залишилися нерозв’язаними?
Якщо ви дивилися достатньо відео з демонстрацією роботів, ви також бачили багато відео з їхніми відмовами. Сучасні роботи на основі LLM+VLA справді вражають, але мають помітні обмеження. Ось їхні проблеми:
- Відновлення завдання посеред процесу. Здатність VLA адаптуватися до несподіваних змін перевершує будь-яку попередню технологію. Але коли справи справді йдуть не так (наприклад, помилка захоплення, котіння об’єкта, чи втручання людини в робочу зону), повернення до правильного шляху залишається слабким місцем. Робот сліпо повторює невдалі дії.
- Ефективність зразків. Для навчання VLA з нуля потрібні тисячі годин даних про віддалене керування. Людина ж може навчитися користуватися новим інструментом за кілька хвилин. Ця різниця в ефективності надзвичайно велика.
- Узагальнення між сутностями. Модель, навчена на роботичному маніпуляторі Franka в лабораторії Стенфорда, не може ідеально переноситися на людиноподібного робота Unitree у складі в Шенчженьсь. Їх фізична форма відрізняється.
- Довгострокове завдання. Будь-яке завдання, що вимагає неперервної поведінки тривалістю більше 30–60 секунд і містить кілька підцілей, легко відхиляється від мети. Таке завдання, як «приготуй мені сніданок», завжди залишається недосяжним.
- Фізичні знання. VLA навчається імітації, а не розумінню. Вона не розуміє принципу, чому вода виливається, коли перевернути склянку. Вона лише бачила деякі приклади і передбачає, що станеться далі, на основі співпадіння шаблонів.
- Просторове мислення. Незважаючи на те, що вони багатомодальні, вони дуже слабо впоруються з завданнями, такими як «обходити перешкоди, а не проходити крізь них» або «складати ці речі так, щоб вони не впали».
Останній серією слабких місць спонукав галузь зробити ставку на зовсім іншу модель.
Дев'ять: Світова модель
Уявіть собі: що станеться, якщо навчити робота передбачати наслідки дій, а не самі дії?
Модель світу (World Model) — це нейромережа, яка на основі поточного стану світу (зазвичай відео або послідовність кадрів) і заданих дій передбачає, яким буде наступний стан світу. Просто кажучи, це можна уявити як навчану систему прогнозування відео з рульовим колесом: ви надаєте їй останню секунду зображення з камери і кажете «робот перемістить руку вперед на 10 см», а вона генерує реалістичне відео, що передбачає зображення наступної секунди.
Чому це важливо?
Оскільки з’явилася світова модель, робот може думати перед дією. Він може заздалегідь розробити три-чотири різні варіанти дій, передбачити результат кожної дії, оцінити їх і вибрати найкращий варіант. Все це відбувається до початку моторних рухів. Саме так працюють шахові двигуни: вони не запам’ятовують ходи, а моделюють майбутнє. Раніше у сфері фізичних роботів такої здатності не було, оскільки не існувало достатньо точних моделей для симуляції складного реального світу.

Світова модель дозволяє роботам моделювати кілька можливих сценаріїв майбутнього, оцінювати їх і вибирати найкращий варіант до запуску будь-якого приводу.
Яким буде світовий модель 2026 року?
Наразі існує багато найсучасніших світових моделей, які швидко розвиваються. Ось кілька моделей:
- NVIDIA Cosmos: серія відкритих світових моделей, що включає Cosmos Predict 2.5 (генеративна модель), Cosmos Transfer 2.5 (контрольована симуляційна модель), Cosmos Reason 2 (візуально-мовний інференсер для роботів) та найновішу Cosmos Policy. Cosmos Policy йде ще крок далі, безпосередньо генеруючи дії для керування шляхом післянавчання моделі світу. Cosmos навчалася на відеоданих, що склали десятки тисяч годин GPU (Cosmos Predict 2.5 — це світова модель цього ряду).
- DeepMind Genie 3: інтерактивна світова модель, яка генерує повністю навіговані середовища за текстовими підказками зі швидкістю 24 кадри на секунду та може стабільно працювати протягом кількох хвилин. Спочатку розроблена для ігрових середовищ.
- Meta V-JEPA 2: під час попереднього навчання використовувалося понад мільйон годин відео з інтернету, а потім лише 62 години відео з роботами для навчання з умовою дій. На реальних роботизованих руках у різних лабораторіях, без будь-якого навчання з урахуванням конкретних завдань, досягнуто 80% успішності нульового зразка підйому та розміщення. Метод «JEPA» архітектурно відрізняється від інших підходів.
- DeepMind Dreamer 4: використовуючи лише офлайн-дані, без будь-якої взаємодії з середовищем, навчився збирати алмази в Minecraft (завдання з 20 000 кроків). Це доводить, що справжнє підсилене навчання у віртуальних світах є можливим.
- AgiBot’s Genie Envisioner: єдина світова модельна платформа з Китаю, навчена на більше ніж 3000 годинах відео з реальними операціями людиноподібних роботів. Вона може генерувати як передбачувані траєкторії розгортання, так і виконувані траєкторії дій. AgiBot використовує NVIDIA Cosmos Predict 2 як основну мережу та проводить післянавчання на власних даних. Це саме та модель «відкритого технічного стеку + власні дані», про яку йшлося раніше.
- Дослідницький інститут Toyota на основі Cosmos: для підсилення даних та навігації у віддаленому управлінні.

Шість найважливіших світових моделей 2025–2026 років, кожна з яких пропонує різне уявлення про те, як машини повинні вивчати фізику.
Десять: альтернативна архітектура, оскільки в цій галузі ще немає консенсусу
Створення світової моделі не має єдиного стандарту. Суперечка щодо архітектури — одна з найцікавіших сучасних дискусій у галузі ШІ, яка безпосередньо впливає на те, що зможуть робити роботи майбутнього. Варто звернути увагу на три лагері:
Піксельний відеодифузійний (космічний/Сора) підхід: використання дифузійних моделей для передбачення реальних пікселів майбутніх кадрів. Перевага — може слугувати генератором синтетичних даних, здатним візуалізувати абсолютно нові демонстрації роботів, які ніколи не відбувалися. Недоліки — висока вартість, іноді порушення фізичних законів, а також те, що передбачення пікселів, які ніколи не будуть спостерігатися, є витратою ресурсів.
Архітектура спільного вкладення для прогнозування (JEPA, школа Лекуна): не прогнозує пікселі, а прогнозує абстрактні представлення наступного кадру. Відкидає текстурні деталі, зберігаючи лише семантичну суть об’єктів у сцені. Переваги — ефективність і зосередженість на факторах, що критичні для дій. Недолік — складність у використанні. Цю область досліджують V-JEPA, V-JEPA 2 та нова гібридна модель JEPA-VLA.
Потенційні дієві моделі світу (напрямок Genie/Dreamer): навчання стисненню цілих відео у потенційну «мову дій», яка відображає структуру поведінки, а потім навчання моделі світу передбачати наступний потенційний стан на основі наступної потенційної дії. Перевага — дозволяє використовувати для навчання відео з інтернету без дій, а потім додавати невелику кількість даних реального робота. Недолік — потенційні дії незрозумілі для людей, що ускладнює аналіз безпеки.

Піксельна дифузія, JEPA та потенційні дії: одна мета, але різний підхід до побудови моделей світу
Одинадцять: Практичне застосування роботів на основі світових моделей
Якщо прискорити кілька років, архітектура передових людиноподібних роботів може виглядати так:
VLA оснащений світовою моделлю. Коли робот зустрічає нову ситуацію, він виконує дії, подібні до наведених нижче:
- VLA запропонувала кілька варіантів подальших дій (це все ще стратегія).
- Світова модель отримує кожну кандидатську дію та симулює уявне відео тривалістю 1–3 секунди.
- Оцінювачі вартості надають бали на основі передбачуваних результатів: чи був піднятий склянка? чи щось впало? чи було вдарено людину?
- Робот вибере дію з найвищим балом і виконає лише її першу частину.
- Повернення даних датчиків у реальному часі; циклічне повторення.
Це модельне прогнозне керування — технологія, яка протягом багатьох років використовувалася для стабілізації ракет і квадрокоптерів, але вона замінює штучно виведені фізичні рівняння навченими моделями світу. Її масштабованість полягає в тому, що модель світу попередньо навчена на мільйонах годин відео, а не тому, що хтось написав рівняння Нав’є-Стокса (Navier-Stokes equations) для кухонного середовища.
Його переваги поступово зростають:
- Ситуація з відновленням покращилася. Якщо виникає помилка при захопленні, світова модель може передбачити кілька шляхів корекції та вибрати найбільш перспективний.
- Значно покращено узагальнювальну здатність. Модель світу, навчена на відео з інтернету, пережила на кілька порядків більше «фізичних явищ», ніж будь-який набір даних віддаленого керування роботами.
- Довгострокове планування стає керованим. Плануйте у уяві, а не в реальності.
- Розрив між симуляцією та реальністю зменшився. Раніше потрібно було навчати за допомогою власних симуляторів (наприклад, Isaac Sim, фізичний двигун Newton), а потім сподіватися, що результати навчання перенесуться на реальні застосунки, а зараз можна навчати за допомогою симуляторів, які були навчені та здатні збігатися з реальним відео. Тому розрив менший.
- Синтетичні дані ростуть експоненційно. Модель світу майже безкоштовно може генерувати мільйони різних траєкторій роботів з різними освітленням, матеріалами та конфігураціями об’єктів. Це вирішує одну з найбільших обмежень у цій галузі.
Крім того, він має важлива перевага в безпеці. Роботи, здатні моделювати наслідки дій, можуть відмовитися виконувати небезпечні операції: не через обмеження заздалегідь заданих правил, а тому що вони передбачають, що в майбутньому хтось може пошкодитися.

Два способи руху: VLA реагує на те, що бачить; роботи зі світовою моделлю думають перед рухом
Дванадцять: Ще варто знати
Справжньою ключовою проблемою є проблема даних: якщо неможливо подавати дані моделі, всі інновації в архітектурі світу не мають значення. Наразі основним технічним обмеженням є дистанційне керування (людина у VR-обладнанні дистанційно керує роботом як лялькою). Перевага компанії-робототехніка все більше залежить від її ліній збору даних, а не від самої моделі. Agi Robotics вже створила склади, наповнені операторами. Закон масштабування витонченості NVIDIA GR00T N1.7 свідчить, що більше відео від першої особи людини безпосередньо й передбачувано підвищує витонченість роботів. Це також одна з причин структурної переваги Китаю: нижчі витрати на збір даних, більш лояльне середовище для розгортання та активна координація ланцюжків постачання державою.
Симуляція — це паралельний всесвіт. NVIDIA Isaac Sim, новий відкритий фізичний двигун Newton (версія 1.0 буде офіційно випущена в квітні 2026 року) та платформа Omniverse дозволяють підприємствам навчати роботів у мільйонах паралельних симуляційних середовищ, не виводячи їх у реальний світ. Більшість функцій, що здаються «роботизованим інтелектом», насправді розвиваються в симуляційних середовищах, а потім переносяться на апаратне забезпечення.
Економічна ефективність починає проявлятися. Unitree доставив приблизно 5500 людоподібних роботів у 2025 році і планує досягти 10 000–20 000 одиниць у 2026 році. Середня ціна за два роки знизилася з 85 000 доларів США до 25 000 доларів США. Робот R1 від Unitree коштує 5 900 доларів США. Ціна запуску Noetix Bumi становить 1 400 доларів США. Ціни на апаратне забезпечення людоподібних роботів наближаються до рівня споживчої електроніки, тоді як внутрішні технології ШІ все ще відстають від демонстраційних продуктів. Ця різниця рано чи пізно зменшиться, і тоді зростання ринкового розміру матиме значний вплив на весь індустрій.
Модель відмови виглядає дивно. Коли роботи на основі LLM виходять з ладу, вони роблять це способами, яких традиційні роботи зробити не можуть. Наприклад, впевнено роблять помилки, «галюцинуючи» про наявність певних функцій або потрапляючи у цикл діалогів із власним планувальником. У традиційній робототехніці до цього ставляться з достатнім ступенем скептицизму, що має під собою підстави, оскільки вони вважають, що навчальні системи повинні піддаватися безпечному моніторингу та обмеженням поведінки. Наразі найбільш надійними впровадженими роботами є гібридні: мозок VLA розміщений у ручно спроектованій безпечній клітці.
Розповідь про «момент ChatGPT» — це корисна, але вводить в оману метафора: Хуаннен Хуанг постійно говорить всім, що момент ChatGPT для роботів настав. Він каже це, бо NVIDIA продає лопати й кайла. Більш чесна версія: зараз ми приблизно на етапі GPT-2 фізичного ІІ. Вона потужна й вражає; але ще недостатньо потужна, щоб її можна було розгорнути без нагляду. Вона швидко ітерується, але ще не досягла точки вірусного розповсюдження — замість цього маємо повільний, але стійкий підйом.
Висновок

Еволюція чотириногого робота Yushu (зправа наліво)
У демонстрації, яку було побачено в офісі Unitree, п’ять роботів-андроїдів G1 виконували бойові мистецтва з тщеславно складеною хореографією, з мінімальними коригуваннями від вбудованого контролера типу VLA та віддаленим оператором, що стежив за всім. З фундаментальної точки зору, це не було повністю автономно. Але весь процес: сприйняття, планування, керування рухом — тепер замінюється нейромережами. Через два роки той самий робот здатен виконати ті самі рухи без хореографії, оскільки він вже заздалегідь сформував уявлення про весь рух і вибрав найкращу версію.
Весь розвиток, описаний у цьому тексті: від ручно написаних контролерів до машинного навчання з урахуванням сприйняття, потім до LLM-планувальників, далі до VLA, потім до архітектури подвійної системи, і нарешті до моделей світу, — це поступове зміщення місця розташування робототехнічного інтелекту. Він почався в голові інженерів, потім перетворився на ручно написаний код, потім перейшов до рівня сприйняття, до планувальника, до рівня стратегії. А зараз він нарешті рухається до створення моделей самого світу.
Кожна трансформація робить роботів більш універсальними, адаптивними та корисними. Якщо трансформація світової моделі вдасться, вона надасть роботам справді потужні можливості: настільки потужні, що питання вже не буде «Що можуть роботи?», а «Що ми повинні їм дозволити робити?»
Додаткова інформація: Огляд 30+ компаній, що виробляють людиноподібних роботів: хто переможе у 2026 році?
