Недавно роботи-андроїди зазнали історичного перелому — від «річей люксу» до «ціни капусти».

Автор статті, джерело: AI Frontier

Недавно роботи-андроїди зробили історичний перелом — від «предметів розкоші» до «ціни капуста». Раніше інженерні зразки, які рік тому треба було попередньо замовляти за майже мільйон юанів, зараз продаються на вторинних сайтах та ринках розбирання за ціною «50 000 юанів за машину». За одиницю деякі з них навіть дешевші за флагманські смартфони високого класу.

Yu Shu G1 знижений до 85 000 юанів, а доступна модель R1 Air коштує лише 29 900 юанів, тоді як Bumi від Songyan Power впав до 9 998 юанів — дешевше, ніж висококласний iPhone. В той же час рівень локалізації ланцюжка постачання китайських людиноподібних роботів перевищив 90%. За останнім звітом Morgan Stanley, приблизно 90% із 13 000–16 000 людиноподібних роботів, що будуть відправлені по всьому світу у 2025 році, походять з китайських виробників.

Якщо сьогоднішній ІІ вже почав виступати як продуктивна сила цифрового світу, то швидко розвиваючіся роботи мають потенціал стати продуктивною силою фізичного світу. На тлі безумної гонки цін на продукти виникає питання: чи достатньо в майбутньому лише людиноподібних роботів?

Дані дослідження Gartner дають спокійний факт: «реальний коефіцієнт» людиноподібних роботів становить лише 1:60, приблизно 98,36% опитаних клієнтів все ще перебувають на етапі дослідження, а реально впроваджено лише 1,64%. «З практичної або раціональної точки зору ми вважаємо, що майбутні роботи не обов’язково мають бути ідентичними людині за зовнішнім виглядом», — сказав віце-президент Gartner по дослідженням Гао Тін.

Недавно ми провели інтерв’ю з Гао Тіном. Він зазначив, що, хоча людський світ створений з розрахунком на людський розмір, людська анатомія не обов’язково є оптимальною формою для роботів. Успішні роботи повинні вдосконалювати людську форму, а не просто копіювати її. Наприклад, робот Digit, якого тестує Amazon, має коліна, що згиняються назад, що дозволяє йому ефективніше присідати перед полицями, ніж людина; робот Eve від 1X використовує колісну, самобалансуючуся базу, що підвищує ефективність руху в рівних внутрішніх середовищах. Ефективна форма робота може бути собачою, колісною або зовсім новою формою, розробленою залежно від завдання — такі форми зазвичай стабільніші, дешевші та швидші за людиноподібні.

Не обмежуйтесь «людською» зовнішністю — пріоритетом має бути пошук конкретних вертикальних застосувань, які швидко доставляють цінність і генерують дохід. Крім того, Гао Тин проаналізував реальну картину робототехнічної галузі сьогодні з кількох аспектів: технологій, апаратного забезпечення, застосувань та реальних викликів.

Що може зробити робот сьогодні?

У короткостроковій перспективі варто звертати увагу не на те, «чи схожі роботи на людей», а на те, «чи здатні роботи стабільно виконувати завдання в дуже чіткому сценарії, знижувати витрати, зменшувати залежність від людських ресурсів та підвищувати ефективність операцій».

То що ж сьогодні може зробити робот?

З вже реалізованих прикладів видно, що зовнішній вигляд робота насправді не є найважливішим. Чи то маніпулятор у складі, чи то транспортний робот на автозаводі — у всіх сценаріях, які легко реалізувати, є одна спільна риса: середовище досить стабільне. Компанії в кінцевому підсумку звертають увагу лише на одне: чи зможе цей робот ефективно виконувати завдання і чи буде це економічно вигідно, а не наскільки він схожий на людину.

За підсумками Гао Тіна, на поточному етапі сценарії роботів, які легше забезпечують інвестиційну віддачу, зазвичай мають три характеристики: чітко визначені межі завдань, повторювані процеси та обмежена кількість виняткових ситуацій. Наприклад, логістика на виробничих лініях, складські перевезення та деякі сервісні процеси можуть бути оптимізовані шляхом модернізації місця розташування, щоб зменшити складність завдань для роботів. Сценарії вдома відрізняються: комбінації завдань більш розрізнені, середовище змінюється частіше, і будь-яка помилка може безпосередньо вплинути на безпеку людей. Тому домашні роботи потребують не лише потужніших моделей, але й більш досконалих інженерних рішень щодо надійності та механізмів безпеки.

Де можливості в період масштабної індустріалізації?

«Роботи перебувають у вікні можливостей для масштабування та індустріалізації.» — так визначає етап розвитку робототехнічної галузі зараз Гао Тин. «Наразі роботи вже успішно застосовуються в деяких промислових та комерційних сценаріях. Зокрема, на заводах та складах роботи вже можуть замінювати частину ручної праці в завданнях з високою частотою повторюваності. Тому капітал дуже уважно стежить за цим напрямком, і оцінки кількох лідерів галузі швидко зростають.»

Але справжнє масштабне впровадження промисловості ще не відбулося.

Тесла раніше встановила ціль виробництва близько 5000 одиниць Optimus у 2025 році. Однак під час публікації фінансових результатів за четвертий квартал 2025 року Елон Маск також визнав, що Optimus на заводі виконує лише деякі базові завдання і ще не досяг реальної продуктивності. За даними, третє покоління людиноподібного робота Тесла має бути представлене наприкінці року, а серійне виробництво розпочнеться лише у липні-серпні 2026 року.

Роботи, особливо андроїди, значно відрізняються від реальних результатів та очікувань громадськості — це поточна ситуація.

За думкою Гао Тіна, протягом наступних 2–3 років людиноподібні роботи важко буде повністю комерціалізувати в масштабах. Ці людиноподібні роботи, ймовірно, продовжуватимуть з’являтися в таких відносно фіксованих середовищах, як заводи, склади та виробництво автомобілів, виконуючи повторювані та низькоскладні завдання. Але це буде переважно пілотні проекти та невеликі розгортання, а не повна заміна працівників. Натомість комерційні шляхи промислових роботів, складських роботів, сервісних роботів та деяких багатофункціональних роботів, призначених для конкретних завдань, є більш чіткими, оскільки їхні межі завдань є добре визначеними, витрати та дохід легше розраховуються, а безпека та процеси легше контролюються.

Для бізнесу, який хоче купити робота, його порада: «По-перше, початкова точка — не «купити людиноподібного робота», а почати з пошуку завдань з високою вартістю та низькою складністю. По-друге, сприймайте робота як проект операційної трансформації, а не просто як закупівлю обладнання. Після купівлі основного блоку його не можна просто встановити — потрібно враховувати процеси на місці, розташування простору, інтеграцію IT/OT, співпрацю з працівниками тощо. По-третє, спочатку проведіть пілотний проект, а потім масштабуйте — почніть з одного-двох невеликих замкнених сценаріїв, отримайте реальні результати продуктивності, а потім копіюйте їх. По-четверте, спочатку звертайте увагу на зрілі категорії, наприклад, AMR, маніпулятори, співпрацюючі роботи, а довгостроково стежте за ступенем зрілості людиноподібних роботів».

«У галузі часто порівнюють поточний етап розвитку ембоді-інтелекту з початковим етапом великих моделей: напрямки технологій поступово уточнюються, але масштабованість ще не сформувалася», — пояснює Гао Тін. Це порівняння має певну логіку, але індустріалізація роботів є складнішою, оскільки вона залежить не лише від обмежень даних і обчислювальних потужностей, а й від сенсорів, приводних систем, управління живленням та надійності системи.

VLA залишається важливим напрямком, а світові моделі прискорено інтегруються в робототехнічні системи

Те, що робот може та не може робити, залежить від його «мозку» — моделі робота.

Ва Лін сказав: «VLA — це найбільш зріла технологічна парадигма для універсальних роботів». VLA означає Vision-Language-Action — візуальний, мовний та дієвий компоненти. Частина «Language» походить від великих мовних моделей, що дозволяє роботам поєднувати інформацію про середовище та команди завдань для генерації відповідних дій.

Роль мовної моделі полягає у наданні роботу здатностей семантичного розуміння, загальних знань та планування завдань. Наприклад, коли користувач каже «у кімнаті занадто темно», робот повинен зрозуміти ціль завдання, що стоїть за цим твердженням, і вирішити, чи слід увімкнути світло.

Відмінно від попередніх підходів, моделі VLA спочатку мають узагальнювальну здатність, а потім поступово покращують надійність у кожному конкретному сценарії — логіка зовсім зворотна. «Раніше спочатку вирішували проблему високої надійності у конкретних сценаріях, а потім намагалися узагальнити. Наприклад, спочатку робота навчали виконувати певну дію з дуже високою надійністю, а потім намагалися навчити його іншим завданням. Але ви помітите, що такий підхід важко дійсно досягти узагальнення — ви отримуєте лише дуже спеціалізованого робота, який погано справляється з іншими завданнями».

Щодо нової технологічної парадигми, такої як світові моделі, Гао Тін сказав: «Вона пропонує інший підхід: дозволяє системі вивчати зміни стану та причинно-наслідкові зв’язки у фізичному світі та передбачати можливі наслідки дій. Вона не обов’язково залежить від мови як проміжного рівня, а більше зосереджена на моделюванні фізичних законів. Наприклад, досвідчений водій, бачачи лужок попереду, не потребує перекладати у свідомості: „Тут вода, можливо, буде ковзання, треба зменшити швидкість“ — натомість візуальне сприйняття безпосередньо запускає фізичне передбачення траєкторії автомобіля, і він інстинктивно натискає на гальмо. Світові моделі прагнуть вирішити саме цю здатність приймати рішення без попереднього перекладу у мову».

Проте він вважає: «Сьогодні провідні напрямки у загальних та людиноподібних роботах все ще засновані на VLA. Хоча світові моделі розвиваються швидко, наразі вони більше використовуються для генерації синтетичних даних, симуляцій, оцінки та допоміжного планування, а реальні випадки їх безпосереднього застосування для керування фізичними роботами залишаються на початковій стадії. У найближчі два роки VLA, ймовірно, залишиться основою моделей руху роботів, але світові моделі поступово інтегруються в системи VLA, надаючи роботам більш глибоке розуміння фізики, планування та передбачення. У довгостроковій перспективі більш імовірним є поєднання VLA та світових моделей, а не просте заміщення VLA світовими моделями».

Ві Лін вказав, що наразі VLA є однією з найближчих до інженерної реалізації загальних робототехнічних маршрутів. Вона все ще значно відстає від гнучкості та універсальності людського інтелекту, але вже продемонструвала хорошу практичну цінність у сценаріях із чітко визначеними межами, таких як складське господарство та виробництво. У найближчому майбутньому VLA, ймовірно, залишиться основним маршрутом для індустріалізації робототехніки.

Незамінна «ліпка рука»: багатоаспектні інженерні компроміси при масовому виробництві роботів

Якщо модель — це «мозок» робота, то маніпулятор — це його найважливіший «інструмент». «Для роботів, які повинні маніпулювати об’єктами, кінцевий виконавчий пристрій є критично важливим; у сценаріях універсального виконання завдань маніпулятор особливо важливий».

Гао Тин відзначив, що не будь-який роботизований маніпулятор можна назвати «ліпким маніпулятором»; він повинен мати достатню кількість ступенів свободи, здатність до точних операцій та здатність адаптуватися до захоплення різних об’єктів.

За останні кілька років штучні руки значно покращилися: збільшилася кількість ступенів вільності, а ціни знизилися. Але Гао Тін зазначив: «Проблема штучних рук полягає не лише у збільшенні ступенів вільності. Для промислового застосування важливішим є поєднання точності захоплення, виходу сили, довговічності та витрат на обслуговування в обмеженому просторі. Продукт з найвищою кількістю ступенів вільності не обов’язково найкращий для масового виробництва — різні завдання вимагають різних компромісів між продуктивністю та надійністю.»

Він навів приклад: «Деякі закордонні високотехнологічні руки, хоча й можуть за допомогою щільного набору датчиків та складного приводу на тягах наблизитися до людської руки за ступенем свободи та адаптивною здатністю захоплення, зазвичай мають високу ціну — від кількох десятків тисяч до сотень тисяч юанів, що ускладнює їх масове розгортання. Деякі продукти ціною в тисячі юанів або відкритого коду знизили бар’єри для входу, але їхні вихідні сили на кінцівках, довговічність та точність сенсорики все ще потребують додаткової перевірки — на даний момент вони не можуть безпосередньо замінити людину».

Розрив у даних: різниця між симуляцією та реальністю, машинами та людьми

Сьогодні робототехнічна галузь стикається з кількома викликами, одним із ключових обмежень є недостатність якісних даних. «Дані залишаються першою перешкодою на шляху до масштабування роботів».

Гао Тин зазначив, що для навчання великих мовних моделей використовуються дані з інтернету, які відносно легко отримати. Але дані про реальні операції роботів, наприклад, дані про дистанційне керування, вимагають значних витрат.

Оскільки отримати реальні дані складно, чи можна використовувати симуляційні дані як альтернативу? Це веде до другого виклику: розрив між симуляцією та реальністю. Гао Тін зазначає, що NVIDIA активно розвиває інструменти для симуляції та синтетичних даних, збільшуючи обсяги навчальних даних та зменшуючи витрати на експерименти у реальному світі шляхом навчання, тестування та верифікації роботів у віртуальному середовищі. Переваги полягають у низьких витратах та легкості масштабування. Але існує важлива проблема: завжди існують відмінності між симуляційними сценаріями та реальним світом. «Навіть найкраща симуляція все одно відрізняється від реального світу. Навіть якщо робот виконав мільйони ідеальних рухів у віртуальному двигуні, при зустрічі з незначними силами тертя, змінами матеріалу чи освітлення у реальному світі стратегії керування, вивчені у віртуальному середовищі, можуть перестати працювати. Тож симуляційні дані дуже корисні, але поки що не можуть повністю замінити реальні дані.»

Також було запропоновано: чи можна безпосередньо навчати роботів за допомогою великої кількості відео з інтернету? Це дешевше, а дані легко доступні, але виникає новий виклик: Embodiment Gap (тілесний розрив). Просто кажучи, тіло людини і тіло робота виглядають по-різному, наче «очі навчилися, а руки — ні». Тому пряме перенесення відео або даних про людські дії на робота значно знижує ефективність.

«Більш реалістичний шлях майбутнього — не «лише симуляція»,» — каже Гао Тін. — «А створення гібридної стратегії даних: заснованої на реальних даних взаємодії роботів, включаючи дистанційне керування, навчання за прикладом та зворотний зв’язок з місця виконання; а також поєднання з даними про людську поведінку, такими як відстеження рухів та відео від першої особи, разом із симуляційними / синтетичними даними для підвищення узагальнюючої здатності та надійності моделей роботів.»

Крім даних, витрати залишаються однією з викликів, з якими стикається робототехнічна галузь. «Щоб роботи потрапили до тисяч галузей, вони мають бути досить дешевими». Однак Гао Тін також зазначив, що китайський ланцюжок постачання є величезною перевагою. «Найбільш доступний людиноподібний робот R1 Air від Unitree вже коштує менше 30 000 юанів. Хоча він ще не може працювати на заводі і в основному використовується для наукових цілей, переваги китайського ланцюжка постачання робототехніки очевидні».

Ціни падають, ланцюжок поставок дозріває, парадигма VLA підтверджена як працездатна, капітал надходить. Але розрив у даних, обмеження апаратного забезпечення та проблеми витрат все ще утворюють три високі стіни на шляху до повсюдного поширення.

Найраціональніший підхід до цієї галузі, можливо, не полягає у прагненні до «антропоморфних» хайпів, а у поверненні до простого питання: як саме цей пристрій може допомогти людям вирішити реальні проблеми? Як сказав Гао Тин: «Не звертайте уваги, чи схожий він на людину». Важливіше — «корисність». А ще важливіше за ціну — цінність. Ця гонка в галузі продуктивності, а не форми, лише починається.