У 2026 році індустрія ШІ спостерігає зростання «фізичного ШІ» з великими проривами

Фізичний ІІ, прийнято.

Автор статті, джерело: Дунцзянь Синьяншэ

З початком 2026 року в сфері ШІ з’явився популярний термін — «фізичний ШІ».

Хуан Ренсюнь неодноразово зазначав на виставці CES на початку року: «Наступна хвиля ШІ буде ШІ, який працює у фізичному світі». Сунь Ючень також недавно гучно заявив: «Віртуальний ШІ-бонус вичерпано, фізичний ШІ — найбільша можливість наступних трьох років».

На промисловому рівні зіркова компанія Figure AI викликала вибух інтересу в мережі п’ятиденною безперервною трансляцією роботів-сортувальників, а китайська компанія Zhìyuán Robotics оголосила про випуск 10 000-го універсального ембоді-робота…

Виступи експертів та реальні зміни в галузі ембодієнту інтелекту звернули увагу галузі на цей величезний сценарій переходу від віртуального інтелекту до фізичного виконання, проте багато хто все ще має питання: чи є цей так званий «фізичний ІІ» необхідним переломним моментом у розвитку технологій, чи це просто добре запакована заміна концепцій?

У 2026 році у світі ШІ виникла хвиля «фізичного ШІ»: Хуан Ренсюнь стверджує, що наступна хвиля ШІ буде пов’язана з ШІ, що працює у фізичному світі. Figure AI продемонструвала технологію, перевищивши лабораторний етап, за допомогою 5-денної прямого ефіру з роботом-сортувальником, а Zhìyuán Robotics випустила 10 000-й універсальний ембоді-робота. Основа цієї технології — надання ШІ здатності до замкненого циклу «відчуття — міркування — дія — зворотний зв’язок» у реальному світі. За цим стоять великі мовні моделі, що надають роботам здатність розуміти, світові моделі, що вирішують проблеми дій у фізичному світі, та VLA-моделі, які закривають останній крок від розуміння до правильного виконання. Фізичний ШІ переходить від технічного підтвердження до комерціалізації: з 2026 року інвестиції в цю галузь вже перевищили 110 мільярдів юанів, і конкуренція перейшла до етапу масового виробництва та поставок.

Джерело: Дунцзянь Синьяншэ

01 Від «вміння розмовляти» до «вміння робити»

Перш ніж відповісти на вищезазначене питання, давайте розберемо цей трохи нещільний професійний термін.

Фізичний ІІ — це технологія штучного інтелекту, яка буквально глибоко інтегрує ІІ з фізичним світом; але в глибині, віртуальний ІІ відповідає за «мислення та спілкування», тоді як фізичний ІІ повинен «відчувати та діяти», що робить його не просто інтелектуальним агентом на екрані, а змушує машини відчувати, розуміти та виконувати складні операції в реальному фізичному світі.

Фізичний ІІ — це технологія, яка «дозволяє автономним пристроям, таким як роботи, автомобілі з автономним керуванням тощо, сприймати, розуміти та виконувати складні операції у реальному фізичному світі». Він Всіан, член виконавчого комітету Китайського комп’ютерного товариства, систематично роз’яснив цю концепцію на третьому Китайському міжнародному виставковому форумі з ланцюгів постачання: «Фізичний ІІ означає, що ІІ-системи мають здатність до замкненого циклу „сприйняття — міркування — дія — зворотний зв’язок“ у реальному світі».

Простими словами, раніше штучний інтелект «вмів розмовляти», а сьогодні фізичний штучний інтелект «вміє робити речі» — коли ІІ виходить за межі діалогового вікна ChatGPT і потрапляє у реальний світ: фабрики, склади та будинки, саме це й є проблема, яку має вирішити фізичний штучний інтелект.

Ця різниця особливо помітна в діяльності двох зіркових робототехнічних компаній цього року.

Одним із них є американська Figure AI, яка підтвердила, що «роботи справді можуть працювати», проведши п’ятиденну прямі трансляції, які розпочалися 14 травня. У трансляціях три людиноподібні роботи Figure 03 по черзі сортували посилки на лінії збирання; завданням роботів було виявляти штрих-коди, брати посилки, змінювати їх орієнтацію та розміщувати штрих-кодом донизу на транспортері.

Під час прямого ефіру робот працював безперервно понад 33 години, обробивши більше 40 000 посилок. Засновник Бред Адкок заявив, що робот працює на останній моделі компанії Helix 02 у «повністю автономному режимі».

Значення прямого ефіру Figure AI полягає не лише у демонстрації власних технологічних можливостей, а й у тому, щоб за допомогою реального зображення повідомити світу: фізичні AI-технології вже подолали поріг «лабораторних демонстрацій» — коли компанія проводить прямий ефір з роботом, який безперервно працює кілька днів на виробничій лінії без серйозних проблем, це вже є потужним технологічним заявленням.

Китайська компанія Zhiyuan Robotics також провела подібний прямий ефір, розмістивши свого робота Zhiyuan Spirit G2 на лінії з виробництва планшетів у науково-технічному парку Longqi у Нанчані, де він працював разом із людьми. За даними реального тестування, робот протягом 8 годин безперервної роботи не мав жодних серйозних відхилень, а загальна успішність виконання завдань перевищила 99,5%; на одну операцію витрачається лише 18–20 секунд, що дозволяє виробляти 310 одиниць продукції на годину — один робот може виконувати роботу двох операцій.

Ще далі, у березні Agi Robotics офіційно оголосила, що світовий перший універсальний робот з втіленою штучною інтелектністю досяг ліміту в 10 000 одиниць, випущених і доставлених — від 5 000 до 10 000 одиниць вони досягли лише за три місяці, з грудня 2025 року по березень 2026 року.

Крім кількості поставлених пристроїв, Zhiyuan Robotics повідомила, що планує досягти доходу в 10 мільярдів юанів до 2027 року. Якщо зважити на досвід розвитку таких передових галузей, як відновлювана енергетика, автономне керування або чіпи, то компанія, яка існує менше двох років, здатна досягти масового виробництва в тисячах одиниць і поставити мету в 10 мільярдів юанів доходу — це можна назвати феноменом у сфері важкої технології.

Обидві компанії за допомогою реальних даних і сценаріїв довели, що фізичний ІІ більше не залежить від дистанційного керування чи передвизначених сценаріїв для «виступу», а має здатність самостійно виконувати складні завдання в реальному середовищі.

Ще важливіше те, що Zhiyuan першим подолав поріг у 10 000 одиниць, зв’язавши виробничу потужність з наявними замовленнями, що свідчить про перехід цього напрямку від «технічного підтвердження» до «комерційної реалізації». Іншими словами, «доцільність» фізичного ІІ вже не підлягає сумніву — справжня конкуренція вже перейшла у глибокі води «придатності» та «економічності».

02 Технологічні драйвери вибуху фізичного ІІ

Тоже саме, тепер виникає питання: чому фізичний ІІ саме цього року раптово вибухнув? Зараз, аналізуючи ситуацію, окрім реальних комерційних потреб, найбільшим драйвером стали серія технологічних проривів.

Спочатку великі мовні моделі (LLM) надали роботам «здатність розуміти». Традиційні роботи залежали від детермінованого коду та програмування за правилами, що було еквівалентно тому, що інженери заздалегідь писали «сценарій», і кожен рух робота строго виконувався згідно з передбаченими вимогами «сценарію». Цей підхід мав великий недолік: навіть невелика зміна середовища роботи вимагала переписування коду, а його стійкість була низькою, і важко було подолати бар’єр комерціалізації.

Однак після того, як Google спробувала поєднати ВМ з фізичним виконанням роботів і у серпні 2023 року запустила такі ембоді-багатомодальні великі моделі, як Google PaLM-E та RT-2, роботи отримали здатність автоматично розкладати складні завдання на кроки за допомогою природних мовних інструкцій та виконувати їх — велика мовна модель здійснила стрибок від «розуміння діалогу» до «фізичного виконання».

Хуан Ренсюнь у своїй промові на CES 2026 вказав на суть цієї технологічної еволюції: фізичний ІІ — це справді передача контролю на нижчому рівні; коли фізичний ІІ досягає критичної точки технологічної еволюції, контроль переходить від детермінованого коду, написаного людиною, до нейромереж, які мають узагальнювальні здібності й розуміють фізичні закони.

На цьому етапі роботи більше не просто «виконують код», а набувають здатності «розуміти команди та самостійно планувати дії».

Якщо великі мовні моделі вирішили проблему «розуміння», то світові моделі вирішили проблему «дії у фізичному світі»; суть світових моделей полягає у тому, щоб навчити ШІ внутрішнього розуміння законів функціонування фізичного світу.

Платформа Cosmos, представлена NVIDIA на CES минулого року як базова модель фізичного ІІ, стала знаковою подією; основна здатність цієї моделі — генерувати дані про дії, що відповідають фізичним законам, на основі тексту чи зображення. Розробники можуть використовувати Cosmos для прискорення розробки фізичного ІІ для розумних автомобілів, роботів та AI-агентів для аналізу відео.

За словами NVIDIA, Cosmos навчався на більш ніж 20 мільйонах годин реальних даних, що значно зменшило складність симуляцій та навчання моделей. Завдяки світовій моделі AI-системи можуть проводити масштабні симуляції у віртуальному середовищі, а потім переносити отримані знання у реальний фізичний світ.

Кінцева здатність робота — не «бачити» чи «розуміти», а «зробити правильно». З’явлення моделей Vision-Language-Action дозволяє роботам одночасно обробляти візуальні вхідні дані, розуміння мови та керування діями, забезпечуючи замкнений цикл «бачиш — робиш».

DeepMind у вересні минулого року випустила нове багатомодальне велике моделі для ембодірованого інтелекту Gemini Robotics 1.5, заявивши, що це перша у світі модель, оптимізована для ембодірованого міркування; NVIDIA представила відкриту модель Isaac GR00T N1.6, розроблену спеціально для людиноподібних роботів, яка дозволяє отримати контроль над усім тілом.

В той же час Бекінський інноваційний центр людоподібних роботів відкрив джерела великої моделі тілесного мозочка XR-1, яка стала першою в Китаї моделлю, що відповідає національному стандарту тілесного інтелекту. Модель навчена на більше ніж мільйоні даних і здатна виконувати складні завдання з двома руками, такі як піднімання та покладання, штовхання та тягнення, обертання.

На цьому фізичний ІІ «зібрав» необхідні базові технологічні можливості для реалізації: LLM дозволяє машинам «розуміти» людські наміри, світова модель дозволяє машинам «передбачати» фізичні наслідки, а VLA долає останній кілометр від «розуміння» до «правильного виконання». У поєднанні ці три компоненти надають роботам першу базову здатність самостійно виконувати завдання в відкритому середовищі.

Звичайно, наразі існують обмеження у витончених рухах: точне керування руками та кистями все ще стикається з багатьма проблемами. Іншими словами, фізичний ІІ отримав квиток на роботу на заводі, але щоб справді «ввійти в будинок і подавати чай», потрібно подолати якісний стрибок від «грубих рухів» до «витончених операцій».

03 Від технічного бачення до здатності до поставки

Важливо розуміти минуле й сьогодення фізичного ІІ, а зараз індустрія ембодірованого інтелекту повинна вирішити, навколо яких ключових вимірів буде вестися наступна конкуренція.

Ми вивчаємо досвід розвитку автономного транспорту: битва за дані не обійшла автономний транспорт, і аналогічна логіка застосовується до ембоді-інтелекту — зазвичай той, хто має якісніші навчальні дані, має більше впливу.

Зараз у галузі NVIDIA першою заклала бар’єр світових моделей на основі Cosmos; її модель, навчена на більше ніж 20 мільйонах годин реальних даних, важко швидко скопіювати, тоді як Zhiyuan досягла масового виробництва та розгортання 10 000 роботів, що означає, що вона має реальну, спрямовану на зворотний зв’язок здатність збору даних, що в галузі широко вважається даним бар’єром.

Варто зазначити, що для конкуренції фізичного ШІ не просто важливо, хто має більше даних, а потрібна синергія синтетичних та реальних даних.

Чиста залежність від реальних даних стикається з проблемами масштабу та витратами на знос обладнання, тоді як надмірна залежність від синтетичних даних призводить до розриву між симуляцією та реальністю (sim2real). Рішення «навчання між джерелами даних» від Пекінського інноваційного центру людиноподібних роботів є результатом цього підходу, дозволяючи роботам навчатися на величезних обсягах відео з людьми, що значно знижує витрати на навчання та підвищує його ефективність.

Так стає зрозуміло: той, хто зможе реально здійснити повний цикл «навчання на синтетичних даних — доналаштування на реальних даних — зворотний зв’язок з реальних умов», той займе провідну позицію в цій боротьбі.

Після вирішення проблем з даними, ефективне поєднання фізичного ІІ та віртуального ІІ стає ключем до подальшого розвитку фізичного ІІ.

Зараз, коли ми говоримо про фізичний ІІ, часто не враховується один напрямок: фізичний ІІ та віртуальний ІІ не є протилежними. З точки зору архітектури, повна система фізичного ІІ може бути розділена на три рівні: нижній рівень — рівень відчуттів (датчики, візуальне розпізнавання), середній рівень — рівень пізнання та прийняття рішень (ІІ-висновки), верхній рівень — рівень виконання дій (механічне керування).

Віртуальний ІІ відповідає за середній рівень, тоді як фізичний ІІ повинен забезпечити цілісний ланцюжок від сприйняття до виконання.

Повноцінне рішення NVIDIA «чіп + модель + інструменти» є реалізацією цієї ідеї: платформа Jetson Thor забезпечує обчислювальну потужність, модель GR00T — інтелект, а платформа Isaac — інструментарій для розробки. Згідно з цим рішенням, той, хто зможе добре здійснити глибоке поєднання програмного та апаратного забезпечення, не лише зможе замкнути цикл фізичного ІІ від «мозку» до «кінцівок», а й створити власну технологічну перевагу.

Останнім пунктом є комерціалізація фізичного ІІ. Три роки тому інвестиційні кола бачили потенціал у робототехніці через «технічне бачення», а зараз ринок має більш практичні критерії оцінки — здатність до реалізації.

За даними медіа, у 2025 році загальна сума фінансування в галузі ембоді-інтелекту в Китаї склала 73,5 млрд юанів, а кількість інвестиційних та фінансових угод — 744. З початку 2026 року додано ще понад 37 млрд юанів, загальна сума перевищила 110 млрд юанів, але під цим квітучим пейзажем відбувається помітна структурна зміна напрямків інвестицій.

У травні 2026 року Tianji Intelligence отримала фінансування серії B на суму 1 млрд юанів, а її ключовим активом було те, що замовлення на руках у Q1 перевищили 10 000 одиниць, а клієнти охоплювали 45 компаній-виробників роботів.

Zhongke P'ятa епоха отримала фінансування серії A на кілька сотень мільйонів юанів, а також розкрила, що отримала замовлення за кордоном на кілька сотень мільйонів юанів.

Під час фінансування Weitai Power та Lu Ming Robotics, індустріальні інвестори, такі як SAIC Shangqi Capital та Mitsubishi Electric, поступово вступають, метою чого є зв’язування виробничих потужностей з здатністю поставляти роботів.

Навпаки, американський стартап з робототехніки Cartwheel Robotics, який мав технічну ініціативу, але не мав замовлень, оголосив про банкрутство у березні 2026 року.

Приклади позитивних і негативних результатів показують, що капітал більше не платить за круті демонстрації, а лише за здатність до реального масового виробництва та поставок.

04 Заключення

Захоплення фізичним штучним інтелектом здається раптовим, але це природний наслідок розвитку.

Також деякі фахівці вважають, що «фізичний ІІ» — це більше новий концепт, створений ринковим капіталом, який за суттю є природним розвитком втіленого ІІ та робототехніки, але неможливо заперечити, що зростання фізичного ІІ чітко відмічає перехід індустрії ІІ від «віртуального ІІ» до «фізичного виконання», що є невідворотним історичним процесом.

У останньому раунді конкуренції Figure AI продемонструвала свої можливості у прямому ефірі, Agi Robotics встановила промислові бар’єри за рахунок масового виробництва та поставок, а NVIDIA створює платформу за допомогою Cosmos і GR00T… А далі виникає питання: яка компанія стане OpenAI у сфері фізичного ІІ? Який сценарій застосування першим переживе «момент ChatGPT»?