Nvidia представила Cosmos 3 World Model для покращення навігації роботів

Nvidia лише що представила те, що називає першою відкритою омні-моделлю, створеною спеціально для фізичного ІІ. Cosmos 3, представлений 31 травня, інтегрує міркування, генерацію світу та здатність до дій у єдину систему, розроблену для того, щоб допомогти роботам та автономним транспортним засобам справді зрозуміти хаотичний, непередбачуваний реальний світ.

Cosmos 3 може генерувати прогнозовані відеосеквенції тривалістю до 30 секунд на основі текстових, зображень або відеовхідних даних, що дозволяє роботу «уявити», що відбудеться далі в його середовищі, перш ніж він здійснить будь-яку дію.

Що насправді робить Cosmos 3

Cosmos 3 використовує архітектуру Mixture of Transformers, яку Nvidia називає для одночасної обробки кількох типів вхідних даних. Модель підтримує звукові та дієві модальності, що означає, що робот, оснащений Cosmos 3, може обробляти те, що бачить, чує та робить, в єдиній структурі.

Практичне застосування зосереджено на чомусь, що називається навчанням роботизованих політик. Cosmos 3 слугує основою для того, що Nvidia називає World Action Models (WAM), що дозволяють ембоді-агентам працювати в середовищах, яких вони раніше не зустрічали.

Будуючи на основі, закладеній у 2025 році

Nvidia випустила кілька попередніх версій протягом 2025 року, включаючи варіанти, спрямовані на прогнозування, переносне навчання та міркування. Ці попередні моделі вже привернули серйозних клієнтів.

Figure AI, компанія з розробки гуманоїдних роботів, використала технологію Cosmos для своїх двоногих роботів. Agility Robotics, ще один гравець у сфері гуманоїдів, зробила те саме. З боку автономних транспортних засобів Uber, Waabi та Wayve всі використовували попередні версії Cosmos для своїх зусиль у сфері автономного водіння.

Що це означає для інвесторів і ширшого ринку

Для робототехнічної галузі відкрита природа Cosmos 3 може прискорити її прийняття серед менших учасників, яким не вистачає ресурсів для створення власних моделей світу з нуля. Генерація синтетичних даних, одна з ключових здібностей моделі, вирішує найбільший обмежувальний фактор у розробці робототехніки: отримання достатньої кількості навчальних даних у реальному світі без знищення дорогого обладнання.