Nvidia только что представила то, что называет первой открытой омни-моделью, созданной специально для физического ИИ. Cosmos 3, представленная 31 мая, объединяет возможности рассуждения, генерации мира и действий в единую систему, предназначенную для того, чтобы помочь роботам и автономным транспортным средствам действительно понимать хаотичный и непредсказуемый реальный мир.
Cosmos 3 может генерировать предиктивные видеосеквенции длительностью до 30 секунд на основе текстовых, изображений или видеовходов, позволяя роботу «представить», что произойдет дальше в его окружении, прежде чем он двинет хоть один привод.
Что на самом деле делает Cosmos 3
Cosmos 3 использует архитектуру Mixture of Transformers, которую Nvidia называет для одновременной обработки нескольких типов входных данных. Модель поддерживает звуковые и действия, что означает, что робот, оснащенный Cosmos 3, может обрабатывать то, что видит, слышит и делает, в единой системе.
Практическое применение сосредоточено на чем-то, называемом обучением политике роботов. Cosmos 3 служит основой для того, что Nvidia называет мировыми моделями действий (WAM), позволяя встроенным агентам функционировать в средах, с которыми они ранее не сталкивались.
Основываясь на фундаменте, заложенном в 2025 году
Nvidia выпустила несколько предыдущих версий в течение 2025 года, включая варианты, ориентированные на прогнозирование, передачу обучения и рассуждение. Эти ранние модели уже привлекли серьезных клиентов.
Figure AI, компания по производству челове́коподобных роботов, использовала технологию Cosmos для своих двухногих роботов. Другой участник рынка челове́коподобных роботов, Agility Robotics, поступил аналогично. В сегменте автономных транспортных средств Uber, Waabi и Wayve также использовали предыдущие версии Cosmos для своих разработок в области автопилота.
Что это означает для инвесторов и более широкого рынка
Для робототехнической отрасли открытая природа Cosmos 3 может ускорить внедрение среди небольших участников, которым не хватает ресурсов для создания собственных моделей мира с нуля. Генерация синтетических данных, одна из ключевых возможностей модели, устраняет то, что исторически было самым большим узким местом в разработке роботов: получение достаточного количества реальных данных для обучения без разрушения дорогостоящего оборудования в процессе.

