Автор: Уилл Дуглас Хевен
DeepWave TechFlow
Обзор Shenchao: Niantic превратила 30 миллиардов городских фотографий, сделанных игроками Pokémon Go, в новый бизнес. Ее дочерняя ИИ-компания Niantic Spatial использовала эти данные для обучения системы визуальной локализации, обеспечивающей точность до сантиметров — значительно превосходящую производительность GPS в городских «каньонах». Первым крупным клиентом стала компания по доставке роботов Coco Robotics. От ловли Пикачу до доставки пиццы — это, возможно, один из самых неожиданных путей коммерциализации данных, собранных сообществом.
Текст полностью:
Pokémon Go — это первая в мире феноменальная AR-игра. Выпущенная в 2016 году Niantic, дочерней компанией Google, эта игра, сочетающая франшизу Pokémon с дополненной реальностью, быстро охватила весь мир. От Чикаго до Осло и до острова Эно игроки заполонили улицы, надеясь поймать Пикачу, Сквиртла или (если повезет) невероятно редкого Галлеевского Молниеноса — они парили над реальным миром, почти достигая их.
Проще говоря, это означает, что огромное количество людей фотографируют огромное количество зданий с помощью телефонов. «Пятьсот миллионов человек установили это приложение за 60 дней», — говорит генеральный директор Niantic Spatial Брайан МакКлендон. Niantic Spatial — это компания по искусственному интеллекту, выделенная Niantic в мае прошлого года. Согласно данным игровой компании Scopely (которая в то же время приобрела у Niantic Pokémon Go), в 2024 году в этой игре по-прежнему насчитывается более 100 миллионов активных игроков, несмотря на то, что с момента выпуска прошло уже 8 лет.
Сейчас Niantic Spatial использует этот беспрецедентный каталог данных, созданных сообществом — фотографии городских достопримечательностей с суперточными геометками от сотен миллионов игроков Pokémon Go — для построения мировой модели (World Model). Это текущая популярная направление технологий, направленное на привязку интеллекта LLM к реальным условиям окружающей среды.
Последний продукт компании — это модель, которая с помощью всего нескольких снимков зданий или других ориентиров позволяет точно определить ваше местоположение на карте с точностью до нескольких сантиметров. Они хотят использовать её для обеспечения более точной навигации роботов в местах, где GPS ненадёжен.
В качестве первого масштабного подтверждения технологии Niantic Spatial недавно заключил партнерство с Coco Robotics — стартапом, который развернул роботов для доставки еды на последнем этапе в нескольких городах США и Европы. «Все думали, что AR — это будущее, и AR-очки вот-вот появятся», — говорит Макклендон, — «но первыми пользователями стали роботы».
От Пикачу до доставки пиццы
Coco Robotics развернула около 1000 роботов размером с чемодан в Лос-Анджелесе, Чикаго, Джерси-Сити, Майами и Хельсинки, способных перевозить до 8 огромных пицц или 4 пакетов с продуктами. По словам генерального директора Зака Раша, эти роботы уже выполнили более 500 000 доставок и проехали миллионы миль в различных погодных условиях.
Но чтобы конкурировать с человеческими курьерами, роботы Coco (движущиеся по тротуарам со скоростью около 5 миль в час) должны быть достаточно надежными. «Наш лучший способ работы — это прибыть точно в то время, которое вам сообщили», — говорит Раш. Это означает, что они не должны сбиваться с пути.
Проблема, с которой сталкивается Coco, — это невозможность полагаться на GPS. В городах радиосигналы отскакивают от зданий и взаимно мешают друг другу, из-за чего сигнал GPS слабый. «Мы доставляем во многих плотных районах с высокими зданиями, подземными переходами и эстакадами, где GPS практически никогда не работает», — говорит Раш.
«Городские ущелья — это места, где GPS работает хуже всего во всем мире», — говорит Макклендон. «Вы смотрите на синюю точку на своем телефоне, и она часто смещается на 50 метров, перенося вас прямо на другой квартал, в другом направлении, на другую сторону улицы». Именно эту проблему и решает Niantic Spatial.
В течение последних нескольких лет Niantic Spatial собирала данные, генерируемые игроками Pokémon Go и Ingress (предыдущей мобильной AR-игры Niantic, выпущенной в 2013 году), чтобы создать систему визуальной позиционирования (Visual Positioning System) — определяющую ваше местоположение на основе того, что вы видите. «Сделать так, чтобы Пикачу настоящим образом бегал по улицам, и заставить робота Coco безопасно и точно перемещаться по городу — это по сути одна и та же задача», — говорит генеральный директор Niantic Spatial Джон Хэнк.
«Визуальная локализация — это не новая технология», — говорит Конрад Венцель из компании по цифровым картам и геопространственному анализу ESRI, «но очевидно, что чем больше камер вокруг, тем лучше она работает».
Niantic Spatial обучила модель на 30 миллиардах изображений, снятых в городской среде. Эти изображения особенно плотно сконцентрированы вокруг «горячих точек» — важных мест, куда игры Niantic побуждают игроков приходить, например, гимнастий для битв с покемонами. «У нас есть более миллиона локаций по всему миру, которые позволяют точно определить ваше местоположение», — говорит Макклендон. «Мы знаем, где вы стоите, с точностью до нескольких сантиметров. И что еще важнее — мы знаем, в каком направлении вы смотрите».
В результате для каждого из этих 1 миллионов мест Niantic Spatial имеет тысячи фотографий, сделанных примерно в одном и том же месте, но под разными углами, в разное время и при разных погодных условиях. К каждой фотографии прилагается подробная метаданные: точное положение телефона в пространстве, его ориентация, положение, движение, скорость и направление и т. д.
Компания использовала этот набор данных для обучения модели, чтобы она могла точно предсказывать свое местоположение на основе «увиденного» — даже за пределами этих миллиона точек доступа, где данные изображений и местоположения относительно редки.
Помимо GPS, роботы Coco (оснащенные четырьмя камерами) теперь также используют эту модель для определения своего местоположения и направления движения. Камеры робота установлены на уровне бедер и направлены во все стороны, их угол обзора немного отличается от угла обзора игроков Pokémon Go, но, по словам Раша, адаптация данных не представляет сложности.
Конкуренты также используют визуальные системы позиционирования. Например, компания Starship Technologies, основанная в Эстонии в 2014 году, утверждает, что ее роботы используют датчики для создания 3D-карт окружающей среды, отмечая края зданий и расположение фонарей.
Но Раш делает ставку на то, что технология Niantic Spatial даст Coco преимущество: он считает, что это позволит роботам точно останавливаться у правильного места для забора еды у ресторанов, не мешая никому, и останавливаться прямо у дверей клиентов, а не в нескольких шагах от них — как это иногда происходило раньше.
Кембрийский взрыв роботов
Когда Niantic Spatial начинал разработку системы визуальной локализации, целью было применение в дополненной реальности, говорит Ханке. «Если вы носите AR-очки и хотите, чтобы виртуальный мир фиксировался на том, на что вы смотрите, вам нужен какой-то способ для этого. Но сейчас мы наблюдаем кембрийский взрыв в области робототехники».
Некоторые роботы должны совместно использовать пространство с людьми, например, на строительных площадках и тротуарах. «Если роботы должны интегрироваться в эти среды без помех для людей, им необходимо обладать пространственным пониманием, подобным человеческому», — говорит Ханке. «Когда робота толкают или сталкивают с ним, мы можем помочь ему точно определить свое местоположение».
Сотрудничество с Coco Robotics — это только начало. Ханке говорит, что Niantic Spatial создает первые компоненты так называемой «живой карты» — сверхточной виртуальной модели мира, которая изменяется вместе с реальным миром. По мере того как роботы Coco и других компаний будут перемещаться по всему миру, они будут предоставлять новые источники данных для карт, делая цифровую копию все более детализированной.
По мнению Ханке и МакКлендона, карты не только становятся более детализированными, но и все чаще используются машинами. Это меняет назначение карт. Долгое время карты помогали людям ориентироваться в пространстве. От 2D до 3D и далее до 4D (подумайте о таких реальных симуляциях, как цифровые двойники), основной принцип остался неизменным: точки на карте соответствуют точкам в пространстве или во времени.
Но карты, предназначенные для машин, могут потребовать стать более похожими на путеводители, наполненные информацией, которую люди считают само собой разумеющейся. Компании, такие как Niantic Spatial и ESRI, хотят добавить к картам описания, сообщающие машинам, что именно они видят, и пометить каждый объект набором атрибутов. «Задача нашего времени — создать полезные описания мира для машин», — говорит Ханке. «Наши данные — это отличная отправная точка для понимания того, как функционирует связующая структура мира».
Сейчас модели мира очень популярны, и Niantic Spatial это отлично понимает. Хотя большие языковые модели кажутся всеми знающими, у них почти нет здравого смысла при интерпретации и взаимодействии с повседневной средой. Модели мира призваны решить именно эту проблему. Некоторые компании, такие как Google DeepMind и World Labs, разрабатывают модели, способные мгновенно генерировать виртуальные фантастические миры, которые затем используются в качестве тренировочных полигонов для ИИ-агентов.
Niantic Spatial говорят, что они подходят к этой проблеме с другой стороны. Если сделать карту достаточно совершенной, вы в конечном итоге захватите всё, — сказал Макклендон: «Мы ещё не дошли до этого этапа, но хотим туда добраться. Сейчас я сосредоточен на попытках воссоздать реальный мир».
