Nianticは、30億枚のPokémon Go写真を用いてロボットナビゲーションシステムを訓練

著者：Will Douglas Heaven

深潮 TechFlow

深潮解説：Nianticは、Pokémon Goのプレイヤーが撮影した300億枚の都市写真を新たなビジネスに変換した。同社のAI子会社Niantic Spatialは、これらのデータを用いて視覚的定位システムを訓練し、GPSが都市峡谷内で達成する精度をはるかに上回るセンチメートル級の定位精度を実現した。最初の大手顧客は、配達ロボット企業Coco Roboticsである。ピカチュウを捕まえることからピザの配達へ——これは、クラウドソーシングデータの最も予期せぬ商業化の道の一つかもしれない。

全文は以下の通りです：

ポケモンGOは、世界で最初の現象級ARゲームです。2016年、Googleの子会社であるNianticによってリリースされたこのゲームは、ポケモンIPに拡張現実のプレイ要素を組み合わせたことで、瞬く間に世界中を席巻しました。シカゴからオスロ、江の島まで、プレイヤーたちは街に繰り出し、プクリンやゼニガメ、あるいは（運が良ければ）極めて希少なガラルのサンダースを捕まえることを期待しました。これらは現実世界の上に浮かんでおり、手が届きそうなのに、わずかに届かないのです。

簡単に言えば、これは何億人もの人々がスマートフォンで無数の建物を撮影していることを意味します。「5億人が60日以内にこのアプリをインストールしました」と、Nianticが2023年5月に分離したAI企業Niantic SpatialのCTO、Brian McClendonは言います。ゲーム会社Scopely（同期にNianticからPokémon Goを取得）のデータによると、このゲームはリリースから8年経った2024年でも1億人以上のアクティブプレイヤーを抱えています。

現在、Niantic Spatial は、世界中の数億人の Pokémon Go プレイヤーのスマートフォンから収集された、超精密な位置情報が付与された都市のランドマーク写真という比類ないクラウドソーシングデータベースを活用し、ワールドモデルを構築しています。これは現在の注目技術分野であり、LLM の知能を現実世界の環境に固定することを目的としています。

同社の最新製品は、建物やその他のランドマークの数枚のスナップショットだけで、地図上の位置を数センチメートル以内の精度で特定できるモデルです。彼らはこれを、GPSが信頼できない場所でのロボットのより正確なナビゲーションを支援するために使用したいと考えています。

技術の初の大規模検証として、Niantic SpatialはCoco Roboticsと提携しました。Cocoは、米国およびヨーロッパの複数の都市でラストマイル配達ロボットを展開するスタートアップ企業です。「ARは未来だと誰もが思っていました。ARグラスが登場するところだと思っていた」とMcClendonは言います。「しかし、実際にユーザーとなったのはロボットでした。」

ピカチュウからピザの配達まで

Coco Roboticsは、ロサンゼルス、シカゴ、ジャージーシティ、マイアミ、ヘルシンキに約1000台のスーツケースサイズのロボットを展開しており、最大8枚の超大型ピザまたは4袋の食品雑貨を搭載できます。CEOのZach Rashによると、これらのロボットはこれまでに50万回以上の配送を完了し、あらゆる天候条件下で数百万マイルを走行しています。

しかし、人間のライダーと競争するためには、ココのロボット（歩道を時速約5マイルで移動）は十分に信頼性が高くてはなりません。「私たちが最善の方法は、お伝えした時間に正確に到着することです」とラッシュは言います。つまり、迷ってはいけないということです。

ココが直面している問題は、GPSに頼れないことです。都市部では、無線信号が建物の間で跳ね返り、干渉し合うため、GPS信号が弱くなります。「私たちは高層ビル、地下通路、高架橋が多数ある密集地域で配送を行っていますが、これらの場所ではGPSはほとんど機能しません」とラッシュは言います。

「都市峡谷はGPSが世界で最も性能が悪くなる場所です」とマクレンドンは言います。「スマホ上の青い点は、よく50メートルもずれて、あなたを別の街区、別の方向、道路の反対側に置き去りにします。」これがNiantic Spatialが解決しようとしている問題です。

過去数年、Niantic Spatial は、Pokémon Go と Ingress（Niantic が 2013 年にリリースした前作のモバイル AR ゲーム）のプレイヤーが生成したデータを整理し、視覚的位置特定システム（Visual Positioning System）を構築してきました——これは、あなたが見ているものに基づいてあなたの位置を特定するものです。「ピカチュウを街中でリアルに走らせるのも、Coco のロボットを安全かつ正確に都市を移動させるのも、本質的には同じ問題です」と、Niantic Spatial の CEO、John Hanke は言います。

「視覚的定位は新しい技術ではありません」とデジタルマップおよび地理空間分析企業ESRIのコンラッド・ヴェンツェルは言います。「しかし、外部のカメラが増えれば増えるほど、その有効性は高まります。」

Niantic Spatialは、都市環境で撮影された300億枚の画像を用いてモデルを訓練しました。これらの画像は特に「ホットスポット」周辺に密集しています——これは、ポケモン対戦道館などのNianticゲームでプレイヤーを誘導する重要な場所です。「世界中で100万以上の場所を保有しており、あなたの位置を正確に特定できます」とMcClendonは言います。「あなたがどこに立っているか、数センチメートルの精度で把握しています。さらに重要なのは、あなたがどの方向を見ているかを知っていることです。」

その結果、この100万カ所のそれぞれについて、Niantic Spatialはほぼ同じ場所だが、異なる角度・時間帯・天候条件下で撮影された数千枚の写真を保有しています。各写真には、そのときのスマートフォンの空間内での正確な位置、向き、姿勢、移動の有無、速度、方向などの詳細なメタデータが付与されています。

同社はこのデータセットを使用してモデルを訓練し、「見たもの」から自分の位置を正確に予測できるようにしました。100万のホットスポットの外側や、画像と位置データが比較的不足している場所でも動作します。

GPSに加えて、Cocoのロボット（4つのカメラを搭載）は、現在このモデルを使って自分がどこにいて、どこに向かうべきかを判断します。ロボットのカメラは腰の高さに設置され、すべての方向を向いており、ポケモンGOのプレイヤーとは視点が異なりますが、Rashによると、データの調整はそれほど複雑ではありません。

競合他社も視覚位置特定システムを使用しています。例えば、2014年にエストニアで設立されたロボット配送企業Starship Technologiesは、自社のロボットがセンサーを用いて周囲の環境の3Dマップを構築し、建物の縁や街灯の位置をマーキングしていると述べています。

しかし、Rashは、Niantic Spatialの技術がCocoに優位性をもたらすと賭けている。彼は、この技術によりロボットがレストランの外の正しい受取位置に正確に停止し、誰の道も塞がないだけでなく、以前よくあったような、クライアントの玄関前わずか数歩手前ではなく、玄関前に停止できるようになると信じている。

ロボットのカンブリア爆発

Niantic Spatial が視覚定位システムの開発を始めたときの目標は、拡張現実に使用することでした、とHankeは言います。「ARメガネを装着して、仮想世界を視線の方向に固定したい場合、そのための方法が必要です。しかし現在、私たちはロボット分野でのカンブリア爆発を目の当たりにしています。」

一部のロボットは、建設現場や歩道など、人間と空間を共有する必要があります。「ロボットが人間を妨害せずにこれらの環境に溶け込むためには、人間と同様の空間認識能力を備える必要があります」とハンケは言います。「ロボットが押されたりぶつかったりした後でも、私たちは正確にその位置を再認識させることが可能です。」

Coco Roboticsとの提携は始まりに過ぎない。Hankeは、Niantic Spatialが構築しているのは、彼が「生きたマップ」と呼ぶものの最初のコンポーネントであり、現実世界の変化に応じて変化する超高精度の仮想世界シミュレーションであると述べた。Cocoを含む他の企業のロボットが世界中を移動するにつれて、それらは新たなマップデータのソースを提供し、デジタル世界のコピーをより精緻にしていく。

ハンケとマクレンドンの見解では、地図はより精緻になるだけでなく、機械によってますます使用されるようになっている。これは地図の用途を変化させた。地図は長年にわたり、人間が自らの位置を把握するのに役立ってきた。2Dから3D、そして4D（リアルタイムシミュレーションであるデジタルツインなどを想定）へと進化しても、基本的な原理は変わっていない：地図上の点は、空間または時間内の点に対応している。

しかし、機械向けのマップは、人間が当然だと考える情報を豊かに含んだガイドブックのように變得必要になる可能性がある。Niantic Spatial や ESRI のような企業は、マップに説明を追加し、機械が実際に何を見ているかを伝え、各物体に一連の属性をラベル付けしたいと考えている。「この時代の課題は、機械に役立つ世界の記述を構築することだ」とハンケは言う。「私たちが持つデータは、世界の接続構造がどのように機能しているかを理解するための優れた出発点である。」

現在、ワールドモデルが非常に注目されています。Niantic Spatial はこの点をよく理解しています。LLM はすべてを知っているように見えますが、日常的な環境の解釈や相互作用においてはほとんど常識を持っていません。ワールドモデルは、この問題を解決するために存在します。Google DeepMind や World Labs などの一部の企業は、リアルタイムで仮想幻想世界を生成し、それをAIエージェントのトレーニングフィールドとして使用するモデルを開発しています。

Niantic Spatialは、この問題に異なるアプローチで取り組んでいると述べた。マクレランドは、「地図を十分に極限まで追求すれば、最終的にはすべてを捉えられる。私たちはまだその段階には到達していないが、そこに到達したいと考えている。現在、私は現実世界を再構築することに集中している。」