Niantic utilise 3 milliards de photos de Pokémon Go pour former un système de navigation robotique

Auteur : Will Douglas Heaven

DeepWave TechFlow

Lecture approfondie de Shenchao : Niantic transforme les 30 milliards de photos urbaines prises par les joueurs de Pokémon Go en un nouveau business. Son sous-ensemble d'IA, Niantic Spatial, utilise ces données pour former un système de localisation visuelle capable d'atteindre une précision au niveau du centimètre, bien au-delà des performances du GPS dans les canyons urbains. Le premier grand client est l'entreprise de robots de livraison Coco Robotics. De la capture de Pikachu à la livraison de pizzas, ceci constitue peut-être l'un des chemins de commercialisation les plus inattendus de données collaboratives.

Le texte complet est le suivant :

Pokémon Go est le premier jeu AR à connaître un succès mondial. Publié en 2016 par Niantic, une filiale de Google, ce jeu qui superpose des mécaniques de réalité augmentée à l'univers de Pokémon a rapidement conquis le monde entier. Des rues de Chicago à celles d'Oslo en passant par l'île de江之岛, les joueurs ont envahi les rues, espérant attraper un Ptitard, un Carapuce, ou (si la chance leur souriait) un rare Voltali de Galar — flottant dans le monde réel, à peine hors de portée.

En bref, cela signifie que des masses de personnes prennent des photos de bâtiments avec leurs téléphones. « Cinq cent millions de personnes ont installé cette application en 60 jours », déclare Brian McClendon, CTO de Niantic Spatial, une entreprise d'IA séparée de Niantic en mai dernier. Selon les données de la société de jeux Scopely (qui a acquis Pokémon Go de Niantic au même moment), ce jeu comptait encore plus de 100 millions de joueurs actifs en 2024, soit huit ans après son lancement.

Actuellement, Niantic Spatial exploite cette base de données collaboratives exceptionnelle — des photos de landmarks urbains provenant des téléphones de plusieurs centaines de millions de joueurs de Pokémon Go, accompagnées de balises de position ultra-précises — pour construire un modèle du monde (World Model). Il s'agit d'une orientation technologique actuelle visant à ancrer l'intelligence des LLM dans des environnements du monde réel.

Le dernier produit de l'entreprise est un modèle qui, à partir de quelques photos d'immeubles ou d'autres points de repère, permet de localiser votre position sur une carte avec une précision de quelques centimètres. Ils souhaitent l'utiliser pour aider les robots à naviguer avec plus de précision dans les zones où le GPS est fiable.

Dans le cadre de la première validation à grande échelle de la technologie, Niantic Spatial vient de conclure un partenariat avec Coco Robotics, une start-up qui déploie des robots de livraison de dernière mile dans plusieurs villes aux États-Unis et en Europe. « Tout le monde pensait que la RA était l'avenir, que les lunettes de RA allaient arriver », dit McClendon, « mais ce sont les robots qui sont devenus les premiers utilisateurs. »

De Pikachu à la livraison de pizza

Coco Robotics a déployé environ 1 000 robots de la taille d'une valise à Los Angeles, Chicago, Jersey City, Miami et Helsinki, capables de transporter jusqu'à 8 pizzas extra-large ou 4 sacs d'épicerie. Selon le PDG Zach Rash, ces robots ont effectué plus de 500 000 livraisons à ce jour, parcourant des millions de miles dans toutes les conditions météorologiques.

Mais pour concurrencer les livreurs humains, les robots de Coco (qui se déplacent sur les trottoirs à environ 5 miles à l’heure) doivent être suffisamment fiables. « Notre meilleur moyen de faire les choses, c’est d’arriver exactement à l’heure que nous vous avons indiquée », dit Rash. Cela signifie ne pas se perdre.

Le problème auquel Coco est confronté est qu'elle ne peut pas compter sur le GPS. En ville, les signaux radio rebondissent entre les bâtiments et interfèrent les uns avec les autres, ce qui affaiblit le signal GPS. « Nous effectuons des livraisons dans de nombreuses zones densément peuplées avec des gratte-ciels, des tunnels souterrains et des ponts elevated, où le GPS est pratiquement inutilisable », déclare Rash.

« Les canyons urbains sont les endroits où le GPS performe le moins bien dans le monde », a déclaré McClendon. « Vous voyez le point bleu sur votre téléphone ; il dérive souvent de 50 mètres, vous plaçant directement dans un autre quartier, dans une autre direction, de l'autre côté de la rue. » C'est précisément le problème que Niantic Spatial cherche à résoudre.

Au cours des dernières années, Niantic Spatial a analysé les données générées par les joueurs de Pokémon Go et d’Ingress (le précédent jeu AR mobile de Niantic, lancé en 2013) pour développer un système de positionnement visuel (Visual Positioning System) qui détermine votre emplacement en fonction de ce que vous voyez. « Faire courir Pikachu réellement dans les rues et permettre à un robot de Coco de traverser la ville en toute sécurité et avec précision relèvent fondamentalement du même problème », déclare John Hanke, PDG de Niantic Spatial.

« La localisation visuelle n'est pas une nouvelle technologie », déclare Konrad Wenzel de l'entreprise de cartes numériques et d'analyse géospatiale ESRI, « mais il est évident que plus il y a de caméras à l'extérieur, plus elle devient efficace. »

Niantic Spatial a entraîné le modèle avec 30 milliards d'images prises dans des environnements urbains. Ces images sont particulièrement concentrées autour des « points chauds » — des lieux importants dans les jeux Niantic qui encouragent les joueurs à se déplacer, comme les gymnases de Pokémon. « Nous avons plus d'un million de points dans le monde entier qui permettent de localiser votre position avec précision », explique McClendon. « Nous savons exactement où vous vous trouvez, avec une précision de quelques centimètres. Et surtout, nous savons dans quelle direction vous regardez. »

Ainsi, pour chacun des un million de lieux, Niantic Spatial possède des milliers de photos prises à peu près au même endroit, mais sous différents angles, à des moments différents et dans des conditions météorologiques variées. Chaque photo est accompagnée de métadonnées détaillées : la position exacte, l'orientation, la posture, le mouvement, la vitesse et la direction du téléphone à ce moment-là dans l'espace.

L'entreprise a entraîné le modèle avec cet ensemble de données pour lui permettre de prédire précisément sa position en se basant sur ce qu'il « voit » — même en dehors des 1 million de points chauds, là où les données d'image et de position sont relativement rares.

En plus du GPS, le robot de Coco (équipé de 4 caméras) utilise désormais ce modèle pour déterminer où il se trouve et où il doit aller. Les caméras du robot sont installées à la hauteur des hanches et orientées dans toutes les directions, offrant un angle de vue légèrement différent de celui des joueurs de Pokémon Go, mais Rash affirme que l'adaptation des données n'est pas complexe.

Les concurrents utilisent également des systèmes de localisation visuelle. Par exemple, Starship Technologies, une entreprise de livraison robotisée fondée en Estonie en 2014, affirme que ses robots construisent une carte 3D de leur environnement à l’aide de capteurs, en annotant les bords des bâtiments et l’emplacement des lampadaires.

Mais Rash parie sur la technologie de Niantic Spatial pour apporter un avantage à Coco. Il pense que cela permettra aux robots de s'arrêter précisément au bon endroit devant les restaurants pour récupérer les commandes, sans gêner personne, et directement devant la porte des clients, et non à quelques pas de là — ce qui arrivait par le passé.

La grande explosion cambrienne des robots

Lorsque Niantic Spatial a commencé à développer son système de localisation visuelle, l'objectif était de l'utiliser pour la réalité augmentée, explique Hanke. « Si vous portez des lunettes de réalité augmentée et que vous souhaitez que le monde virtuel soit fixé à la direction où vous regardez, il faut une méthode pour y parvenir. Mais aujourd'hui, nous assistons à une explosion cambrienne dans le domaine de la robotique. »

Certains robots doivent partager des espaces avec des humains, comme les chantiers de construction et les trottoirs. « Si les robots doivent s'intégrer à ces environnements sans déranger les humains, ils doivent posséder une compréhension spatiale similaire à celle des humains », explique Hanke. « Lorsque les robots sont poussés ou heurtés, nous pouvons les aider à retrouver précisément leur position. »

Le partenariat avec Coco Robotics n'est qu'un début. Hanke affirme que Niantic Spatial est en train de construire les premiers composants de ce qu'il appelle une « carte vivante » : une simulation du monde virtuel à très haute précision qui évolue en temps réel avec le monde réel. Au fur et à mesure que les robots de Coco et d'autres entreprises se déplacent à travers le monde, ils fourniront de nouvelles sources de données cartographiques, rendant la copie numérique du monde de plus en plus détaillée.

Pour Hanke et McClendon, les cartes ne deviennent pas seulement plus détaillées, mais sont également de plus en plus utilisées par des machines. Cela modifie l'usage des cartes. Les cartes ont longtemps aidé les humains à se situer. Du 2D au 3D, puis au 4D (pensez à des simulations en temps réel comme les jumeaux numériques), le principe fondamental reste le même : les points sur la carte correspondent à des points dans l'espace ou le temps.

Mais les cartes destinées aux machines pourraient avoir besoin de devenir plus comme des guides touristiques, remplies d'informations que les humains considèrent comme allant de soi. Des entreprises comme Niantic Spatial et ESRI souhaitent ajouter des descriptions aux cartes, indiquant aux machines ce qu'elles voient réellement, en annotant chaque objet avec une série d'attributs. « Le défi de cette ère est de construire des descriptions utiles du monde pour les machines », dit Hanke. « Les données dont nous disposons constituent un excellent point de départ pour comprendre comment fonctionne l'organisation connectée du monde. »

Les modèles mondiaux sont très populaires actuellement, et Niantic Spatial en est bien conscient. Les LLM semblent tout savoir, mais manquent de bon sens lorsqu'il s'agit d'interpréter et d'interagir avec l'environnement quotidien. Les modèles mondiaux visent à résoudre ce problème. Certaines entreprises, comme Google DeepMind et World Labs, développent des modèles capables de générer instantanément des mondes virtuels imaginaires, qu'ils utilisent ensuite comme terrains d'entraînement pour des agents IA.

Niantic Spatial affirme qu'ils abordent ce problème sous un angle différent. Si vous poussez la carte à son extrême, vous finirez par capturer tout, dit McClendon : « Nous n'y sommes pas encore, mais c'est là que nous voulons arriver. Je me concentre actuellement sur la tentative de reconstituer le monde réel. »