A Niantic usa 3 bilhões de fotos do Pokémon Go para treinar o sistema de navegação de robôs

Autor: Will Douglas Heaven

DeepWave TechFlow

Leitura destacada da Shenchao: A Niantic transformou 3 bilhões de fotos urbanas tiradas por jogadores de Pokémon Go em um novo negócio. Sua subsidiária de IA, Niantic Spatial, usou esses dados para treinar um sistema de localização visual que alcança precisão na ordem de centímetros, superando em muito o desempenho do GPS em zonas urbanas. O primeiro grande cliente é a empresa de robôs de entrega Coco Robotics. Da captura de Pikachu à entrega de pizza, esta pode ser uma das trajetórias de comercialização mais inesperadas de dados coletivos.

O texto completo é:

Pokémon Go é o primeiro jogo AR de sucesso global. Lançado em 2016 pela Niantic, subsidiária do Google, este jogo que combina a propriedade intelectual de Pokémon com jogabilidade de realidade aumentada rapidamente se espalhou pelo mundo. Desde Chicago até Oslo e até Ilha de Enoshima, jogadores inundaram as ruas, ansiosos para capturar um Pidgey, um Squirtle ou — se tivessem muita sorte — um raríssimo Zapdos de Galar, flutuando acima do mundo real, apenas um pouco fora do alcance.

Em termos simples, isso significa que milhões de pessoas estão tirando fotos de edifícios com seus celulares. “Quinhentos milhões de pessoas instalaram este app em 60 dias”, disse Brian McClendon, CTO da Niantic Spatial. A Niantic Spatial é uma empresa de IA separada da Niantic em maio do ano passado. Segundo dados da empresa de jogos Scopely (que adquiriu o Pokémon Go da Niantic no mesmo período), o jogo ainda tinha mais de 100 milhões de jogadores ativos em 2024, oito anos após seu lançamento.

Agora, a Niantic Spatial está utilizando esse incomparável repositório de dados coletivos — fotos de pontos de referência urbanos provenientes dos celulares de centenas de milhões de jogadores de Pokémon Go, com marcações de localização ultraprecisas — para construir um Modelo Mundial (World Model). Esta é a tendência tecnológica atual, com o objetivo de ancorar a inteligência dos LLMs em ambientes do mundo real.

O produto mais recente da empresa é um modelo que, com apenas algumas fotos de edifícios ou outros pontos de referência, consegue localizar sua posição no mapa com precisão de poucos centímetros. Eles pretendem usá-lo para ajudar robôs a navegar com maior precisão em locais onde o GPS é confiável.

Como primeira grande validação da tecnologia, a Niantic Spatial acaba de firmar parceria com a Coco Robotics, uma startup que implementa robôs de entrega de última milha em várias cidades dos Estados Unidos e da Europa. “Todo mundo acha que a realidade aumentada é o futuro e que os óculos de RA estão prestes a chegar”, diz McClendon, “mas os robôs se tornaram os primeiros usuários.”

De Pikachu à entrega de pizza

A Coco Robotics implantou cerca de 1.000 robôs do tamanho de malas em Los Angeles, Chicago, Jersey City, Miami e Helsínquia, capazes de transportar até 8 pizzas extra grandes ou 4 sacos de compras. Segundo o CEO Zach Rash, esses robôs já realizaram mais de 500.000 entregas e percorreram milhões de milhas em diversas condições climáticas.

Mas para competir com motociclistas humanos, os robôs da Coco (que se movem por calçadas a cerca de 5 milhas por hora) precisam ser suficientemente confiáveis. “Nossa melhor forma de funcionar é chegar exatamente no horário que lhe dissemos”, diz Rash. Isso significa não se perder.

O problema enfrentado pelo Coco é a incapacidade de depender do GPS. Nas cidades, os sinais de rádio refletem-se entre os edifícios e se interferem mutuamente, resultando em sinais GPS fracos. "Fazemos entregas em muitas áreas densas com arranha-céus, passagens subterrâneas e viadutos, onde o GPS basicamente nunca funciona bem", diz Rash.

“O canyon urbano é o lugar onde o GPS tem o pior desempenho no mundo”, disse McClendon. “Você vê aquele ponto azul no seu celular e ele frequentemente deriva 50 metros, colocando você diretamente em outro quarteirão, em outra direção, do outro lado da rua.” É exatamente esse problema que o Niantic Spatial pretende resolver.

Nos últimos anos, a Niantic Spatial vem organizando os dados gerados pelos jogadores de Pokémon Go e Ingress (o anterior jogo de realidade aumentada para celular da Niantic, lançado em 2013) para construir um sistema de posicionamento visual (Visual Positioning System) — que determina onde você está com base no que você vê. “Fazer com que Pikachu corra verdadeiramente pelas ruas e fazer com que os robôs do Coco atravessem a cidade com segurança e precisão são essencialmente o mesmo problema”, diz John Hanke, CEO da Niantic Spatial.

“Visual positioning is not a new technology,” says Konrad Wenzel from the digital mapping and geospatial analytics company ESRI, “but clearly, the more cameras out there, the better it works.”

A Niantic Spatial treinou o modelo com 30 bilhões de imagens capturadas em ambientes urbanos. Essas imagens estão particularmente concentradas em torno de "pontos quentes" — locais importantes nos jogos da Niantic que incentivam os jogadores a se deslocarem, como ginásios de Pokémon. "Temos mais de um milhão de locais em todo o mundo, capazes de localizar sua posição com precisão", disse McClendon. "Sabemos exatamente onde você está, com precisão de poucos centímetros. E, mais importante ainda, sabemos em qual direção você está olhando."

Como resultado, para cada um dos 1 milhão de locais, a Niantic Spatial possui milhares de fotos tiradas em locais quase idênticos, mas com ângulos diferentes, em horários distintos e sob condições climáticas variadas. Cada foto vem acompanhada de metadados detalhados: a posição exata do telefone no espaço, sua orientação, postura, se estava em movimento, velocidade e direção, entre outros.

A empresa treinou o modelo com este conjunto de dados para permitir que ele preveja com precisão sua posição com base no que "vê" — funcionando mesmo fora dos 1 milhão de pontos quentes, onde os dados de imagem e localização são relativamente escassos.

Além do GPS, o robô da Coco (equipado com 4 câmeras) agora também usa este modelo para determinar onde está e para onde deve ir. As câmeras do robô estão instaladas na altura dos quadris e voltadas para todos os lados, com um ângulo de visão ligeiramente diferente do dos jogadores de Pokémon Go, mas Rash diz que a adaptação dos dados não é complexa.

Os concorrentes também estão usando sistemas de localização visual. Por exemplo, a empresa de entrega por robôs Starship Technologies, fundada na Estônia em 2014, afirma que seus robôs usam sensores para construir mapas 3D do ambiente circundante, marcando as bordas dos edifícios e a localização das lâmpadas de rua.

Mas Rash apostou na tecnologia da Niantic Spatial para dar vantagem ao Coco. Ele acredita que isso permitirá que os robôs parem exatamente no local correto de retirada fora dos restaurantes, sem obstruir ninguém, e diante das portas dos clientes, e não a alguns passos de distância — algo que acontecia ocasionalmente no passado.

A explosão cambriana dos robôs

Quando a Niantic Spatial começou a desenvolver seu sistema de localização visual, o objetivo era para realidade aumentada, disse Hanke. “Se você estiver usando óculos de AR e quiser que o mundo virtual fique fixo na direção em que você está olhando, precisa de algum tipo de método para isso. Mas agora estamos presenciando uma explosão cambriana no campo da robótica.”

Alguns robôs precisam compartilhar espaço com humanos, como em canteiros de obras e calçadas. “Se os robôs forem se integrar a esses ambientes sem perturbar os humanos, precisam ter capacidades de compreensão espacial semelhantes às dos humanos”, diz Hanke. “Quando os robôs são empurrados ou colidem, podemos ajudá-los a recuperar com precisão sua localização.”

A parceria com a Coco Robotics é apenas o começo. Hanke disse que o que o Niantic Spatial está construindo são os primeiros componentes do que ele chama de "Mapa Vivo": uma simulação virtual de alta precisão que muda à medida que o mundo real muda. À medida que robôs da Coco e de outras empresas viajam pelo mundo, eles fornecerão novas fontes de dados cartográficos, tornando a cópia digital do mundo cada vez mais detalhada.

Para Hanke e McClendon, os mapas não apenas se tornam mais detalhados, mas também são cada vez mais utilizados por máquinas. Isso alterou o propósito dos mapas. Por muito tempo, os mapas ajudaram os seres humanos a se localizarem. Da 2D para a 3D e depois para a 4D (pense em simulações em tempo real como gêmeos digitais), o princípio básico permanece o mesmo: pontos nos mapas correspondem a pontos no espaço ou no tempo.

Mas mapas voltados para máquinas podem precisar se tornar mais como guias turísticos, repletos de informações que os humanos consideram óbvias. Empresas como Niantic Spatial e ESRI querem adicionar descrições aos mapas, informando às máquinas o que elas realmente estão vendo, rotulando cada objeto com uma série de atributos. “A tarefa desta era é construir descrições úteis do mundo para máquinas”, diz Hanke. “Os dados que temos são um excelente ponto de partida para entender como a estrutura conectada do mundo funciona.”

Os modelos mundiais estão muito em alta agora, e a Niantic Spatial está ciente disso. Os LLMs parecem saber de tudo, mas têm quase nenhum senso comum ao interpretar e interagir com o ambiente cotidiano. Os modelos mundiais visam resolver esse problema. Algumas empresas, como o Google DeepMind e a World Labs, estão desenvolvendo modelos que geram instantaneamente mundos virtuais de fantasia e os usam como campos de treinamento para agentes de IA.

Niantic Spatial diz que abordam o problema de uma perspectiva diferente. Se você levar o mapa ao extremo, acabará capturando tudo, disse McClendon: "Ainda não chegamos a esse ponto, mas queremos chegar lá. Estou muito focado agora em tentar reconstruir o mundo real."