Niantic Menggunakan 3 Miliar Foto Pokémon Go untuk Melatih Sistem Navigasi Robot

Penulis: Will Douglas Heaven

Deep潮 TechFlow

Panduan DeepCha: Niantic mengubah 30 miliar foto kota yang diambil oleh pemain Pokémon Go menjadi bisnis baru. Anak perusahaan AI-nya, Niantic Spatial, menggunakan data ini untuk melatih sistem visual positioning yang mampu mencapai akurasi定位 hingga tingkat sentimeter, jauh melampaui kinerja GPS di lembah kota. Pelanggan besar pertamanya adalah perusahaan robot pengiriman makanan, Coco Robotics. Dari menangkap Pikachu hingga mengirim pizza, ini mungkin salah satu jalur komersialisasi data crowdsourcing yang paling tak terduga.

Seluruh teks berikut ini:

Pokémon Go adalah game AR pertama di dunia yang menjadi fenomena. Dirilis pada tahun 2016 oleh Niantic, anak perusahaan Google, game yang menggabungkan elemen augmented reality dengan IP Pokémon ini dengan cepat menyebar ke seluruh dunia. Dari Chicago hingga Oslo hingga Pulau Enoshima, para pemain membanjiri jalan-jalan, berharap bisa menangkap Pidgey, Squirtle, atau—jika beruntung—Lightning Bird Galaria yang sangat langka—yang mengambang di atas dunia nyata, hanya sedikit saja tidak terjangkau.

Secara sederhana, ini berarti sejumlah besar orang mengambil foto bangunan-bangunan besar dengan ponsel mereka. “Lima miliar orang menginstal aplikasi ini dalam 60 hari,” kata Brian McClendon, CTO Niantic Spatial. Niantic Spatial adalah perusahaan AI yang dipisahkan dari Niantic pada Mei tahun lalu. Menurut data dari perusahaan game Scopely (yang pada waktu yang sama mengakuisisi Pokémon Go dari Niantic), game ini masih memiliki lebih dari 100 juta pemain aktif pada tahun 2024, delapan tahun setelah peluncurannya.

Saat ini, Niantic Spatial sedang memanfaatkan gudang data crowdsourced yang tak tertandingi ini—foto landmark kota dari ratusan juta ponsel pemain Pokémon Go di seluruh dunia, dilengkapi tanda lokasi super akurat—untuk membangun sebuah World Model. Ini adalah arah teknologi terkini yang bertujuan untuk menempatkan kecerdasan LLM dalam lingkungan dunia nyata.

Produk terbaru perusahaan ini adalah sebuah model: cukup dengan beberapa foto bangunan atau landmark lainnya, model ini dapat menentukan lokasi Anda di peta dengan akurasi hingga beberapa sentimeter. Mereka ingin menggunakannya untuk membantu robot melakukan navigasi yang lebih akurat di lokasi-lokasi di mana GPS tidak andal.

Sebagai validasi besar pertama dari teknologi ini, Niantic Spatial baru saja bekerja sama dengan Coco Robotics, sebuah perusahaan rintisan yang telah menerapkan robot pengiriman makanan jarak terakhir di beberapa kota di Amerika Serikat dan Eropa. "Semua orang berpikir AR adalah masa depan, dan kacamata AR akan segera datang," kata McClendon, "tapi ternyata robot yang lebih dulu menjadi pengguna."

Dari Pikachu hingga pengiriman pizza

Coco Robotics telah mengerahkan sekitar 1.000 robot seukuran koper di Los Angeles, Chicago, Jersey City, Miami, dan Helsinki, yang mampu membawa hingga 8 pizza ukuran besar atau 4 kantong belanjaan. Menurut CEO Zach Rash, robot-robot ini telah menyelesaikan lebih dari 500.000 pengiriman dan menempuh jarak jutaan mil dalam berbagai kondisi cuaca.

Namun untuk bersaing dengan pengendara manusia, robot Coco (yang bergerak di trotoar dengan kecepatan sekitar 5 mil per jam) harus cukup andal. “Cara terbaik kami adalah tiba tepat waktu pada waktu yang Anda berikan,” kata Rash. Artinya, tidak boleh tersesat.

Masalah yang dihadapi Coco adalah tidak dapat mengandalkan GPS. Di kota-kota, sinyal radio memantul dan saling mengganggu di antara bangunan-bangunan, sehingga sinyal GPS lemah. "Kami melakukan pengiriman di banyak area padat dengan gedung tinggi, terowongan bawah tanah, dan jalan layang, di mana GPS hampir selalu tidak berfungsi," kata Rash.

“Kota lembah adalah tempat di mana GPS berkinerja paling buruk di seluruh dunia,” kata McClendon. “Anda melihat titik biru di ponsel Anda, sering kali bergeser hingga 50 meter, langsung menempatkan Anda di blok lain, arah berbeda, di sisi jalan yang lain.” Inilah masalah yang ingin diatasi oleh Niantic Spatial.

Dalam beberapa tahun terakhir, Niantic Spatial telah mengolah data yang dihasilkan oleh pemain Pokémon Go dan Ingress (game AR seluler pertama Niantic yang dirilis pada 2013) untuk membangun sistem penentuan posisi visual (Visual Positioning System)—yang menentukan lokasi Anda berdasarkan apa yang Anda lihat. “Membuat Pikachu berlari-lari secara nyata di jalan, dan membuat robot Coco melintasi kota dengan aman dan tepat, pada dasarnya adalah masalah yang sama,” kata CEO Niantic Spatial, John Hanke.

“Visual positioning bukanlah teknologi baru,” kata Konrad Wenzel dari perusahaan peta digital dan analisis geospasial ESRI, “tetapi jelas semakin banyak kamera di luar sana, semakin baik kinerjanya.”

Niantic Spatial melatih model dengan 30 miliar gambar yang diambil di lingkungan perkotaan. Gambar-gambar ini terkonsentrasi secara khusus di sekitar "titik panas"—lokasi penting dalam game Niantic yang mendorong pemain untuk berkunjung, seperti gym pertarungan Pokémon. "Kami memiliki lebih dari satu juta lokasi di seluruh dunia yang dapat menentukan posisi Anda dengan tepat," kata McClendon, "Kami tahu di mana Anda berdiri, dengan akurasi dalam beberapa sentimeter. Lebih penting lagi, kami tahu ke arah mana Anda sedang melihat."

Hasilnya, untuk setiap dari satu juta lokasi tersebut, Niantic Spatial memiliki ribuan foto yang diambil dari posisi yang hampir sama, tetapi dengan sudut berbeda, waktu berbeda, dan kondisi cuaca berbeda. Setiap foto dilengkapi metadata rinci: posisi tepat ponsel di ruang angkasa, orientasi,姿态, apakah sedang bergerak, kecepatan, dan arah, dll.

Perusahaan melatih model ini dengan dataset ini agar dapat secara akurat memprediksi posisinya berdasarkan "yang dilihatnya"—bahkan di luar 1 juta titik panas, di mana data gambar dan lokasi relatif langka.

Selain GPS, robot Coco (yang dilengkapi 4 kamera) sekarang juga menggunakan model ini untuk menentukan di mana ia berada dan ke mana ia akan pergi. Kamera robot dipasang pada ketinggian pinggul dan menghadap ke segala arah, dengan sudut pandang yang sedikit berbeda dari pemain Pokémon Go, tetapi Rash mengatakan bahwa penyesuaian data tidak rumit.

Pesaing juga menggunakan sistem pelokasi visual. Misalnya, perusahaan pengiriman robot Starship Technologies yang didirikan di Estonia pada tahun 2014, menyatakan bahwa robot mereka menggunakan sensor untuk membangun peta 3D lingkungan sekitar, menandai tepi bangunan dan lokasi lampu jalan.

Namun Rash bertaruh bahwa teknologi Niantic Spatial akan memberikan keunggulan bagi Coco. Ia percaya ini memungkinkan robot berhenti tepat di posisi pengambilan makanan di luar restoran tanpa menghalangi siapa pun, serta berhenti tepat di depan pintu rumah pelanggan, bukan beberapa langkah jauhnya—sebelumnya hal ini pernah terjadi.

Ledakan Kambrium pada robot

Ketika Niantic Spatial memulai pengembangan sistem pelacakan visual, tujuannya adalah untuk digunakan dalam augmented reality, kata Hanke. "Jika Anda mengenakan kacamata AR dan menginginkan dunia virtual tetap terkunci pada arah yang Anda lihat, Anda memerlukan cara tertentu untuk melakukannya. Namun sekarang kita sedang menyaksikan ledakan Kambrium di bidang robotika."

Beberapa robot perlu berbagi ruang dengan manusia, seperti lokasi konstruksi dan trotoar. “Jika robot ingin berintegrasi ke dalam lingkungan ini tanpa mengganggu manusia, mereka harus memiliki kemampuan memahami ruang yang mirip dengan manusia,” kata Hanke. “Ketika robot didorong atau ditabrak, kami dapat membantunya menemukan posisinya dengan tepat.”

Kerja sama dengan Coco Robotics hanyalah permulaan. Hanke mengatakan bahwa apa yang sedang dibangun oleh Niantic Spatial adalah komponen pertama dari apa yang disebutnya sebagai "Peta Hidup" (Living Map): simulasi dunia virtual dengan presisi sangat tinggi yang berubah seiring perubahan dunia nyata. Seiring robot-robot Coco dan perusahaan lainnya bergerak di seluruh dunia, mereka akan menyediakan sumber data peta baru yang membuat salinan dunia digital menjadi semakin halus.

Menurut Hanke dan McClendon, peta tidak hanya menjadi lebih detail, tetapi juga semakin banyak digunakan oleh mesin. Ini mengubah tujuan peta. Peta telah lama membantu manusia menentukan posisi mereka. Dari 2D ke 3D hingga 4D (bayangkan simulasi real-time seperti digital twin), prinsip dasarnya tetap sama: titik-titik di peta sesuai dengan titik-titik dalam ruang atau waktu.

Namun, peta yang ditujukan untuk mesin mungkin perlu menjadi lebih seperti panduan wisata, penuh informasi yang dianggap manusia sebagai hal yang jelas. Perusahaan seperti Niantic Spatial dan ESRI ingin menambahkan deskripsi ke peta, memberi tahu mesin apa yang sebenarnya dilihatnya, dengan setiap objek diberi label serangkaian atribut. “Tugas zaman ini adalah membangun deskripsi dunia yang berguna untuk mesin,” kata Hanke. “Data yang kita miliki adalah titik awal yang baik dalam memahami bagaimana struktur koneksi dunia berfungsi.”

Saat ini, world model sangat populer, dan Niantic Spatial sangat memahami hal ini. LLM tampaknya memahami segalanya, tetapi hampir tidak memiliki common sense saat menafsirkan dan berinteraksi dengan lingkungan sehari-hari. World model dirancang untuk menyelesaikan masalah ini. Beberapa perusahaan, seperti Google DeepMind dan World Labs, sedang mengembangkan model yang dapat menghasilkan dunia fantasi virtual secara instan, lalu menggunakannya sebagai lapangan pelatihan untuk agen AI.

Niantic Spatial mengatakan mereka mendekati masalah ini dari sudut yang berbeda. Jika Anda membuat peta seoptimal mungkin, pada akhirnya Anda akan menangkap segalanya, kata McClendon: "Kami belum sampai ke sana, tetapi kami ingin mencapainya. Saat ini saya sangat fokus pada upaya merekonstruksi dunia nyata."