ผู้เขียน: Will Douglas Heaven
DeepChain TechFlow
คำนำจาก Shenchao: Niantic ได้เปลี่ยนภาพเมืองกว่า 30 พันล้านภาพที่ผู้เล่น Pokémon Go ถ่ายไว้ให้กลายเป็นธุรกิจใหม่ บริษัทลูกด้านปัญญาประดิษฐ์ของมัน คือ Niantic Spatial ใช้ข้อมูลเหล่านี้ในการฝึกฝนระบบการระบุตำแหน่งด้วยภาพ ซึ่งสามารถบรรลุความแม่นยำระดับเซนติเมตร ซึ่งเหนือกว่า GPS อย่างมากในพื้นที่เมืองที่มีตึกสูง ลูกค้ารายใหญ่รายแรกคือบริษัทหุ่นยนต์ส่งอาหาร Coco Robotics จากการจับพิคาชูไปจนถึงการส่งพิซซ่า นี่อาจเป็นหนึ่งในเส้นทางการพาณิชย์ที่ไม่คาดคิดที่สุดของข้อมูลที่รวบรวมจากประชาชน
ข้อความทั้งหมดมีดังนี้:
Pokémon Go เป็นเกม AR เรื่องแรกที่ประสบความสำเร็จแบบปรากฏการณ์ทั่วโลก เปิดตัวในปี 2016 โดย Niantic บริษัทลูกของ Google เกมนี้ซึ่งผสานการเล่นแบบความเป็นจริงเสริมเข้ากับไอพีของโปเกมอน ได้รับความนิยมอย่างรวดเร็วทั่วโลก ตั้งแต่ชิคาโก ไปจนถึงออสโล และเกาะเอโนชิมะ ผู้เล่นต่างพากันออกมาเดินบนท้องถนน หวังจะจับได้พิคาชู เจเนสซ์ หรือ (ถ้าโชคดีมาก) กาเลียสไนท์ฟลาย—ซึ่งลอยอยู่เหนือโลกแห่งความเป็นจริง แต่ห่างออกไปเพียงเล็กน้อยเท่านั้น
พูดแบบง่ายๆ นั่นหมายถึงผู้คนจำนวนมากถือโทรศัพท์ถ่ายรูปอาคารจำนวนมาก “ห้าร้อยล้านคนติดตั้งแอปนี้ภายใน 60 วัน” Brian McClendon หัวหน้าเทคโนโลยีของ Niantic Spatial กล่าว Niantic Spatial เป็นบริษัท AI ที่ Niantic แยกออกมาเมื่อเดือนพฤษภาคมปีที่แล้ว ตามข้อมูลจากบริษัทเกม Scopely (ซึ่งซื้อ Pokémon Go จาก Niantic ในช่วงเวลาเดียวกัน) เกมนี้ยังมีผู้เล่นที่ใช้งานอยู่มากกว่า 100 ล้านคนในปี 2024 แม้จะผ่านไปแล้ว 8 ปีนับตั้งแต่เปิดตัว
ขณะนี้ Niantic Spatial กำลังใช้คลังข้อมูลร่วมกันที่ไม่เหมือนใครนี้—ภาพแลนด์มาร์กในเมืองจากโทรศัพท์ของผู้เล่น Pokémon Go หลายร้อยล้านคนทั่วโลก พร้อมเครื่องหมายตำแหน่งที่แม่นยำยิ่ง—เพื่อสร้างแบบจำลองโลก (World Model) ซึ่งเป็นทิศทางเทคโนโลยีที่กำลังเป็นที่นิยมในขณะนี้ โดยมีเป้าหมายเพื่อผูกความฉลาดของ LLM เข้ากับสภาพแวดล้อมในโลกจริง
ผลิตภัณฑ์ล่าสุดของบริษัทคือโมเดลที่สามารถระบุตำแหน่งของคุณบนแผนที่ให้แม่นยำถึงไม่กี่เซนติเมตร โดยใช้ภาพถ่ายเพียงไม่กี่ภาพของอาคารหรือสถานที่สำคัญอื่นๆ พวกเขาต้องการใช้มันเพื่อช่วยให้หุ่นยนต์สามารถนำทางได้อย่างแม่นยำยิ่งขึ้นในพื้นที่ที่ GPS ไม่น่าเชื่อถือ
ในฐานะการยืนยันขนาดใหญ่ครั้งแรกของเทคโนโลยี Niantic Spatial เพิ่งร่วมมือกับ Coco Robotics ซึ่งเป็นบริษัทสตาร์ทอัพที่ติดตั้งหุ่นยนต์จัดส่งอาหารระยะสุดท้ายในหลายเมืองของสหรัฐอเมริกาและยุโรป “ทุกคนคิดว่า AR คืออนาคต และแว่น AR จะมาถึงแล้ว” McClendon กล่าว “แต่กลับเป็นหุ่นยนต์ที่กลายเป็นผู้ใช้ก่อน”
จากพิคาชูถึงการส่งพิซซ่า
Coco Robotics ได้ติดตั้งหุ่นยนต์ขนาดประมาณกระเป๋าเดินทางประมาณ 1,000 ตัวในลอสแอนเจลิส ชิคาโก เจอร์ซีย์ซิตี ไมอามี และเฮลซิงกิ ซึ่งสามารถบรรจุได้สูงสุด 8 แผ่นพิซซ่าขนาดใหญ่พิเศษหรือ 4 ถุงของชำ ตามที่ซีอีโอแซค ราช เปิดเผยว่า หุ่นยนต์เหล่านี้ได้ดำเนินการจัดส่งมากกว่า 500,000 ครั้งและเดินทางรวมกันหลายล้านไมล์ในทุกสภาพอากาศ
แต่เพื่อแข่งขันกับคนขี่จักรยาน หุ่นยนต์ของ Coco (ซึ่งวิ่งบนทางเท้าด้วยความเร็วประมาณ 5 ไมล์ต่อชั่วโมง) ต้องมีความน่าเชื่อถือเพียงพอ “วิธีที่ดีที่สุดของเราคือการมาถึงตรงเวลาตามเวลาที่เราแจ้งให้คุณทราบ” Rash กล่าว ซึ่งหมายความว่าหุ่นยนต์ต้องไม่หลงทาง
ปัญหาที่ Coco เผชิญคือไม่สามารถพึ่งพา GPS ได้ ในเมือง คลื่นวิทยุสะท้อนและรบกวนกันระหว่างตึกสูง ทำให้สัญญาณ GPS อ่อนแอ “เราจัดส่งในพื้นที่หนาแน่นหลายแห่งที่มีตึกสูง ทางเดินใต้ดิน และทางด่วนบนฟ้า ซึ่ง GPS มักจะไม่ทำงานเลย” Rash กล่าว
“เมืองที่มีตึกสูงเป็นสถานที่ที่ GPS ทำงานแย่ที่สุดในโลก” McClendon กล่าว “คุณจะเห็นจุดสีฟ้าบนโทรศัพท์ของคุณ มักจะลอยไปไกลถึง 50 เมตร ทำให้คุณถูกวางไว้ในย่านอื่น ทิศทางอื่น หรืออีกฟากถนนหนึ่ง” นี่คือปัญหาที่ Niantic Spatial ต้องการแก้ไข
ในช่วงไม่กี่ปีที่ผ่านมา Niantic Spatial ได้จัดระเบียบข้อมูลที่ผู้เล่นของ Pokémon Go และ Ingress (เกม AR บนมือถือรุ่นก่อนหน้าของ Niantic ที่เปิดตัวในปี 2013) สร้างขึ้น เพื่อพัฒนาระบบการระบุตำแหน่งด้วยภาพ (Visual Positioning System) ซึ่งใช้สิ่งที่คุณเห็นเพื่อกำหนดตำแหน่งของคุณ “การทำให้พิคาชูวิ่งไปมาบนถนนอย่างแท้จริง และการทำให้หุ่นยนต์ของ Coco เคลื่อนที่อย่างปลอดภัยและแม่นยำผ่านเมือง 本质上เป็นปัญหาเดียวกัน” John Hanke ซีอีโอของ Niantic Spatial กล่าว
“การระบุตำแหน่งทางภาพไม่ใช่เทคโนโลยีใหม่” คอนราด เวนเซล จากบริษัทแผนที่ดิจิทัลและการวิเคราะห์เชิงภูมิศาสตร์ ESRI กล่าว “แต่ชัดเจนว่า ยิ่งมีกล้องอยู่ภายนอกมากเท่าไร มันก็ยิ่งใช้งานได้ดีขึ้นเท่านั้น”
Niantic Spatial ใช้ภาพถ่าย 30 พันล้านภาพจากสภาพแวดล้อมในเมืองในการฝึกโมเดล ภาพเหล่านี้มีความหนาแน่นสูงรอบจุด「ร้อน」— สถานที่สำคัญที่เกมของ Niantic ส่งเสริมให้ผู้เล่นไปเยือน เช่น สถานีต่อสู้พีกachu แมคเคลนดอนกล่าวว่า “เรามีจุดมากกว่า 1 ล้านจุดทั่วโลก ที่สามารถระบุตำแหน่งของคุณได้อย่างแม่นยำ” “เราทราบว่าคุณยืนอยู่ตรงไหน ด้วยความแม่นยำในระดับไม่กี่เซนติเมตร และยิ่งไปกว่านั้น เราทราบว่าคุณกำลังมองไปทางไหน”
ผลลัพธ์คือ สำหรับแต่ละสถานที่ 1 ล้านแห่งเหล่านี้ Niantic Spatial มีภาพหลายพันภาพที่ถ่ายจากมุมต่างกัน ช่วงเวลาต่างกัน และสภาวะอากาศต่างกันในตำแหน่งใกล้เคียงกัน แต่ละภาพมีข้อมูลเมตาอย่างละเอียด: ตำแหน่งที่แม่นยำของโทรศัพท์ในพื้นที่ ทิศทาง ท่าทาง สถานะการเคลื่อนที่ ความเร็ว และทิศทาง เป็นต้น
บริษัทใช้ชุดข้อมูลนี้ในการฝึกโมเดล เพื่อให้สามารถทำนายตำแหน่งของตัวเองได้อย่างแม่นยำผ่านสิ่งที่ “เห็น” — แม้แต่ในพื้นที่ที่อยู่นอกเหนือจากจุดร้อน 1 ล้านจุด และข้อมูลภาพกับตำแหน่งมีจำกัด
นอกเหนือจาก GPS หุ่นยนต์ของ Coco (ที่ติดตั้งกล้อง 4 ตัว) ตอนนี้ยังใช้โมเดลนี้ในการระบุตำแหน่งปัจจุบันและจุดหมายของตัวเอง กล้องของหุ่นยนต์ติดตั้งในระดับสะโพกและหันไปในทุกทิศทาง มุมมองจึงแตกต่างจากผู้เล่น Pokémon Go แต่ Rash กล่าวว่าการปรับข้อมูลไม่ได้ซับซ้อน
คู่แข่งยังใช้ระบบการระบุตำแหน่งด้วยภาพเช่นกัน ตัวอย่างเช่น บริษัทส่งของหุ่นยนต์ Starship Technologies ที่ก่อตั้งในเอสโตเนียเมื่อปี 2014 ระบุว่าหุ่นยนต์ของพวกเขานั้นใช้เซนเซอร์สร้างแผนที่ 3 มิติของสภาพแวดล้อมรอบข้าง โดยระบุขอบอาคารและตำแหน่งของไฟส่องสว่าง
แต่ Rash คาดเดาว่าเทคโนโลยีของ Niantic Spatial จะให้ข้อได้เปรียบแก่ Coco โดยเขาเชื่อว่ามันจะช่วยให้หุ่นยนต์จอดได้อย่างแม่นยำที่ตำแหน่งรับอาหารที่ถูกต้องหน้าร้าน โดยไม่กีดขวางผู้อื่น และจอดหน้าบ้านลูกค้าแทนที่จะจอดห่างออกไปเพียงก้าวไม่กี่ก้าว—ซึ่งเคยเกิดขึ้นบ่อยครั้งในอดีต
การระเบิดของแคมเบรียนของหุ่นยนต์
เมื่อ Niantic Spatial เริ่มพัฒนาระบบการระบุตำแหน่งด้วยภาพ เป้าหมายคือการใช้งานใน augmented reality ฮันเคกล่าว “ถ้าคุณสวมแว่น AR และต้องการให้โลกเสมือนคงที่อยู่กับทิศทางที่คุณมอง คุณจำเป็นต้องมีวิธีการบางอย่างในการทำเช่นนั้น แต่ตอนนี้เรากำลังได้เห็นการระเบิดครั้งใหญ่ในยุคแคมเบรียนของหุ่นยนต์”
บางหุ่นยนต์ต้องแชร์พื้นที่กับมนุษย์ เช่น ไซต์ก่อสร้างและทางเท้า “หากหุ่นยนต์ต้องการผสานเข้ากับสิ่งแวดล้อมเหล่านี้โดยไม่รบกวนมนุษย์ พวกมันต้องมีความสามารถในการเข้าใจพื้นที่ที่คล้ายคลึงกับมนุษย์” ฮันเคกล่าว “เมื่อหุ่นยนต์ถูกผลักหรือชน เราสามารถช่วยมันหาตำแหน่งของตัวเองได้อย่างแม่นยำ”
ความร่วมมือกับ Coco Robotics เป็นเพียงจุดเริ่มต้น ฮันเคกล่าวว่า Niantic Spatial กำลังสร้างชิ้นส่วนแรกของสิ่งที่เขาเรียกว่า “แผนที่ที่มีชีวิต” (Living Map): การจำลองโลกเสมือนที่มีความแม่นยำสูงมาก ซึ่งจะเปลี่ยนแปลงไปตามการเปลี่ยนแปลงของโลกจริง เมื่อหุ่นยนต์ของ Coco และบริษัทอื่นๆ เดินทางไปทั่วโลก พวกเขาจะให้ข้อมูลแผนที่ใหม่ๆ ทำให้สำเนาโลกดิจิทัลละเอียดขึ้นเรื่อยๆ
ในมุมมองของ Hanke และ McClendon แผนที่ไม่เพียงแต่变得ละเอียดขึ้น แต่ยังถูกใช้งานโดยเครื่องจักรมากขึ้นเรื่อยๆ ซึ่งเปลี่ยนแปลงการใช้งานของแผนที่ แผนที่ได้ช่วยให้มนุษย์ระบุตำแหน่งของตนเองมานานแล้ว ตั้งแต่ 2D ไปจนถึง 3D และ再到 4D (พิจารณาการจำลองแบบเรียลไทม์เช่นดิจิทัลทวิน) หลักการพื้นฐานยังคงเหมือนเดิม: จุดบนแผนที่สอดคล้องกับจุดในพื้นที่หรือเวลา
แต่แผนที่ที่ออกแบบสำหรับเครื่องจักรอาจต้องกลายเป็นคู่มือท่องเที่ยวที่เต็มไปด้วยข้อมูลที่มนุษย์ถือว่าเป็นเรื่องปกติ บริษัทอย่าง Niantic Spatial และ ESRI ต้องการเพิ่มคำอธิบายลงในแผนที่ เพื่อบอกเครื่องจักรว่ามันเห็นอะไรจริงๆ โดยระบุคุณลักษณะต่างๆ ให้กับแต่ละวัตถุ “ภารกิจในยุคนี้คือการสร้างคำอธิบายโลกที่มีประโยชน์สำหรับเครื่องจักร” ฮานเคกล่าว “ข้อมูลที่เรามีเป็นจุดเริ่มต้นที่ดีในการเข้าใจว่าโครงสร้างการเชื่อมโยงของโลกทำงานอย่างไร”
ขณะนี้โมเดลโลกกำลังเป็นที่นิยมอย่างมาก และ Niantic Spatial ก็เข้าใจดีถึงเรื่องนี้ แม้โมเดล LLM จะดูเหมือนรู้ทุกอย่าง แต่กลับขาดความรู้พื้นฐานในการตีความและมีปฏิสัมพันธ์กับสภาพแวดล้อมประจำวัน โมเดลโลกถูกพัฒนาขึ้นเพื่อแก้ไขปัญหานี้ บริษัทบางแห่ง เช่น Google DeepMind และ World Labs กำลังพัฒนาโมเดลที่สามารถสร้างโลกจินตนาการเสมือนจริงแบบเรียลไทม์ แล้วใช้เป็นสนามฝึกอบรมสำหรับตัวแทน AI
Niantic Spatial กล่าวว่าพวกเขาเข้าใกล้ปัญหานี้จากมุมมองที่ต่างออกไป การทำแผนที่ให้ละเอียดถึงขีดสุด จะทำให้คุณสามารถจับภาพทุกอย่างได้ในที่สุด McClendon กล่าวว่า: “เรายังไม่ถึงจุดนั้น แต่เราต้องการไปให้ถึงที่นั่น ตอนนี้ฉันมุ่งเน้นอย่างมากกับการพยายามสร้างโลกแห่งความเป็นจริงขึ้นใหม่”
