লেখক: উইল ডগলাস হেভেন
শিয়াংচাও টেকফ্লো
শিনচাওয়ের পরিচয়: নিয়ানটিক পোকেমন গো ব্যবহারকারীদের দ্বারা তোলা 30 বিলিয়নটি শহরের ছবিকে একটি নতুন ব্যবসায় পরিণত করেছে। এর AI সহায়ক কোম্পানি নিয়ানটিক স্পেশিয়াল এই ডেটা ব্যবহার করে একটি ভিজুয়াল লোকেশন সিস্টেম প্রশিক্ষণ দিয়েছে, যা GPS-এর চেয়ে শহুরে গ্যাপগুলিতে সেন্টিমিটার-স্তরের স্থাননির্ণয় সম্ভব করেছে। প্রথম বড় গ্রাহক হলো ডেলিভারি রোবট কোম্পানি কোকো রোবোটিক্স। পিকাচু ধরা থেকে পিজা ডেলিভারি পর্যন্ত, এটি হয়তো ক্রাউডসোর্সড ডেটার সবচেয়ে অপ্রত্যাশিত বাণিজ্যিকীকরণের মধ্যে একটি।
পুরো পাঠ নিম্নরূপ:
পোকেমন গো হল বিশ্বের প্রথম ফেনোমেনাল এআর গেম। 2016 সালে গুগলের সহায়ক কোম্পানি নিয়ানটিক দ্বারা প্রকাশিত, এই গেমটি পোকেমন আইপি-এর উপর বৃদ্ধিকৃত বাস্তবতা খেলার মিশ্রণ করে দ্রুত বিশ্বজুড়ে ছড়িয়ে পড়ে। চিকাগো থেকে অসলো এবং জিওশিমা পর্যন্ত, খেলোয়াড়রা রাস্তায় ছুটেছিল, একটি পাইকাবি, জেনিকার, বা (যদি ভাগ্যবান হয়) একটি অত্যন্ত দুর্লভ গ্যালিলিয়ান স্পার্কি—যারা বাস্তব বিশ্বের উপরে ভাসছিল—ধরার আশায়।
সহজ কথায়, এর অর্থ হল অসংখ্য মানুষ তাদের মোবাইল ফোন নিয়ে অসংখ্য ভবনের ছবি তুলছে। “পাঁচ কোটি মানুষ ৬০ দিনের মধ্যে এই অ্যাপটি ইনস্টল করেছে,” বলেন Niantic Spatial-এর CTO ব্রায়ান ম্যাকক্লেনডন। Niantic Spatial হল Niantic-এর ২০২৩ সালের মে মাসে বিচ্ছিন্নকৃত একটি AI কোম্পানি। Scopely (যেটি Niantic-এর কাছ থেকে Pokémon Go-এর অধিকার কিনেছিল) এর ডেটা অনুযায়ী, ২০২৪ সালেও এই গেমটিতে ১০০ মিলিয়নেরও বেশি সক্রিয় খেলোয়াড় ছিল, যদিও এটির প্রকাশের ৮ বছর পার হয়েছে।
এখন, নিয়ানটিক স্পেশিয়াল বিশ্বব্যাপী কোটি কোটি পোকেমন গো খেলোয়াড়ের মোবাইল থেকে পাওয়া শহরের স্থাপত্য ছবি, যেগুলোতে অত্যন্ত সঠিক অবস্থান ট্যাগ রয়েছে, এই অতুলনীয় জনসংগঠিত ডেটা ভাণ্ডারকে ব্যবহার করে একটি ওয়ার্ল্ড মডেল তৈরি করছে। এটি বর্তমানের একটি জনপ্রিয় প্রযুক্তি দিক, যার লক্ষ্য LLM-এর বুদ্ধিমত্তাকে বাস্তব বিশ্বের পরিবেশের সাথে সংযুক্ত করা।
এই কোম্পানির সর্বশেষ পণ্য হল একটি মডেল: শুধুমাত্র কয়েকটি ভবন বা অন্যান্য স্থানীয় চিহ্নের ছবি দিয়ে আপনার মানচিত্রে অবস্থানকে কয়েক সেন্টিমিটারের মধ্যে সঠিকভাবে নির্ণয় করা যায়। তারা এটি ব্যবহার করে রোবটগুলিকে GPS-এর অস্থিতিশীল স্থানগুলিতে আরও সঠিকভাবে নেভিগেট করতে সহায়তা করতে চায়।
প্রথম বড় প্রযুক্তিগত যাচাই হিসেবে, নিয়ানটিক স্পেশিয়াল এখন কোকো রোবোটিক্সের সাথে চুক্তিবদ্ধ হয়েছে। কোকো হল একটি স্টার্টআপ যা মার্কিন যুক্তরাষ্ট্র এবং ইউরোপের অনেক শহরে শেষ কিলোমিটার খাবার ডেলিভারি রোবট চালু করেছে। 'সবাই ভাবে যে ARই ভবিষ্যৎ, AR গগলস আসছে', ম্যাকক্লেন্ডন বলেন, 'কিন্তু রোবটগুলোই প্রথমে ব্যবহারকারী হয়ে উঠল।'
পিকাচু থেকে পিজ্জা ডেলিভারি
কোকো রোবোটিক্স লস অ্যাঞ্জেলস, চিকাগো, জার্সি সিটি, মায়ামি এবং হেলসিংকিতে প্রায় 1000টি লগব্যাগের আকারের রোবট স্থাপন করেছে, যা সর্বোচ্চ 8টি অতি-বড় পিজ্জা বা 4টি খাবারের ব্যাগ বহন করতে পারে। সিইও জ্যাক রাশের মতে, এই রোবটগুলি এখন পর্যন্ত 50 লক্ষেরও বেশি ডেলিভারি সম্পন্ন করেছে এবং বিভিন্ন আবহাওয়ার শর্তে মিলিয়ন মাইল পথ অতিক্রম করেছে।
কিন্তু মানুষের ড্রাইভারদের সাথে প্রতিযোগিতা করতে, কোকোর রোবট (যা পথচারীদের পথে প্রায় ৫ মাইল প্রতি ঘণ্টা গতিতে চলে) যথেষ্ট বিশ্বস্ত হতে হবে। "আমাদের সেরা কাজের উপায় হলো, আপনাকে যে সময়টি বলা হয়েছে, সেই সময়েই পৌঁছানো," রাশ বলেন। এর মানে হলো, এটি পথ হারাতে পারবে না।
কোকোর সামনে দাঁড়ানো সমস্যা হলো GPS-এর উপর নির্ভর করা যায় না। শহরে, রেডিও সংকেত ভবনের মধ্যে প্রতিফলিত হয় এবং পরস্পরকে ব্যাহত করে, যার ফলে GPS সংকেত দুর্বল হয়ে পড়ে। "আমরা অনেক উচ্চ ভবন, অন্তর্গত পথ এবং উঁচু সড়কের ঘনীভূত এলাকায় ডেলিভারি করি, যেখানে GPS প্রায়ই কখনই কাজ করে না," রাশ বলেন।
"শহরের গলি হল বিশ্বব্যাপী GPS-এর সবচেয়ে খারাপ পারফরম্যান্সের জায়গা," ম্কলেন্ডন বলেন। "আপনি যখন আপনার ফোনে সেই নীল পয়েন্টটি দেখেন, তখন এটি প্রায়শই 50 মিটার ভাসে, আপনাকে সরাসরি অন্য একটি ব্লক, অন্য দিকে, রাস্তার অপর পাশে পৌঁছে দেয়।" এটিই Niantic Spatial-এর সমাধান করার বিষয়।
গত কয়েক বছর ধরে, নিয়ানটিক স্পেশিয়াল পোকেমন গো এবং ইনগ্রেস (নিয়ানটিকের ২০১৩ সালে প্রকাশিত আগের মোবাইল AR গেম) খেলোয়াড়দের দ্বারা উৎপাদিত ডেটা সংগ্রহ করে একটি ভিজুয়াল পজিশনিং সিস্টেম (Visual Positioning System) তৈরি করেছে—যা আপনি যা দেখছেন তার ভিত্তিতে আপনার অবস্থান চিহ্নিত করে। “পিকাচুকে বাস্তবিকভাবে রাস্তায় দৌড়ানোর সমস্যা এবং কোকোর রোবটকে শহরের মধ্যে নিরাপদে ও সঠিকভাবে প্রবাহিত করার সমস্যা—এগুলি মূলত একই সমস্যা,” বলেন নিয়ানটিক স্পেশিয়াল-এর CEO জন হ্যাঙ্ক।
"ভিজুয়াল লোকেশনিং কোনও নতুন প্রযুক্তি নয়," ডিজিটাল ম্যাপিং এবং জিওস্পেশিয়াল অ্যানালিসিস কোম্পানি ESRI-এর কনরাড ওয়েনজেল বলেন, "কিন্তু পরিষ্কারভাবে, বাইরের ক্যামেরার সংখ্যা যত বেশি, এটি তত ভালোভাবে কাজ করে।"
নিয়ানটিক স্পেশিয়াল শহুরে পরিবেশে তোলা 30 বিলিয়ন ছবি ব্যবহার করে মডেলটি প্রশিক্ষিত করেছে। এই ছবিগুলি বিশেষ করে 'হটস্পট'-এর চারপাশে ঘনীভূত হয়েছে—যেখানে নিয়ানটিক গেমগুলিতে খেলোয়াড়দের যাওয়ার প্ররোচনা দেওয়া হয়, যেমন পোকেমন লড়াইয়ের গোডাউন। ম্যাকক্লেন্ডন বলেছেন, "আমাদের বিশ্বব্যাপী 10 লক্ষেরও বেশি স্থান রয়েছে, যা আপনার অবস্থানকে সূক্ষ্মভাবে নির্ধারণ করতে পারে। আমরা জানি আপনি কোথায় দাঁড়িয়েছেন, সঠিকতা কয়েক সেন্টিমিটারেরও কম। আরও গুরুত্বপূর্ণ বিষয়, আমরা জানি আপনি কোন দিকে তাকিয়েছেন।"
ফলাফল হলো, এই 10 লাখ স্থানের প্রতিটির জন্য, Niantic Spatial একই অবস্থানে, কিন্তু বিভিন্ন কোণ, বিভিন্ন সময় এবং বিভিন্ন আবহাওয়ার শর্তে কয়েকহাজার ছবি সংগ্রহ করেছে। প্রতিটি ছবির সাথে বিস্তারিত মেটাডেটা যুক্ত রয়েছে: স্থানের মধ্যে ফোনটির সঠিক অবস্থান, দিক, অবস্থান, কি চলমান ছিল, গতি এবং দিক ইত্যাদি।
কোম্পানিটি এই ডেটাসেট ব্যবহার করে মডেলটি প্রশিক্ষণ দেয়, যাতে এটি তার “দেখা” বিষয়গুলির মাধ্যমে নিজের অবস্থান সঠিকভাবে পূর্বাভাস দিতে পারে—এমনকি সেই 100 লক্ষ হটস্পটের বাইরেও, যেখানে ছবি এবং অবস্থান ডেটা তুলনামূলকভাবে কম।
জিপিএসের পাশাপাশি, কোকোর রোবট (যার চারটি ক্যামেরা লাগানো আছে) এখন এই মডেল ব্যবহার করে নিজেকে কোথায় এবং কোথায় যাবে তা চিহ্নিত করে। রোবটের ক্যামেরাগুলি হাঁটুর উচ্চতায় স্থাপন করা হয়েছে এবং সবদিকের দিকে মুখ করে, যা পোকেমন গো খেলোয়াড়দের দৃষ্টিকোণের সাথে ভিন্ন, কিন্তু রাশ বলেন যে ডেটা অ্যাডাপ্টেশনটি জটিল নয়।
প্রতিদ্বন্দ্বীরাও ভিজুয়াল লোকেশনিং সিস্টেম ব্যবহার করছে। উদাহরণস্বরূপ, ২০১৪ সালে এস্তোনিয়ায় প্রতিষ্ঠিত রোবট ডেলিভারি কোম্পানি স্টারশিপ টেকনোলজিজ দাবি করে যে তাদের রোবটগুলি সেন্সর ব্যবহার করে পরিবেশের 3D ম্যাপ তৈরি করে, ভবনের প্রান্ত এবং আলোকস্তম্ভের অবস্থান চিহ্নিত করে।
কিন্তু রাশ বিশ্বাস করেন যে নিয়ানটিক স্পেশিয়ালের প্রযুক্তি কোকোকে সুবিধা দেবে। তিনি মনে করেন এটি রোবটকে রেস্টুরেন্টের বাইরে সঠিক ডেলিভারি পয়েন্টে সঠিকভাবে থামাতে সক্ষম করবে, কারও পথে বাধা দেবে না, এবং গ্রাহকদের বাড়ির সামনেই থামবে—যা আগে কখনও কখনও ঘটত।
রোবটের ক্যাম্ব্রিয়ান বিস্ফোরণ
নিয়ানটিক স্পেশিয়াল যখন ভিজুয়াল লোকেশনিং সিস্টেম তৈরি করছিল, তখন এটি অ্যাডভান্সড রিয়েলিটির জন্য ডিজাইন করা হয়েছিল, হ্যাঙ্কে বলেছেন। "আপনি যদি AR চশমা পরেন, তাহলে আপনি চান যে ভার্চুয়াল বিশ্বটি আপনার দেখার দিকের সাথে লক হয়ে যাক, এর জন্য কিছু পদ্ধতির প্রয়োজন। কিন্তু এখন আমরা রোবোটিক্সের ক্যামব্রিয়ান এক্সপ্লোশনের সাক্ষী হচ্ছি।"
কিছু রোবট যেমন নির্মাণ স্থল এবং হাঁটার পথে মানুষের সাথে স্থান ভাগ করে নেয়। "যদি রোবটগুলি মানুষকে বিরক্ত না করে এই পরিবেশগুলিতে একীভূত হতে চায়, তবে এগুলিকে মানুষের মতো স্থানীয় বোধ থাকতে হবে," হ্যাঙ্কে বলেন। "যখন রোবটগুলিকে ঠেলা বা ধাক্কা দেওয়া হয়, তখন আমরা এটিকে ঠিকভাবে নিজের অবস্থানটি খুঁজে পেতে সাহায্য করতে পারি।"
কোকো রোবোটিক্সের সাথে এই সহযোগিতা শুধুমাত্র একটি শুরু। হান্কে বলেছেন যে নিয়ানটিক স্পেশিয়াল যা তৈরি করছে, তা হল তার যা বলেছেন "লিভিং ম্যাপ" (Living Map)-এর প্রথম কয়েকটি উপাদান: একটি অত্যন্ত উচ্চ নির্ভুলতার ভার্চুয়াল বিশ্বের সিমুলেশন, যা বাস্তব বিশ্বের পরিবর্তনের সাথে সাথে পরিবর্তিত হয়। কোকো এবং অন্যান্য কোম্পানির রোবোটগুলি যখন বিশ্বজুড়ে চলাচল করবে, তখন এগুলি নতুন ম্যাপিং ডেটা সরবরাহ করবে, যা ডিজিটাল বিশ্বের কপির সূক্ষ্মতা আরও বাড়িয়ে তুলবে।
হান্কে এবং ম্যাকক্লেন্ডনের মতে, মানচিত্রগুলি শুধু আরও সূক্ষ্ম হয়ে উঠছে, বরং এগুলি ধীরে ধীরে মেশিন দ্বারা ব্যবহৃত হচ্ছে। এটি মানচিত্রের উদ্দেশ্যকে পরিবর্তন করেছে। দীর্ঘদিন ধরে, মানচিত্রগুলি মানুষকে তাদের অবস্থান চিহ্নিত করতে সাহায্য করেছে। 2D থেকে 3D এবং 4D-এ (ডিজিটাল টুইনের মতো রিয়েল-টাইম সিমুলেশন বিবেচনা করুন), মৌলিক নীতি অপরিবর্তিত রয়েছে: মানচিত্রের পয়েন্টগুলি স্থান বা সময়ের পয়েন্টগুলির সাথে মিলে যায়।
কিন্তু মেশিনের জন্য মানচিত্রগুলি হয়তো এমন একটি গাইডবুকের মতো হতে হবে, যেখানে মানুষ যা স্বাভাবিক বলে ধরে নেয়, সবকিছুই পূর্ণ। Niantic Spatial এবং ESRI-এর মতো কোম্পানিগুলি মানচিত্রে বর্ণনা যোগ করতে চায়, যাতে মেশিনগুলি বুঝতে পারে এটি বাস্তবে কী দেখছে, প্রতিটি বস্তুর সাথে একটি সেট প্রোপার্টি লেবেলযুক্ত। "এই যুগের কাজ হলো মেশিনগুলির জন্য কার্যকরী বিশ্বের বর্ণনা তৈরি করা," হ্যাঙ্কে বলেন। "আমাদের যে ডেটা আছে, এটি বিশ্বের সংযোগকারী সংগঠনটি কীভাবে কাজ করে, তা বুঝতে একটি উত্তম শুরু।"
বর্তমানে ওয়ার্ল্ড মডেলগুলি খুব জনপ্রিয়, এবং Niantic Spatial এটি স্পষ্টভাবে বুঝতে পারে। LLM গুলি মনে হয় সবকিছু জানে, কিন্তু দৈনন্দিন পরিবেশকে ব্যাখ্যা করতে এবং সেই পরিবেশের সাথে মিথস্ক্রিয়া করতে এগুলির প্রায় কোনো সাধারণ জ্ঞান নেই। ওয়ার্ল্ড মডেলগুলির লক্ষ্য হলো এই সমস্যার সমাধান। Google DeepMind এবং World Labs-এর মতো কিছু কোম্পানি এমন মডেল তৈরি করছে যা প্রতিক্ষণ ভার্চুয়াল ফ্যান্টাসি বিশ্ব তৈরি করে, এবং তারপর সেগুলিকে AI এজেন্টদের প্রশিক্ষণের জন্য ব্যবহার করে।
নিয়ানটিক স্পেশিয়াল বলেছে যে তারা এই সমস্যার বিভিন্ন দিক থেকে এটির সমাধান খুঁজছে। ম্যাকক্লেন্ডন বলেছেন: "আমরা এখনও সেই পর্যায়ে পৌঁছাইনি, কিন্তু আমরা সেখানে পৌঁছাতে চাই। আমি এখন বাস্তব বিশ্বকে পুনর্গঠনের চেষ্টা করার উপর খুব ফোকাস করছি।"
