কোড থেকে চেতনায়: রোবট মস্তিষ্কের বিকাশের গভীর পর্যালোচনা

লেখক: Matt White, লিনাক্স ফাউন্ডেশনের গ্লোবাল এআই চিফ টেকনোলজি অফিসার

সংকলন: ফেলিক্স, PANews

হিউমানয়েড রোবট

ওয়াং শিংশিং (ইউশু টেকনোলজির সিইও) এবং ম্যাট হোয়াইট

কয়েক সপ্তাহ আগে শাংহাইয়ে, একজন ভ্রমণকারী বন্ধু (যিনি বুদ্ধিমান, সাধারণত সংবাদ এবং পরিস্থিতি পর্যবেক্ষণ করেন, কিন্তু রোবোটিক্স সম্পর্কে বেশি জানেন না) ডিনারের সময় পুরো যাত্রার জন্য অপেক্ষা করছিলেন।

আমরা যে মেশিন কুকুরগুলি দেখি যেগুলি সব জায়গায় দৌড়ায়, ইউশু অফিসের ডেমো স্টেজে কারাতে পারফর্ম করা মানবাকৃতির রোবট, এবং আমরা যে পোশাক গোছানোর মেকানিক্যাল আর্মগুলি দেখি—এগুলি কিভাবে কাজ করে? এগুলি বড় ভাষা মডেল (LLM) দ্বারা চালিত হয়? এটি কিভাবে কাজ করে? কি কোনও ভাষা মডেল এদের ক্রিয়াকলাপ নিয়ন্ত্রণ করছে?

এটি একটি অসাধারণ প্রশ্ন, সত্যি বলতে কি: কিছুটা সত্য, কিন্তু বাস্তব গল্পটি তার চেয়ে অনেক বেশি আকর্ষণীয়। আপনি সোশ্যাল মিডিয়ায় যে রোবটগুলি দেখেন, তারা ChatGPT-এর ধাতব কভার পরিহিত নয়। তারা একটি টেকনোলজি স্ট্যাক (একাধিক AI স্তরের সহযোগিতা) চালায়। গত তিন বছরের মধ্যে এই টেকনোলজি স্ট্যাকের পরিবর্তন গত ত্রিশ বছরের চেয়েও বেশি। ভাষা মডেলগুলি এর একটি অংশ। ভিজুয়াল মডেল, অ্যাকশন মডেল, বিহেভিয়ার ট্রি, ক্লাসিক্যাল কন্ট্রোল লুপ, এবং “ওয়ার্ল্ড মডেল” নামক একটি নতুন সিস্টেম পরিবারও এর গুরুত্বপূর্ণ অংশ। এবং “ওয়ার্ল্ড মডেল” হয়তো সমস্ত উন্নয়নের মধ্যে সবচেয়ে গুরুত্বপূর্ণ।

এটি একটি দীর্ঘ লেখা, যা শুরু থেকে শুরু করে প্রতিটি বড় পরিবর্তনের কথা ধাপে ধাপে বর্ণনা করবে এবং শেষ পর্যন্ত বর্তমান পর্যায়ে পৌঁছাবে: রোবটগুলি শুধুমাত্র বিশ্বের প্রতিক্রিয়া দিতে পারে না, বরং বিশ্বকে কল্পনা করতেও পারে।

এক: পূর্ব এলএলএম যুগ: যখন রোবটগুলি শুধুমাত্র সফটওয়্যার ছিল

বহু দশক ধরে রোবট তৈরি করা অর্থ ছিল অসংখ্য কোড লেখা, এবং এই কোডের প্রায় সবকিছুই শেখার প্রয়োজন হয়নি।

শিল্প রোবটের ক্লাসিক ডিজাইন হল পরিকল্পিত মডিউলগুলির একটি স্তূপযুক্ত গঠন। উদাহরণস্বরূপ, ১৯৯০-এর দশকে টয়োটার চেসিস জুড়ে দেওয়া কমলা রঙের রোবটিক বাহু, বা ২০০০-এর দশকের শুরুতে বস্টন ডাইনামিক্সের BigDog।

অনুভূতি: ক্যামেরা ছবি ফিল্টার করে প্রান্ত শনাক্তকরণ করা হয়, জ্যামিতিক মেলানোর মাধ্যমে কাজের অবস্থান চিহ্নিত করা হয়।
অনুমানিত অবস্থা: রোবটের অবস্থান এবং গতি নির্ধারণের জন্য চাকার এনকোডার, জাইরোস্কোপ এবং ত্বরণমিত্র (সেন্সর ফিউশন) একত্রিত করা।
প্ল্যানিং: পরিচিত ম্যাপে একটি অ-সংঘর্ষপূর্ণ পথ গণনা করুন, যেমন A* বা RRT অ্যালগরিদম ব্যবহার করে প্রদত্ত লক্ষ্য পোজিশনের জন্য।
নিয়ন্ত্রণ: সবচেয়ে নিচের স্তরে, PID নিয়ন্ত্রক প্রতি সেকেন্ডে শত শত বার মোটর টর্ক সামঞ্জস্য করে এই পথটি অনুসরণ করে।

এই স্তরগুলি সাধারণত বিভিন্ন পরীক্ষাগারের বিভিন্ন কর্মচারীদ্বারা লেখা হয় এবং অত্যন্ত সূক্ষ্মভাবে সংযুক্ত করা হয়। আচরণ (যেমন “যদি কাপটি লাল হয় তবে তা তুলুন, অন্যথায় অপেক্ষা করুন”) অবস্থা মেশিন বা বিহেভিয়ার ট্রি হিসাবে কোডিত হয়: অর্থাৎ রোবট ধাপে ধাপে সম্পাদন করে এমন প্রবাহচিত্র।

হিউমানয়েড রোবট

এই পদ্ধতির সুবিধাগুলি স্পষ্ট। এটি পূর্বানুমানযোগ্য এবং নিরাপত্তা মানদণ্ডের সাথে সঙ্গতিপূর্ণ। এই কারণেই আপনার গাড়িতে কার্যকরী ABS ব্রেক সিস্টেম রয়েছে।

অসুবিধাগুলি সমানভাবে স্পষ্ট। এই রোবটগুলি শুধুমাত্র ইঞ্জিনিয়ারদের কল্পনা করা পরিস্থিতিতেই তাদের বুদ্ধিমত্তা প্রদর্শন করতে পারে। এটিকে নতুন কারখানায়, নতুন আলোর অবস্থায় বা নতুন কাপের রংয়ে রাখলে এটি ব্যর্থ হয়ে যায়। এর সাধারণীকরণের ক্ষমতা প্রায় শূন্য।

দ্বিতীয়: মেশিন লার্নিং চুপিচুপি প্রবেশ করছে

2010 এর দশকে, ডিপ লার্নিং পারসেপশন লেয়ারের সমস্যাগুলি সমাধান শুরু করে। ImageNet ইমেজ ক্লাসিফিকেশন টাস্কে মানুষকে পরাজিত করা কনভলুশনাল নিউরাল নেটওয়ার্ক (CNN) গুলিকে পুনর্প্রশিক্ষিত করা যেতে পারে, যাতে বস্তুর গ্রিপ পয়েন্টগুলি শনাক্ত করা, রুমের মধ্যে ফার্নিচারগুলি সেগমেন্ট করা, বা মানুষের পোজ চিহ্নিত করা যায়। হঠাৎ করে, টেকনোলজি স্ট্যাকের শীর্ষে অবস্থিত "পারসেপশন" লেয়ারটি ম্যানুয়ালি ডিজাইন করার প্রয়োজনীয়তা বিলুপ্ত হয়ে যায়, আপনি এটির প্রশিক্ষণ সরাসরি দিতে পারেন।

তারপর, শিক্ষার প্রক্রিয়াটি "নিয়ন্ত্রণ" স্তরে ছড়িয়ে পড়ে। বার্কলে, ডিপমাইন্ড এবং ওপেনএআই-এর গবেষকরা দেখিয়েছেন যে রিইনফোর্সমেন্ট লার্নিং (যা রোবট এজেন্টগুলিকে সিমুলেশন পরিবেশে মিলিয়ন বার চেষ্টা করতে এবং কার্যকরী আচরণগুলিকে শক্তিশালী করতে সহায়তা করে) অসাধারণভাবে দক্ষ পদচারণা, হাতের বস্তু পরিচালনা (ওপেনএআই ২০১৯-এ একটি হাতে রুবিক্স কিউব সমাধান করা একটি মাইলফলক ছিল) এবং বিভিন্ন ভূমির সাথে খাপ খাইয়ে নেওয়ার জন্য গতির কৌশল উৎপন্ন করতে পারে।

একটি সমান্তরাল গবেষণা দিক হল অনুকরণ শিক্ষা, যাকে সাধারণত আচরণ ক্লোনিং বলা হয়: মানুষের দ্বারা রোবটকে নিয়ন্ত্রণ করে কোনো কাজ সম্পন্ন করার শত শত চেষ্টা রেকর্ড করা হয়, এবং তারপর নিউরাল নেটওয়ার্ককে প্রশিক্ষণ দেওয়া হয় যাতে রোবট যা দেখছে তার ভিত্তিতে মানুষ কী করতে পারে তা পূর্বাভাস দিতে পারে।

এর মূল বিষয় হল: প্রতিটি শেখা কৌশল অত্যন্ত সংকীর্ণ। একটি নেটওয়ার্ককে একটি লাল ব্লক তোলার জন্য প্রশিক্ষণ দিলে, এটি একটি হলুদ কাপ পরিচালনা করতে পারবে না। এটিকে ঘাসের উপর হাঁটানোর জন্য প্রশিক্ষণ দিলে, এটি টাইলসের উপরে পড়ে যাবে। সাধারণীকরণের ক্ষমতা এখনও একটি গুরুতর সমস্যা।

উল্লেখযোগ্য যে, এই সময়ে একটি ইনফ্রাস্ট্রাকচার তৈরি হয়েছিল যা আজও প্রায় সবকিছুকে সমর্থন করে: ROS, রোবট অপারেটিং সিস্টেম (প্রথম প্রকাশ ২০০৭ সালের নভেম্বরে)। ROS হল Windows বা Linux-এর মতো অপারেটিং সিস্টেম নয়, বরং একটি মিডলওয়্যার ফ্রেমওয়ার্ক, একটি সাধারণ রোবট পাইপলাইন সিস্টেম। এটি "ক্যামেরা নোড", "নেভিগেশন নোড", "মেকানিক্যাল আর্ম কন্ট্রোলার নোড" এবং অন্যান্য দরজার দশগুণ নোডকে শেয়ারড বাসের মাধ্যমে বার্তা প্রকাশ এবং সাবস্ক্রাইব করতে দেয়।

বর্তমান সংস্করণ ROS2 গ্লোবালভাবে বিশাল সংখ্যক গবেষণাগত এবং বাণিজ্যিক রোবোটের নীচের স্তরে চলছে, স্ট্যানফোর্ড বিশ্ববিদ্যালয়ের ল্যাব থেকে শুরু করে চীনের মানবাকৃতির রোবোট স্টার্টআপ পর্যন্ত। মানুষ যখন রোবোটের “অপারেটিং সিস্টেম” কথা বলে, তখন প্রায়শই ROS2 এবং এর উপরে চলমান বিভিন্ন সেন্সর, প্ল্যানিং এবং কন্ট্রোল সফটওয়্যার প্যাকেজগুলিকেই বোঝায়।

হিউমানয়েড রোবট

ROS2: এটি একটি অপারেটিং সিস্টেম নয়, বরং এটি স্বাধীন রোবোট সফটওয়্যারগুলিকে পরস্পরের সাথে যোগাযোগ করতে সক্ষম করে এমন একটি সাধারণ পাইপলাইন।

তিন: রোবোটিক্স ক্ষেত্রে LLM-এর প্রয়োগ

তারপর ChatGPT জন্ম নেয়।

হঠাৎ করে একটি জিনিস এলো: LLM। এটি সহজ ইংরেজি নির্দেশ পড়তে পারে, একাধিক ধাপের যুক্তি প্রয়োগ করতে পারে, কোড লিখতে পারে এবং ফাংশন কল করতে পারে। রোবোটিক্স বিশেষজ্ঞরা প্রায় তৎক্ষণাৎ বুঝতে পারলেন যে, এটিই তাদের বছরখানেক ধরে চেষ্টা করেও পাওয়া যায়নি হারানো কানেকশন। ঘর বা অফিসে রোবোটকে কিছু কাজের জন্য ব্যবহার করার সবচেয়ে কঠিন অংশটি সাধারণত মোটর নিয়ন্ত্রণ নয়, বরং মানুষ-রোবোট ইন্টারঅ্যাকশন: মানুষ কীভাবে রোবোটকে বলবেন যে কী করতে হবে, এবং রোবোটটি কীভাবে এই লক্ষ্যটিকে তাৎক্ষণিকভাবে সম্পন্ন করার জন্য তাৎক্ষণিকভাবে বিভক্ত করবে?

রোবটে LLM প্রয়োগের প্রথম প্রচেষ্টা ছিল ভাষাগত মডেলকে ROS-এর উপরে একটি প্রাকৃতিক ভাষা কম্পাইলার হিসেবে বিবেচনা করা। প্যাটার্নটি হল:

কিচেন কাউন্টারের উপরের কফি মগটি নিয়ে আসুন এবং আমার টেবিলে রাখুন।
LLM রোবটের উপলব্ধ পরম দক্ষতার তালিকা অনুযায়ী পরিকল্পনা তৈরি করে: ফাংশন কলের সিকোয়েন্স, স্টেট মেশিন, বা XML-এ লেখা বিহেভিয়ার ট্রি হতে পারে।
ROS2 নোডটি এই পরিকল্পনা ধাপে ধাপে বাস্তবায়ন করবে। যদি কোনো ধাপ ব্যর্থ হয়, তবে ব্যর্থতার তথ্য LLM-এর কাছে প্রেরণ করা হবে, যাতে LLM পুনরায় পরিকল্পনা করতে পারে।

গুগলের 2022 সালের SayCan প্রকল্প এই ধারণার একটি খুব সংক্ষিপ্ত সংস্করণ: LLM দক্ষতা প্রস্তাব করে, একটি স্বাধীন “সম্ভাব্যতা” মডেল প্রতিটি দক্ষতার বর্তমান সফলতার সম্ভাবনা মূল্যায়ন করে, এবং রোবট সংযুক্ত স্কোরের সর্বোচ্চ দক্ষতা সমষ্টি নির্বাচন করে। হুয়াওয়ে গবেষণা প্রজেক্টের নেতৃত্বে ROS-LLM, ROSGPT এবং ROSA এর মতো ওপেন ফ্রেমওয়ার্কগুলি এই মডেলটি প্রচার করেছে।

এটি একটি প্রকৃত বড় পদক্ষেপ। হঠাৎ করেই, আপনি রোবটকে বলতে পারবেন “টেবিল পরিষ্কার করুন, পুনর্ব্যবহারযোগ্য জিনিসগুলি নীল কুঁজে রাখুন”, এবং এটি কিছু যুক্তিসঙ্গত কাজ করার চেষ্টা করবে। তবে মনে রাখবেন, এখনও কিছু সমস্যা রয়েছে: ভাষা মডেলটি এখনও পরিকল্পনা স্তরে। বাস্তব ক্রিয়ার নির্দেশগুলি এখনও নিম্নস্তরের, সূক্ষ্মভাবে ডিজাইনকৃত বা বিশেষভাবে প্রশিক্ষিত নিয়ন্ত্রকগুলি দ্বারা উত্পন্ন হয়। ভাষা মডেলটি শুধুমাত্র একটি বুদ্ধিমান সমন্বয়ক, এটি চালনা করে না।

হিউমানয়েড রোবট

চারঃ ভিজুয়াল-ল্যাঙ্গুয়েজ-অ্যাকশন মডেল (VLA), যখন মস্তিষ্ক রোবটকে চালানো শুরু করে

হিউমানয়েড রোবট

কিনন XMAN-R1 রোবট বেইজিংয়ের গালবট কোম্পানির অটোমেশনযুক্ত ওষুধের দোকান থেকে ওষুধ তুলছে। শুধুমাত্র 10 হাজার ডলারে

পরবর্তী প্রতিটি লাফ আরও কঠিন এবং গুরুত্বপূর্ণ হবে। গবেষকরা একটি আরও আকাঙ্ক্ষী প্রশ্ন তুলেছেন: যদি মডেলটি শুধু পরিকল্পনা করতে পারে না, বরং সরাসরি অ্যাকশন নির্দেশ তৈরি করতে পারে? যদি ক্যামেরা ছবি এবং ভাষাগত নির্দেশনা সরাসরি একটি নিউরাল নেটওয়ার্কে ইনপুট দেওয়া হয়, তাহলে কি পরবর্তী মিলিসেকেন্ডের জয়েন্ট মোশন পাওয়া যাবে?

এটি হল ভিজুয়াল-ল্যাঙ্গুয়েজ-অ্যাকশন মডেল (VLA)। এটি এখন মানবাকৃতি এবং চারপা রোবোটের ক্ষেত্রে প্রচলিত প্যারাডাইম।

২০২৩ সালে গুগল ডিপমাইন দ্বারা চালু করা আরটি-২ হল প্রথম প্রচলিত ভিজুয়াল ল্যাঙ্গুয়েজ রোবট। এর প্রতিভা হল: একটি বড় ভিজুয়াল ল্যাঙ্গুয়েজ মডেল (যা চিত্র বর্ণনা এবং প্রশ্ন-উত্তরের জন্য প্রশিক্ষিত) ব্যবহার করা এবং রোবট প্রদর্শন ডেটা দিয়ে এটি আরও প্রশিক্ষিত করা, কিন্তু রোবট কার্যকলাপগুলিকে অন্য একটি পূর্বানুমানযোগ্য টোকেন হিসাবে বিবেচনা করা। একই নিউরাল নেটওয়ার্কটি আগে “বিড়ালটি ম্যাটের উপরে বসেছে” আউটপুট দিত, এখন এটি “ডান পা ৩ সেন্টিমিটার এগিয়ে নিয়ে, পা বন্ধ করে, ৫ সেন্টিমিটার উপরে তোলা”-এর মতো টোকেনের একটি সিরিজ আউটপুট দিতে পারে। উপসংহার এবং কার্যকলাপ একই মডেলেই সম্পন্ন হয়।

পরে, 2024 এর মধ্যভাগে, স্ট্যানফোর্ড বিশ্ববিদ্যালয়ের নেতৃত্বে একটি দল ওপেনভিএলএ প্রকাশ করে, যা 70 বিলিয়ন প্যারামিটারযুক্ত একটি ওপেন-সোর্স ভিএলএ মডেল, যা ওপেন এক্স-এমবডিমেন্ট ডেটাসেটের উপর প্রশিক্ষিত। এই ডেটাসেটটি 21টি ভিন্ন গবেষণা প্রতিষ্ঠান থেকে 22টি ভিন্ন রোবট বডির একদশলক্ষেরও বেশি প্রশিক্ষণ অংশ একত্রিত করে। এটি ছিল গুগলের বাইরের কোনও ব্যক্তির জন্য প্রথমবারের মতো সাধারণ রোবট মডেল ডাউনলোড করা এবং পরিবর্তন শুরু করার সুযোগ। এটি একই রাতেই সমগ্র ক্ষেত্রটিকে পরিবর্তন করে দেয়।

বর্তমানে, শীর্ষস্থানীয় VLA গুলি যদিও সংখ্যায় কম, তবুও দ্রুত বিকাশ লাভ করছে:

Physical Intelligence থেকে π0 এবং π0.5: উত্তম কাজের অভিযোজন।
NVIDIA Isaac GR00T N1.7: ওপেন ওয়েট, বাণিজ্যিক লাইসেন্স, মানবাকৃতি রোবটের জন্য ডিজাইন করা, যা চীনা হার্ডওয়্যার কোম্পানিগুলির বেশিরভাগই বর্তমানে তাদের নিজস্ব ডেটা ব্যবহার করে পোস্ট-ট্রেনিংয়ের জন্য ব্যবহার করছে।
ফিগার এআই-এর হেলিক্স এবং আপডেট হেলিক্স-02: সম্পত্তি প্রযুক্তি, কিন্তু আর্কিটেকচারে গুরুত্বপূর্ণ।
AgiBot-এর Genie Envisioner: চীনা ওয়ার্ল্ড মডেল ভিত্তিক প্ল্যাটফর্ম।
SmolVLA, NORA, ACoT-VLA, CogACT: শিক্ষাগত জগতে বিভিন্ন ডিজাইন দিকে অগ্রসর হওয়া বেশি বেশি VLA দেখা যাচ্ছে।

VLA কিভাবে কাজ করে (গাণিতিক সূত্র ছাড়া)

ভিএলএকে তিনটি ইনপুট সংকেতকে একটি আউটপুট সংকেতে একীভূত করার মতো কল্পনা করুন।

প্রথম ডেটা স্ট্রিমটি দৃশ্যমান ডেটা। RGB ক্যামেরা (কখনও কখনও ডিপথ সেন্সর বা লিডার), কখনও কখনও আঙুলের শীর্ষের স্পর্শ সেন্সর, যা দৃশ্য এনকোডার (সাধারণত DINOv2 বা SigLIP-এর মতো Transformer মডেল) দ্বারা প্রক্রিয়াকৃত হয়, যা প্রতিটি ছবিকে কয়েকশো “দৃশ্য টোকেন”-এ সংকুচিত করে, যা রোবটের দেখা বিষয়গুলির সারাংশ দেয়।

দ্বিতীয় ডেটা স্ট্রিম হল ভাষা। আপনার নির্দেশ (“স্ক্রুড্রাইভারটি আমাকে দিন”) চ্যাটজিপিটির মতো টোকেনে রূপান্তরিত হয়।

এই দুটি ডেটা স্ট্রিম সংযুক্ত করা হয় এবং একটি ট্রান্সফরমার “ব্যাকবোন”-এ (সাধারণত Qwen3 বা Llama এর মতো একটি ছোট ওপেন-সোর্স ভাষা মডেল) প্রবেশ করানো হয়। এই ব্যাকবোনটি যুক্তি প্রয়োগ করে, এটি যা দেখে তা এবং যা এটিকে জিজ্ঞাসা করা হয়েছে তার সংমিশ্রণ ঘটায়।

তৃতীয় ডেটা স্ট্রিম: কার্যক্রম, অন্য প্রান্ত থেকে প্রবাহিত হয়। এখানে বিভিন্ন আর্কিটেকচার ডিজাইন বিভিন্ন পথ অনুসরণ করে:

ডিসক্রিট অ্যাকশন টোকেন: মডেলটি সরাসরি জয়েন্ট কোণ বা এন্ড এফেক্টর অবস্থানে ডিকোড করা যায় এমন টোকেন তৈরি করে, যেমন ChatGPT শব্দ তৈরি করে। এই পদ্ধতিটি সহজ, তবে উচ্চ ফ্রিকোয়েন্সিতে চলার সময় ঝাপসা হয়ে যায়।
ডিফিউজন বা ফ্লো-ম্যাচিং অ্যাকশন হেড: একটি স্বতন্ত্র মাইক্রো নেটওয়ার্ক মূল আউটপুট গ্রহণ করে এবং একটি স্মুথ জয়েন্ট পজিশন ট্রাজেক্টরি জেনারেট করে, যেমন ইমেজ ডিফিউজন মডেল, শুধুমাত্র এখানে মোশন জেনারেট করা হয়। এটিই π0-এর পদ্ধতি, যা আরও স্মুথ এবং প্রাকৃতিক অ্যাকশন উৎপাদন করে।
অ্যাকশন ব্লকিং: পরবর্তী একটি একক নির্দেশনা ভবিষ্যদ্বাণী না করে, পরবর্তী অর্ধ সেকেন্ডের নির্দেশনা সেট একসাথে ভবিষ্যদ্বাণী করা হয়, যাতে কম্পন মসৃণ হয়।

হিউমানয়েড রোবট

VLA মডেলে: দুটি ইনপুট স্ট্রিম প্রবেশ করে, চলাচল নির্দেশনা আউটপুট হিসাবে প্রদান করা হয়, যেখানে যুক্তি এবং কার্যক্রম একটি নেটওয়ার্কে একীভূত হয়।

এটিই সম্পূর্ণ গুরুত্বপূর্ণ আর্কিটেকচারাল পরিবর্তন: যুক্তি এবং ক্রিয়া আর পৃথক নয়। নিউরাল নেটওয়ার্ককে কাপটি চিনতে শেখানোর সাথে সাথে এটিকে কাপটি ধরারও শেখানো হয়েছে। এই সংযোগই VLA-কে সাধারণীকরণের অনুমতি দেয়, যা তাদের পূর্বসূরিরা করতে পারেনি।

পাঁচ: ডুয়াল-ব্রেন স্ট্র্যাটেজি, LLM এবং VLA কীভাবে সমন্বিতভাবে কাজ করে

এটি একটি বিস্তারিত যা মার্কেটিংয়ে প্রায় কখনই ব্যাখ্যা করা হয় না। বর্তমানে সর্বোত্তম পারফরম্যান্স সম্পন্ন মানবাকৃতির রোবটগুলি একটি একক VLA সিস্টেম চালায় না, বরং দুটি ভিন্ন গতির মডেল চালায় যা পরস্পরের সাথে যোগাযোগ করে। এটিকে কখনও কখনও ড্যানিয়েল কাহনেম্যানের মনোবিজ্ঞানের কাঠামোর অনুসরণে ডুয়াল-সিস্টেম বা সিস্টেম 1 / সিস্টেম 2 আর্কিটেকচার বলা হয়, যা মনে করে মানুষের একটি দ্রুত সহজাত মস্তিষ্ক এবং একটি ধীরগতির, গভীরভাবে চিন্তাশীল চিন্তার মস্তিষ্ক রয়েছে।

ফিগার এআই-এর হেলিক্স এই ডিজাইনকে ক্লাসিক করে তুলেছে, এখন এটি (এবং এর ভ্যারিয়েন্টগুলি) প্রায় সব জায়গায় অনুসরণ করা হচ্ছে। বিশেষ করে, NVIDIA-এর GR00T N1.7 এই ডিজাইনটি গ্রহণ করেছে, এবং বেশিরভাগ চীনা মানবাকৃতির রোবটও এই ডিজাইনটি গ্রহণ করেছে। এর কাঠামো নিম্নরূপ:

সিস্টেম 2 (S2): ধীর চিন্তার মস্তিষ্ক। 70 বিলিয়ন প্যারামিটার সহ একটি ভিজুয়াল-ল্যাঙ্গুয়েজ মডেল, যা প্রায় 7–9 হার্টজ (প্রতি সেকেন্ডে 7 থেকে 9 বার) ফ্রিক�োয়েন্সিতে চলে। এর কাজ হল দৃশ্যগুলি পর্যবেক্ষণ করা, নির্দেশাবলী বিশ্লেষণ করা, বহু-পদক্ষেপের যুক্তি প্রয়োগ করা (যেমন, “বাটি সিয়ারিয়াল বক্সের পিছনে; আমাকে প্রথমে বক্সটি সরাতে হবে”), এবং উচ্চ-স্তরের ইচ্ছা প্রকাশ করা—যা সাধারণত শব্দগুলির পরিবর্তে একটি সংক্ষিপ্ত অভ্যন্তরীণ ভেক্টরের সেট।
সিস্টেম 1 (S1): দ্রুত প্রতিক্রিয়া মস্তিষ্ক। একটি অনেক ছোট (প্রায় 80 মিলিয়ন প্যারামিটার) ভিজুয়াল-মোটর স্ট্র্যাটেজি মডেল, 200 হার্টজ ফ্রিক�োয়েন্সিতে চলে। এটি S2-এর ইচ্ছা ভেক্টর এবং সর্বশেষ সেন্সর ডেটা গ্রহণ করে, কনটিনিউয়াস জয়েন্ট নির্দেশ আউটপুট করে। এটি কোনও বাস্তব অর্থে “চিন্তা” করে না, শুধু প্রতিক্রিয়া জানায়।

সাম্প্রতিক সময়ে, Figure কোম্পানির Helix-02 একটি সিস্টেম 0 (System 0) যোগ করেছে। এটি ডুয়াল-ব্রেইন সিস্টেমের নিচে অবস্থিত, একটি রিফ্লেক্সিভ লেয়ার, যা তৃতীয় জ্ঞানীয় লেয়ার নয়। এটি একটি 10 মিলিয়ন প্যারামিটারযুক্ত, 1 kHz ফ্রিকোয়েন্সিতে চলমান নেটওয়ার্ক, যা ভিত্তিগত ভারসাম্য এবং সমগ্র শরীরের সমন্বয় পরিচালনা করে, যা এক লক্ষেরও বেশি লাইনের হাতে লেখা মোশন কন্ট্রোল C++ কোডকে প্রতিস্থাপন করে। আপনি S0-কে একটি শিক্ষিত স্পাইনাল কর্ড হিসাবে কল্পনা করতে পারেন: এটি যুক্তি বা পরিকল্পনা করে না, শুধুমাত্র শরীরকে সোজা রাখা এবং সমন্বিত রাখা দায়িত্বপ্রাপ্ত, যখন চিন্তা-ভাবনা উপরের ডুয়াল-ব্রেইন সিস্টেমের দায়িত্ব।

হিউমানয়েড রোবট

আধুনিক মানবাকৃতি রোবটের দ্বৈত মস্তিষ্ক আর্কিটেকচার: সিস্টেম 2 ধীরে চিন্তা করে, সিস্টেম 1 দ্রুত প্রতিক্রিয়া জানায়—এর নিচে একটি সিস্টেম 0 রিফ্লেক্স লেয়ার রয়েছে যা ভারসাম্য, স্পর্শ সংযোগ এবং সমগ্র শরীরের সমন্বয় বজায় রাখে

এই বিভাজনটি পদার্থবিদ্যার সীমাবদ্ধতার কারণে ঘটেছে। যদি প্রতি 200 মিলিসেকেন্ডে (এটি একটি বড় VLA-এর কার্যক্ষমতা) একবার মোশন কমান্ড প্রেরণ করা হয়, তাহলে রোবটের গতিপথ জলের নিচে চলার মতো ধীর হয়ে যাবে। মোশন কমান্ডের আপডেট হওয়ার হার এটি নিয়ন্ত্রণ করা জয়েন্টের প্রাকৃতিক কম্পনের চেয়ে দ্রুত হতে হবে, যার অর্থ প্রতি সেকেন্ডে শত শত বা হাজার হাজার আপডেটের প্রয়োজন। 70 বিলিয়ন প্যারামিটারযুক্ত কোনো Transformer মডেলই ব্যাটারি-চালিত রোবটে এতদূর দ্রুত চলবে না।

অতএব, চিন্তার জন্য বড় এবং ধীর মডেল এবং কার্যের জন্য ছোট এবং দ্রুত মডেলের মধ্যে কাজের বিভাজন হয়েছে: ধীর মডেল বিমূর্ত লক্ষ্য প্রেরণ করে, এবং দ্রুত মডেল জানে এটিকে কীভাবে ব্যাখ্যা করতে হয়।

ছয়: ক্লাউড, এজ কম্পিউটিং এবং “মস্তিষ্ক” স্থাপনের সমস্যা

এই সমস্ত গণনা কোথায় করা হয়?

এখন, রোবট দলগুলির মধ্যে প্রায় একটি শক্তিশালী, প্রায় আদর্শগত সমঝোতা গড়ে উঠেছে যে নিরাপত্তার জন্য অপরিহার্য কোর কন্ট্রোল লুপগুলি স্থানীয়ভাবে চলতে হবে। দুটি কারণে:

ল্যাটেন্সি। ওয়াই-ফাই বা সেলুলার নেটওয়ার্কের রাউন্ড-ট্রিপ ট্রান্সমিশন সময় সর্বোচ্চ ৩০-৮০ মিলিসেকেন্ড। এবং অ্যাকশন কমান্ডগুলি প্রতি ১-৫ মিলিসেকেন্ডে আপডেট করা প্রয়োজন। এই নেটওয়ার্ক সাইকেলটি সম্পূর্ণরূপে কাজ করবে না।

বিশ্বস্ততা। রোবটগুলি কারখানা, গুদাম, রান্নাঘর, হাসপাতাল ইত্যাদি স্থানে কাজ করে। নেটওয়ার্ক যেকোনো সময় কাটতে পারে। যদি Wi-Fi বন্ধ হয়ে যাওয়ার সাথে সাথে রোবটটি বন্ধ হয়ে যায়, তবে এটি একটি নিরাপত্তা ঝুঁকি হয়ে উঠবে।

সুতরাং, আধুনিক বিভাজনটি প্রায় এরকম:

স্থানীয়ভাবে বোর্ডে চলছে, NVIDIA Jetson Thor বা AGX Thor মডিউল (প্রায় 2,000 TFLOPS, 128 GB মেমোরি, 40–130 W শক্তি খরচ) এর মতো ডিভাইসে:

S0/S1-এর সমস্ত ফিচার: ভারসাম্য, গতি, সূক্ষ্ম হাতের নিয়ন্ত্রণ।
VLA নিজেই (সিস্টেম 2), হার্ডওয়্যার সীমাবদ্ধতার জন্য, বারবার FP8 বা FP4 ফরম্যাটে কোয়ান্টাইজড হচ্ছে। আজকাল 2 বিলিয়ন থেকে 7 বিলিয়ন প্যারামিটার সহ মডেলগুলি ডিভাইসে চলছে।
感知, সেন্সর ফিউশন, এবং যে কোনও অন্যান্য অপারেশনকে কভার করতে পারে এমন সিকিউরিটি মনিটরিং প্রোগ্রাম।

ক্লাউড বা রিমোট সার্ভার (যদি থাকে):

কথোপকথন ইন্টারফেস ("হেই, রোবট, আমি আজ রাতের খাবার কী খাব?"): এই ইন্টারফেসগুলি বিলম্বকে সহ্য করতে পারে।
ক্লাস্টার লার্নিং: হাজার হাজার রোবট ডেটা রিমোটলি সার্ভারে পাঠায় যাতে পরবর্তী ভার্সন মডেলে সংকলন করা যায়।
বড় পরিসরের দীর্ঘমেয়াদী পরিকল্পনা প্রয়োজন, যা অগ্রগামী স্কেল মডেল ব্যবহার করতে পারে।
অপারেটর ড্যাশবোর্ড এবং মনিটরিং।

এছাড়াও, একটি ক্রমাগত বৃদ্ধিপ্রাপ্ত মধ্যবর্তী স্তর রয়েছে: কারখানা বা গুদামে অবস্থিত স্থানীয় এজেন্ট সার্ভার, যেগুলি স্থানীয় নেটওয়ার্কের মাধ্যমে রোবট ক্লাস্টারের সাথে যোগাযোগ করে, যার ল্যাটেন্সি কেবলমাত্র একক মিলিসেকেন্ডের পরিসরে। বড় LLM-গুলি সম্ভবত এই স্তরে ডিপ্লয় করা হয়, যেখানে একটি একক রোবটের জন্য নিজেকে ব্যস্ত না করেই উন্নত শিডিউলিং টাস্কগুলি পরিচালনা করা হয়।

চীনের মানবাকৃতি রোবটের ঢেউ এই ধারণার উপর ভিত্তি করে গড়ে উঠেছে: ইউনিট্রি (Unitree), জিজিয়ান (AgiBot), শাওপেং IRON, ফুলি (Fourier), জুজি ডাইনামিক্স (EngineAI)। তাদের রোবটগুলিতে বোর্ড-মাউন্টেড কম্পিউটিং ক্ষমতা (সাধারণত Jetson, কখনও কখনও হুয়াওয়ে Ascend এর মতো দেশীয় চিপ) রয়েছে, যখন ক্লাউডটি কন্ট্রোল লুপের জন্য নয়, বরং ক্লাস্টার লার্নিং এবং ডায়ালগ ইন্টারফেসের জন্য ব্যবহৃত হয়।

হিউমানয়েড রোবট

বট মস্তিষ্কের বাস্তব চলাচলের স্থান: নিরাপত্তা-গুরুত্বপূর্ণ লুপ স্থানীয়ভাবে চলে, ক্লাউড শুধুমাত্র অপেক্ষা করা যায় এমন কাজগুলির জন্য ব্যবহৃত হয়

সাত: কেন ওপেন সোর্স মডেলগুলি চুপচাপ ফোকাসে আসছে

শুধু ডেমো দেখলে আপনি মনে করতে পারেন যে এই ক্ষেত্রটি কয়েকটি সমৃদ্ধ মার্কিন কোম্পানি দ্বারা নিয়ন্ত্রিত। কিন্তু বাস্তবতা এটির চেয়ে অনেক জটিল। ভৌত AI-এর বিকাশের গতি প্রায়শই যে ওপেন-সোর্স ওয়েট মডেলগুলি যেকোনো কেউ ডাউনলোড এবং ফাইন-টিউন করতে পারে, তার উপর নির্ভর করে।

যদিও এই মডেলগুলির সংখ্যা কম, তবে এগুলির গুরুত্ব অপরিসীম:

OpenVLA (স্ট্যানফোর্ড বিশ্ববিদ্যালয়): প্রথম ওপেন-সোর্স 7B জেনারেল রোবট মডেল।
NVIDIA Isaac GR00T (N1, N1.5, N1.7): ওপেন-সোর্স ওয়েট আসন্ন, বাণিজ্যিক লাইসেন্সও আসন্ন; এই মডেলটি হাজার হাজার ঘন্টার মানুষের স্ব-কেন্দ্রিক ভিডিওর উপর প্রশিক্ষিত। GR00T N1.7 2026 সালের মার্চে প্রকাশিত হবে, যখন যেকোনো মানবাকৃতি রোবট মালিক তাদের ডুয়াল-সিস্টেম আর্কিটেকচারটি বিনামূল্যে ব্যবহার করতে পারবেন।
Physical Intelligence-এর π0: গবেষণার জন্য ওজন প্রকাশ।
NVIDIA Cosmos: ওপেন ওয়ার্ল্ড বেসিক মডেল।
AgiBot World: শাংহাই ভিত্তিক স্টার্টআপ কোম্পানি থেকে আসা একটি বৃহৎ ওপেন-সোর্স ডেটাসেট, যাতে রিমোট-কন্ট্রোলড হিউমানয়েড রোবটের ডেমো অন্তর্ভুক্ত রয়েছে।
হাগিং ফেসের লিরোবট: একটি খোলা লাইব্রেরি, যা উপরের সমস্ত প্ল্যাটফর্মের সংগমস্থল হয়ে উঠেছে।
Mimic robotics-এর mimic-video: একটি ওপেন-সোর্স ভিডিও-অ্যাকশন মডেল, যার নমুনা দক্ষতা প্রচলিত VLA-এর চেয়ে 10 গুণ বেশি।

এটি গুরুত্বপূর্ণ দুটি কারণে। প্রথমত, রোবট স্টার্টআপগুলিকে একটি বেস মডেল প্রি-ট্রেন করতে কোটি কোটি ডলার খরচ করার দরকার নেই: তারা GR00T বা π0 নিয়ে নিজেদের রোবটের ডেটা দিয়ে পোস্ট-ট্রেন করতে পারে। ইউশু, জিয়াজি পাওয়ার, বুস্টার, গ্যালবট এবং দশকগুলিরও বেশি ছোট চীনা কোম্পানিগুলি এটিই করছে। এইজন্যই শুধুমাত্র কয়েকশো কর্মচারী সহ একটি কোম্পানি হাঁটা, কথা বলা এবং পোশাক গোছানোর মতো মানবাকৃতির রোবট তৈরি করতে পারে: তারা ওপেন-সোর্স টেকস্ট্যাকের কাঁধের উপর দাঁড়িয়েছে।

দ্বিতীয়ত, ওপেন-সোর্স মডেলই নিরাপত্তা সমস্যার একমাত্র বাস্তবসম্মত সমাধান। যদি একটি সম্পূর্ণ বন্ধ সোর্স মডেল কোনও ফ্যাক্টরি শপের রোবটের মধ্যে চলে, এবং বাইরের কেউ এর ইনফারেন্স লজিকের প্রতি কোনও দৃষ্টি রাখতে পারে না, তবে এটি অবশ্যই একটি নিয়ন্ত্রণের স্বপ্নভঙ্গ। ওপেন-সোর্স মডেলগুলি অডিটর, গবেষক এবং অপারেটরদের প্রকৃতপক্ষে রোবটটিকে কীভাবে প্রশিক্ষণ দেওয়া হয়েছে তা পরীক্ষা করতে দেয়।

৮: এখনও কোন সমস্যা সমাধান করা হয়নি

যদি আপনি যথেষ্ট সংখ্যক রোবট ডেমো ভিডিও দেখেন, তাহলে আপনি অনেক রোবট ব্যর্থতার ভিডিওও দেখেছেন নিশ্চয়। বর্তমান প্রজন্মের LLM+VLA রোবট প্রকৃতপক্ষে অসাধারণ মনে হয়, কিন্তু এগুলির স্পষ্ট সীমাবদ্ধতা রয়েছে। এখানে এর সমস্যাগুলি:

কাজ মধ্যে পুনরায় শুরু করুন। VLA আগের যেকোনো প্রযুক্তির চেয়ে অপ্রত্যাশিত পরিবর্তনের সাথে মানিয়ে নেওয়ার ক্ষমতা বেশি। কিন্তু যখন কিছু প্রকৃতপক্ষে ভুল হয় (যেমন ধরা ব্যর্থ হওয়া, বস্তু ঘুরে যাওয়া, কেউ কাজের ক্ষেত্রে ঢুকে পড়া), তখন পুনরায় পথে ফিরে আসা এখনও দুর্বল। রোবটটি অসফল কাজগুলি অন্ধভাবে পুনরাবৃত্তি করবে।
নমুনা দক্ষতা। একটি ভিএলএ শূন্য থেকে প্রশিক্ষণ দিতে হলে হাজার হাজার ঘন্টার রিমোট অপারেশন ডেটা প্রয়োজন। কিন্তু মানুষ কয়েক মিনিটেই একটি নতুন টুল ব্যবহার করা শিখে ফেলে। এই দক্ষতার পার্থক্য অত্যন্ত বড়।
সামগ্রিক সাধারণীকরণ। স্ট্যানফোর্ড ল্যাবে ফ্রাঙ্কা রোবটিক আর্ম ব্যবহার করে প্রশিক্ষিত মডেলটি শেনজেনের গুদামের ইউশু মানবাকৃতি রোবটে পুরোপুরি স্থানান্তরিত হয় না। দুটির ভৌত আকৃতি ভিন্ন।
দীর্ঘমেয়াদি কাজ। ৩০-৬০ সেকেন্ডের বেশি সময় লাগে এমন কোনো স্বতন্ত্র আচরণ এবং একাধিক উপ-লক্ষ্য সহকারে কাজটি লক্ষ্য থেকে বিচ্যুত হওয়ার সম্ভাবনা বেশি। "আমার জন্য সকালের নাস্তা তৈরি করো" এই কাজটি সবসময়ই অপ্রাপ্য।
পদার্থবিদ্যার সাধারণ জ্ঞান। VLA-কে বুঝতে শেখানো হয়নি, বরং অনুকরণ শেখানো হয়েছে। এটি বাস্তবিকভাবে বুঝতে পারে না যে একটি কাপ পানি উল্টে দিলে পানি বেরিয়ে আসবে। এটি শুধুমাত্র কিছু উদাহরণ দেখেছে এবং প্যাটার্ন মিলিয়ে পরবর্তী কী ঘটবে তা পূর্বানুমান করে।
স্পেসিয়াল রিজনিং ক্ষমতা। যদিও এগুলি মাল্টিমোডাল, তবুও “বাধা পার করার পরিবর্তে এর চারপাশে ঘুরে যাওয়া” বা “এই জিনিসগুলি একে অপরের উপরে স্তূপাকারে সাজানো যাতে পড়ে না”-এর মতো কাজে এগুলি অসাধারণভাবে দুর্বল।

এই শেষ সিরিজের দুর্বলতাগুলি এই ক্ষেত্রকে একটি সম্পূর্ণ ভিন্ন মডেলের উপর নিয়োগ করতে উদ্বুদ্ধ করেছে।

নয়: বিশ্ব মডেল

একটি কল্পনা করুন: যদি আপনি রোবটকে ক্রিয়াগুলি পূর্বানুমান করার জন্য প্রশিক্ষণ না দেন, বরং এই ক্রিয়াগুলির পরিণতি পূর্বানুমান করার জন্য প্রশিক্ষণ দেন, তাহলে কী হবে?

ওয়ার্ল্ড মডেল হল একটি নিউরাল নেটওয়ার্ক যা বর্তমান বিশ্বের অবস্থা (সাধারণত একটি ভিডিও বা ফ্রেমের একটি ধারাবাহিকতা) এবং পূর্বনির্ধারিত ক্রিয়াগুলির ভিত্তিতে বিশ্বের পরবর্তী অবস্থা পূর্বানুমান করে। সহজ কথায়, আপনি এটিকে একটি স্টিয়ারিং ওয়ীলযুক্ত শিক্ষণযোগ্য ভিডিও পূর্বানুমানকারী হিসাবে কল্পনা করতে পারেন। আপনি এটিকে শেষ এক সেকেন্ডের ক্যামেরা ফুটেজ দেখান এবং বলুন “রোবটটি তার হাতটি 10 সেন্টিমিটার এগিয়ে নেবে”, এটি পরবর্তী সেকেন্ডের ফুটেজটি পূর্বানুমান করে একটি বাস্তবসম্মত ভিডিও তৈরি করবে।

এটি কেন গুরুত্বপূর্ণ?

যেহেতু একবার বিশ্ব মডেল থাকলে, রোবট কাজ শুরুর আগে চিন্তা করতে পারে। এটি তিন থেকে চারটি ভিন্ন সম্ভাব্য কার্যক্রম পূর্বানুমান করতে পারে, প্রতিটি কার্যক্রমের ফলাফল পূর্বানুমান করতে পারে, স্কোর দিতে পারে এবং সেরা পরিকল্পনা বাছাই করতে পারে। এই সবকিছুই মোটর চলনের আগেই সম্পন্ন হয়। এটিই শতরঞ্জ ইঞ্জিনের কাজের পদ্ধতি: এটি চালগুলি মনে রাখে না, বরং ভবিষ্যতকে সিমুলেট করে। আগে পদার্থবিদ্যা-ভিত্তিক রোবটিক্সে এই ক্ষমতা কখনও ছিল না, কারণ বাস্তব বিশ্বের জটিলতা সিমুলেট করার জন্য যথেষ্ট সঠিক মডেলগুলি কখনও উপলব্ধ হয়নি।

হিউমানয়েড রোবট

ওয়ার্ল্ড মডেল রোবটকে বিভিন্ন সম্ভাব্য ভবিষ্যতের পরিস্থিতি অনুকরণ, তাদের স্কোর করা এবং যেকোনো মোটর চালু করার আগে সেরা পরিকল্পনা বাছাই করতে সক্ষম করে।

2026 সালে বিশ্ব মডেলটি কী রকম হবে?

বর্তমানে সবচেয়ে উন্নত বিশ্ব মডেলগুলির বিস্তৃত বৈচিত্র্য রয়েছে, যা দ্রুত বিকাশ পাচ্ছে। নিচে কিছু মডেল রয়েছে:

NVIDIA Cosmos: একটি ওপেন-ওয়ার্ল্ড বেসিক মডেলের সিরিজ, যার মধ্যে রয়েছে Cosmos Predict 2.5 (জেনারেটিভ মডেল), Cosmos Transfer 2.5 (কন্ট্রোলেবল সিমুলেশন মডেল), Cosmos Reason 2 (রোবটের জন্য ভিজুয়াল-ল্যাঙ্গুয়েজ রিজনিং), এবং সর্বশেষ Cosmos Policy। Cosmos Policy আরও এগিয়ে যায়, বিশ্ব মডেলের উপর পোস্ট-ট্রেনিং করে সরাসরি কন্ট্রোলের জন্য অ্যাকশন আউটপুট দেয়। Cosmos এর প্রশিক্ষণের জন্য কয়েক দশহাজার GPU ঘন্টার ভিডিও ডেটা ব্যবহার করা হয় (Cosmos Predict 2.5 এই সিরিজের ওয়ার্ল্ড মডেল)।
DeepMind Genie 3: একটি ইন্টারেক্টিভ ওয়ার্ল্ড মডেল যা টেক্সট প্রম্পট অনুযায়ী সম্পূর্ণভাবে নেভিগেট করা যায় এমন পরিবেশ তৈরি করে, 24 ফ্রেম প্রতি সেকেন্ডে, কয়েক মিনিট ধরে স্থিতিশীলভাবে চলে। এটি প্রাথমিকভাবে গেমিং পরিবেশের জন্য ডিজাইন করা হয়েছিল।
Meta V-JEPA 2: এক মিলিয়ন ঘন্টারও বেশি ওয়েব ভিডিও ব্যবহার করে প্রাক-প্রশিক্ষণ করা হয়েছিল, তারপর শুধুমাত্র 62 ঘন্টা রোবট ভিডিও ব্যবহার করে অ্যাকশন-কন্ডিশনড ট্রেনিং করা হয়েছিল। বিভিন্ন ল্যাবের বাস্তব রোবট হাতে, কোনো নির্দিষ্ট টাস্কের প্রশিক্ষণ ছাড়াই 80% জিরো-শট পিক-অ্যান্ড-প্লেস সাফল্যের হার অর্জন করা হয়েছে। “JEPA” পদ্ধতিটি আর্কিটেকচারে অন্যান্য পদ্ধতির থেকে সম্পূর্ণ ভিন্ন।
DeepMind Dreamer 4: কোনো পরিবেশের সাথে ইন্টারঅ্যাকশন ছাড়াই শুধুমাত্র অফলাইন ডেটা ব্যবহার করে মাইনক্রাফটে ডায়মন্ড সংগ্রহ করা (একটি ২০,০০০ স্টেপের কাজ) শিখেছে। এটি ভার্চুয়াল বিশ্বে প্রকৃত রিইনফোর্সমেন্ট লার্নিংয়ের সম্ভাবনা প্রমাণ করে।
AgiBot-এর Genie Envisioner: চীনা একীভূত বিশ্ব মডেল প্ল্যাটফর্ম, যা 3000 ঘন্টার বেশি বাস্তব বিশ্বের মানবাকৃতি রোবট অপারেশন ভিডিও দিয়ে প্রশিক্ষিত। এটি পূর্বানুমানিত প্রসারিত ট্রেজেক্টরি এবং কার্যকরী অ্যাকশন ট্রেজেক্টরি উভয়ই তৈরি করতে পারে। AgiBot NVIDIA Cosmos Predict 2 কে ব্যাকবোন নেটওয়ার্ক হিসেবে ব্যবহার করে এবং নিজস্ব ডেটা দিয়ে পোস্ট-ট্রেনিং করে। এটিই আগের বর্ণিত “ওপেন-সোর্স টেকনোলজি স্ট্যাক + নিজস্ব ডেটা” মডেল।
টোয়োটা রিসার্চ ইনস্টিটিউটের কসমস ভিত্তিক ওয়ার্ল্ড মডেল: রিমোট অপারেশন ডেটা অগমেন্টেশন এবং নেভিগেশনের জন্য।

হিউমানয়েড রোবট

2025-2026 এর সবচেয়ে গুরুত্বপূর্ণ ছয়টি বিশ্ব মডেল, যেগুলি মেশিনের পদার্থবিদ্যা শেখার পদ্ধতি সম্পর্কে ভিন্ন ভিন্ন ধারণা প্রস্তাব করে।

দশ: বিকল্প আর্কিটেকচার, কারণ এই ক্ষেত্রে এখনও কোনো সিদ্ধান্ত হয়নি

বিশ্ব মডেল তৈরির জন্য কোনও একটি একক মানদণ্ড নেই। আর্কিটেকচারের বিবাদ বর্তমানে এআই ক্ষেত্রের সবচেয়ে আকর্ষণীয় বিতর্কগুলির মধ্যে একটি, যা রোবটগুলির ভবিষ্যতে কী করতে পারবে তার উপর সরাসরি প্রভাব ফেলে। নিম্নলিখিত তিনটি দলের দিকে মনোযোগ দেওয়া উচিত:

পিক্সেল-লেভেল ভিডিও ডিফিউশন (কসমস/সোরা স্কুল): ডিফিউশন মডেল ব্যবহার করে ভবিষ্যতের ফ্রেমের প্রকৃত পিক্সেল পূর্বানুমান করা। এর সুবিধা হল এটি একটি সংশ্লেষিত ডেটা জেনারেটর হিসাবে কাজ করতে পারে, যা কখনও ঘটেনি এমন সম্পূর্ণ নতুন রোবট ডেমো রেন্ডার করতে পারে। অসুবিধা হল এটি খরচবহুল, কখনও কখনও পদার্থবিদ্যার নিয়মকে উল্লঙ্ঘন করে, এবং কখনও দেখা যাবে না এমন পিক্সেল পূর্বানুমান করা একটি বর্জ্য।

জয়েন্ট এমবেডেড প্রেডিক্টিভ আর্কিটেকচার, সংক্ষেপে JEPA (LeCun স্কুল): পিক্সেল প্রেডিক্ট করা নয়, বরং পরবর্তী ফ্রেমের বিমূর্ত প্রতিনিধিত্ব প্রেডিক্ট করা। টেক্সচারের বিস্তারিত বাদ দিয়ে শুধুমাত্র দৃশ্যের বস্তুগুলির বৈষয়িক সারমর্ম বজায় রাখা। এর সুবিধা হলো দক্ষতা এবং কার্যকরী কারণগুলির উপর ফোকাস। এর অসুবিধা হলো ব্যবহার করা কঠিন। V-JEPA, V-JEPA 2 এবং নতুন JEPA-VLA হাইব্রিড মডেলগুলি এই ক্ষেত্রে অনুসন্ধান চালিয়ে যাচ্ছে।

প্রোটেনশিয়াল অ্যাকশন ওয়ার্ল্ড মডেল (জেনি/ড্রিমার প্যারাডাইম): একটি পুরো ভিডিওকে একটি প্রোটেনশিয়াল “অ্যাকশন ল্যাঙ্গুয়েজ”-এ কম্প্রেস করার শিক্ষা নেওয়া, যা আচরণের কাঠামোকে ধরে রাখে, তারপর ওয়ার্ল্ড মডেলকে প্রশিক্ষণ দেওয়া যাতে পরবর্তী প্রোটেনশিয়াল অ্যাকশনের ভিত্তিতে পরবর্তী প্রোটেনশিয়াল স্টেট পূর্বানুমান করতে পারে। এর সুবিধা হলো আপনি অ্যাকশনহীন ওয়েব ভিডিও ব্যবহার করে প্রশিক্ষণ দিতে পারেন, তারপর কিছু বাস্তব রোবট ডেটা যোগ করতে পারেন। অসুবিধা হলো প্রোটেনশিয়াল অ্যাকশনগুলি মানুষের দ্বারা বোঝা যায় না, এবং নিরাপত্তা বিশ্লেষণটি জটিল হয়ে পড়ে।

হিউমানয়েড রোবট

পিক্সেল ডিফিউশন, JEPA এবং লেটেন্ট অ্যাকশন: একই লক্ষ্য, কিন্তু বিশ্ব মডেল তৈরির পদ্ধতি সম্পূর্ণ ভিন্ন

十一: বিশ্ব মডেল ভিত্তিক রোবোটের বাস্তব প্রয়োগ

যদি কয়েক বছর এগিয়ে যাওয়া যায়, তবে অগ্রণী মানবাকৃতির রোবটের আর্কিটেকচার এমন দেখাবে:

VLA-ত একটি বিশ্ব মডেল সংযুক্ত রয়েছে। যখন রোবট একটি নতুন পরিস্থিতির সম্মুখীন হয়, তখন এটি নিম্নলিখিতের মতো কিছু করে:

VLA কিছু পরবর্তী পদক্ষেপের প্রস্তাবিত বিকল্প প্রস্তুত করেছে (এটি এখনও কৌশল)।
ওয়ার্ল্ড মডেল প্রতিটি প্রার্থী ক্রিয়াকলাপ গ্রহণ করে এবং 1-3 সেকেন্ডের কল্পিত ভিডিও সিমুলেশন করে।
মূল্যায়নকারীরা কল্পিত ফলাফলের ভিত্তিতে স্কোর দেয়: কি কাপটি উঠানো হয়েছে? কিছু পড়ে গেছে? কোনো ব্যক্তি ধাক্কা খেয়েছে?
রোবট সর্বোচ্চ স্কোর পাওয়া অ্যাকশনটি নির্বাচন করবে এবং শুধুমাত্র এর প্রথম অংশটি বাস্তবায়ন করবে।
Real sensor data feedback; looping repetition.

এটি মডেল প্রেডিক্টিভ কন্ট্রোল, যা বছর ধরে রকেট এবং কোয়াড্রোকপ্টার স্থিতিশীল করতে ব্যবহৃত হয়ে আসছে, কিন্তু এটি কৃত্রিমভাবে উদ্ভাবিত পদার্থবিদ্যার সমীকরণগুলির পরিবর্তে শেখা বিশ্ব মডেল ব্যবহার করে। এর স্কেলযোগ্যতা হল যে, বিশ্ব মডেলটি লাখ লাখ ঘন্টার ভিডিওর উপর পূর্ব-প্রশিক্ষিত, নয় কারণ কেউ রান্নাঘরের পরিবেশের জন্য নেভিয়ার-স্টকস সমীকরণ (Navier-Stokes equations) লিখেছে।

এর সুবিধাগুলি ধাপে ধাপে বৃদ্ধি পায়:

পুনরুদ্ধারের অবস্থা উন্নতি পেয়েছে। যদি গ্রাবিং অ্যাকশনে ভুল হয়, তবে বিশ্ব মডেল বিভিন্ন সংশোধন পথ কল্পনা করতে পারে এবং সবচেয়ে প্রতিশ্রুতিশীল পথটি বেছে নিতে পারে।
সাধারণীকরণ ক্ষমতা উন্নত হয়েছে। ওয়েব ভিডিওর উপর প্রশিক্ষিত বিশ্ব মডেলগুলি যে সমস্ত "ভৌত ঘটনা" অনুভব করে, তা যেকোনো রোবট রিমোট অপারেশন ডেটাসেটের চেয়ে কয়েক ক্ষমতা বেশি।
দীর্ঘমেয়াদি পরিকল্পনা নিয়ন্ত্রণযোগ্য হয়ে উঠেছে। বাস্তবে নয়, কল্পনায় পরিকল্পনা করুন।
প্রায়োগিক এবং বাস্তবের মধ্যে ব্যবধান কমে গেছে। আগে ব্যক্তিগতভাবে তৈরি করা সিমুলেটর (যেমন: Isaac Sim, Newton ফিজিক্স ইঞ্জিন) ব্যবহার করে প্রশিক্ষণ দেওয়া হত এবং তারপর আশা করা হত যে প্রশিক্ষণের ফলাফলগুলি বাস্তব প্রয়োগে স্থানান্তরিত হবে, কিন্তু এখন প্রশিক্ষিত সিমুলেটর ব্যবহার করে প্রশিক্ষণ দেওয়া যায়, যা বাস্তব ভিডিওর সাথে মেলে। তাই ব্যবধানটি ছোট।
সিনথেটিক ডেটা বিস্ফোরিত হচ্ছে। একটি বিশ্ব মডেল প্রায় বিনামূল্যে লাখ লাখ ভিন্ন রোবট ট্রাজেক্টরি তৈরি করতে পারে, যা বিভিন্ন আলোকসজ্জা, পদার্থ এবং বস্তুর বিন্যাস কভার করে। এটি এই ক্ষেত্রের সবচেয়ে বড় বাধা গুলির মধ্যে একটি সমাধান করে।

এছাড়াও, এটির একটি গুরুত্বপূর্ণ নিরাপত্তা সুবিধা রয়েছে। কার্যকলাপের পরিণতি প্রতিকৃতি করতে পারা রোবটগুলি বিপজ্জনক কার্যক্রম পালন থেকে বিরত থাকতে পারে: পূর্বনির্ধারিত নিয়মের সীমাবদ্ধতার কারণে নয়, বরং এটি ভবিষ্যতে কেউ আহত হওয়ার সম্ভাবনা পূর্বানুমান করার কারণে।

হিউমানয়েড রোবট

দুটি চলার পদ্ধতি: VLA দেখা অনুযায়ী প্রতিক্রিয়া জানায়; বিশ্ব মডেল রোবটগুলি চলার আগে চিন্তা করে

১২: জানা উচিত এমন বিষয়গুলি

সত্যিকারের মূল সমস্যা হল ডেটা সমস্যা: যদি মডেলকে ডেটা দেওয়া না যায়, তবে বিশ্বের সমস্ত আর্কিটেকচারাল উদ্ভাবন কোনো কাজে আসবে না। বর্তমানে, রিমোট অপারেশন (মানুষ ভিআর ডিভাইস পরে রোবটকে ম্যারিওনেটের মতো নিয়ন্ত্রণ করে) হল প্রধান প্রযুক্তিগত বাধা। একটি রোবটিক্স কোম্পানির প্রতিযোগিতামূলক সুবিধা এখন মডেলের চেয়ে তাদের ডেটা সংগ্রহ লাইনের উপর বেশি নির্ভরশীল। Zhìyuán Robotics ইতিমধ্যেই অপারেটরদের পূর্ণ গুদাম তৈরি করেছে। NVIDIA GR00T N1.7-এর দক্ষতা বৃদ্ধির সূত্রটি বলে যে, বেশি মানুষের প্রথম-পার্সনভিউভিডিও সরাসরি, পূর্বানুমানযোগ্যভাবে রোবটের দক্ষতা বাড়ায়। এটিই চীনের গঠনগত সুবিধার একটি কারণ: কম ডেটা-সংগ্রহশীল শ্রমখরচ, বেশি সহনশীল বাস্তবায়ন পরিবেশ, এবং রাষ্ট্রীয়ভাবে সরবরাহ-শৃঙ্খলকে সক্রিয়ভাবে সমন্বয়।

সিমুলেশন একটি সমান্তরাল বিশ্ব। NVIDIA-এর Isaac Sim, নতুন ওপেন-সোর্স Newton ফিজিক্স ইঞ্জিন (1.0 সংস্করণ 2026 সালের এপ্রিলে আনুষ্ঠানিকভাবে প্রকাশিত হবে) এবং Omniverse প্ল্যাটফর্ম প্রতিষ্ঠানগুলিকে বাস্তব বিশ্বে চালু করার প্রয়োজন ছাড়াই মিলিয়ন মিলিয়ন সমান্তরাল সিমুলেশন পরিবেশে রোবটকে প্রশিক্ষণ দেওয়ার অনুমতি দেয়। বেশিরভাগ “রোবট বুদ্ধিমত্তা” হিসাবে দেখানো ফাংশনগুলি আসলে সিমুলেশন পরিবেশে প্রশিক্ষিত হয়, এবং তারপর হার্ডওয়্যারে স্থানান্তরিত হয়।

অর্থনৈতিক কার্যকারিতা প্রকাশ পাচ্ছে। Unitree 2025 সালে প্রায় 5,500টি মানবাকৃতি রোবট ডেলিভারি করেছে এবং 2026 সালে 10,000 থেকে 20,000টি ডেলিভারির পরিকল্পনা করছে। গড় মূল্য দুই বছরে 85,000 ডলার থেকে কমে 25,000 ডলারে নেおりেছে। Unitree-এর R1-এর দাম 5,900 ডলার। Noetix Bumi-এর লিস্টিং মূল্য 1,400 ডলার। মানবাকৃতি রোবটের হার্ডওয়্যারের দাম কনজুমার ইলেকট্রনিক্সের দামের স্তরের কাছাকাছি আসছে, যখন এর অভ্যন্তরীণ AI প্রযুক্তি ডেমো পণ্যগুলির চেয়ে পিছিয়ে। এই ব্যবধান চূড়ান্তভাবে কমে যাবে, এবং তখন, বাজারের আকারের বৃদ্ধি সমগ্র শিল্পের উপর উল্লেখযোগ্য প্রভাব ফেলবে।

ত্রুটির মডেলটি অদ্ভুত দেখাচ্ছে। যখন LLM-ভিত্তিক রোবট ব্যর্থ হয়, তখন এগুলি সাধারণ রোবটগুলির কাছে অসম্ভব হওয়া উপায়ে ব্যর্থ হয়। উদাহরণস্বরূপ, আত্মবিশ্বাসের সাথে ভুল করা, “হ্যালুসিনেশন”-এর মতো কিছু ফাংশন সম্পর্কে অনুভব করা, এবং নিজের প্ল্যানারের সাথে ডায়ালগ সাইকেলে আটকে যাওয়া। প্রচলিত রোবটিক্স জগতে এই বিষয়ে পর্যাপ্ত সন্দেহ রয়েছে, যা যুক্তিসঙ্গত, কারণ তারা জোর দিয়ে বলে যে শিক্ষণযোগ্য সিস্টেমগুলির নিরাপদ মনিটরিং এবং আচরণগত সীমাবদ্ধতা থাকা প্রয়োজন। বর্তমানে সবচেয়ে নির্ভরযোগ্যভাবে বাস্তবায়িত রোবটগুলি হাইব্রিড: VLA ব্রেনকে হাতে-ডিজাইনকৃত নিরাপদ কেজের মধ্যে রাখা হয়।

“ChatGPT মুহূর্ত” এর বর্ণনা একটি উপযোগী কিন্তু বিভ্রান্তিকর রূপক: হুয়াং রেনক্সুন সবাইকে বলছেন যে রোবটের ChatGPT মুহূর্ত এসে গেছে। তিনি এটি বলছেন কারণ নভিডিয়া কাঁচি ও হাতুড়ি বিক্রি করছে। আরও সৎ সংস্করণটি হল: বর্তমানে প্রায় ভৌত AI-এর GPT-2 যুগের মধ্যে। এটি শক্তিশালী, যা আপনাকে অবাক করতে পারে; কিন্তু এখনও এতটাই শক্তিশালী নয় যে এটিকে অনুপস্থিতিতে চালানো যায়। এটি দ্রুত পুনরায় উন্নয়নের মধ্যে রয়েছে, কিন্তু ভাইরালভাবে বিস্তারের বিস্ফোরণ বিন্দুটি এখনও আসেনি, বরং এটি একটি ধীরে কিন্তু দৃঢ়ভাবে উত্থানের পথ।

শেষ কথা

হিউমানয়েড রোবট

ইউশু চার পায়ের রোবটের বিকাশের ইতিহাস (ডান থেকে বাম)

ইউশু অফিসে দেখা প্রদর্শনীতে, পাঁচটি G1 মানবাকৃতি রোবট কৌশলগতভাবে সজ্জিত করা করতিবিদ্যা প্রদর্শন করে, যার গতিপথ অন-বোর্ড VLA-সদৃশ নিয়ন্ত্রক দ্বারা সূক্ষ্মভাবে সমায়োজিত হয় এবং দূরবর্তী অপারেটর সবকিছু সঠিকভাবে চলছে কিনা তা নিশ্চিত করে। মৌলিকভাবে, এটি সম্পূর্ণভাবে স্বয়ংক্রিয় নয়। কিন্তু পুরো প্রক্রিয়াটি: পরিলক্ষণ, পরিকল্পনা, গতিনিয়ন্ত্রণ — সবই নিউরাল নেটওয়ার্ক দ্বারা প্রতিস্থাপিত হচ্ছে। দুই বছর পর, একই রোবটগুলি একই গতিপথগুলি অনুকূলিত ছাড়াই সম্পন্ন করে, কারণ এগুলি এখন পুরো গতিপথটি আগে থেকেই চিন্তা করেছে এবং সেরা সংস্করণটি বেছে নিয়েছে।

যে সম্পূর্ণ বিকাশ প্রক্রিয়াটি এই প্রবন্ধে বর্ণনা করা হয়েছে: হাতে লেখা কন্ট্রোলার থেকে শুরু করে মেশিন লার্নিং পারসেপশন, তারপর LLM প্ল্যানার, তারপর VLA, তারপর ডুয়াল-সিস্টেম আর্কিটেকচার, এবং শেষ পর্যন্ত ওয়ার্ল্ড মডেল—এটি রোবোটিক বুদ্ধিমত্তার অবস্থানের ধীরগতিতে পরিবর্তন। এটি ইঞ্জিনিয়ারদের মস্তিষ্ক থেকে শুরু হয়, তারপর হাতে লেখা কোডে পরিণত হয়, তারপর পারসেপশন লেয়ারে, প্ল্যানারে, স্ট্র্যাটেজি লেয়ারে যায়। এখন, এটি শেষপর্যন্ত বিশ্বের নিজস্ব মডেল শেখার দিকে অগ্রসর হচ্ছে।

প্রতিটি রূপান্তর রোবটকে আরও সাধারণ, আরও সামঞ্জস্যপূর্ণ এবং আরও উপযোগী করে তোলে। যদি বিশ্ব মডেল রূপান্তরটি কাজ করে, তবে এটি রোবটকে শক্তিশালী ক্ষমতা প্রদান করবে: এতটাই শক্তিশালী যে প্রশ্নটি আর “রোবট কী করতে পারে?” নয়, বরং “আমাদের তাদের কী করানো উচিত?”

সংশ্লিষ্ট পড়ুন: 30টিরও বেশি মানবাকৃতির রোবোট কোম্পানির পরিচয়: 2026 সালে কে জিতবে?