সাম্প্রতিক সময়ে, মানবাকৃতির রোবটগুলি একটি "লাক্সারি পণ্য" থেকে "সস্তা শাকসবজি"-এর ঐতিহাসিক মোড় নিয়েছে।লেখক এবং উৎস: AI ফ্রন্টলাইন
সাম্প্রতিক সময়ে, মানবাকৃতির রোবটগুলি একটি "লাক্সারি পণ্য" থেকে "সস্তা শাক" -এর ঐতিহাসিক মোড় নেয়। এক বছর আগে যে প্রকৌশল নমুনা কিনতে প্রায় এক মিলিয়ন যুয়ান খরচ করে লাইনে দাঁড়াতে হত, আজকে সেগুলি দ্বিতীয় হাতের ওয়েবসাইট এবং বিচ্ছিন্নকরণ বাজারে "৫০,০০০ যুয়ানে একটি গাড়ি" মূল্যে প্যাকেজে বিক্রি হচ্ছে। একক মূল্যে, কিছু উচ্চপ্রিমিয়াম ফ্ল্যাগশিপ ফোনের চেয়েও সস্তা।
যু গুয়ে G1-এর দাম শুরু হচ্ছে 85,000 যুয়ান থেকে, কনজুমার লেভেলের এন্ট্রি-লেভেল R1 Air মাত্র 29,900 যুয়ানে, এবং সোংয়ান পাওয়ারের Bumi এখন মাত্র 9,998 যুয়ানে, যা একটি হাই-এন্ড iPhone-এর চেয়েও সস্তা। একইসময়ে, চীনা মানবাকৃতি রোবটের সরবরাহ শৃঙ্খলের দেশীয়করণ হার 90% ছাড়িয়েছে। মরগ্যান স্ট্যানলির সাম্প্রতিক প্রতিবেদন অনুসারে, 2025 সালে বিশ্বব্যাপী 13,000 থেকে 16,000টি মানবাকৃতি রোবট বিক্রির মধ্যে প্রায় 90% চীনা উৎপাদকদের থেকে আসবে।
যদি বর্তমানে এআই ডিজিটাল বিশ্বের উৎপাদনশীলতা হিসেবে কাজ করতে শুরু করেছে, তবে দ্রুত বিকাশশীল রোবোটগুলি ভৌত বিশ্বের উৎপাদনশীলতা হতে পারে। পণ্যের মূল্যের “দিনে হাজার মাইল” উত্তেজনার মধ্যে, একটি প্রশ্ন ভাসতে শুরু করেছে: ভবিষ্যতে কি শুধুমাত্র মানবাকৃতির রোবোটই প্রয়োজন?
গার্টনারের গবেষণা ডেটা একটি শান্ত সত্য উপস্থাপন করে: মানবাকৃতির রোবটের “বাস্তব অনুপাত” মাত্র 1:60, যেখানে প্রায় 98.36% সাক্ষাৎকারগ্রহীতা এখনও অনুসন্ধানের পর্যায়ে রয়েছেন, যখন বাস্তবে বাস্তবায়নের জন্য মাত্র 1.64% বিনিয়োগ করেছেন। “ব্যবহারিক বা যৌক্তিক দৃষ্টিকোণ থেকে, আমরা মনে করি ভবিষ্যতের রোবটগুলির অবশ্যই মানুষের মতো দেখতে হবে এমন কোনো প্রয়োজন নেই,” গার্টনারের গবেষণা ভাইস প্রেসিডেন্ট গাও টিং বলেছেন।
সাম্প্রতিক সময়ে, আমরা গাও টিং-এর সাথে কথা বলেছি। তিনি আলোচনায় উল্লেখ করেন যে, যদিও মানুষের দুনিয়া মানুষের আকারের উপর ভিত্তি করে ডিজাইন করা হয়েছে, তবুও মানুষের শরীরের গঠন অবশ্যই রোবটের জন্য সেরা আকৃতি নয়। সফল রোবটগুলি মানুষের আকৃতির সরল প্রতিলিপি নয়, বরং এটিকে উন্নত করবে। উদাহরণস্বরূপ, অ্যামাজনের পরীক্ষামূলক Digit রোবটের হাঁটু পিছনের দিকে বাঁকা, যা মানুষের চেয়েও বেশি দক্ষতার সাথে শেলফের সামনে বসা যায়; 1X-এর Eve রোবটটি চাকাযুক্ত, স্ব-সন্তুলিত চ্যাসিস ব্যবহার করে, যা সমতল অভ্যন্তরীণ পরিবেশে চলাচলের দক্ষতা বাড়ায়। দক্ষ রোবটের আকৃতি কুকুরের মতো, চাকাযুক্ত, বা সম্পূর্ণভাবে কাজের প্রয়োজনীয়তা অনুযায়ী ডিজাইনকৃত একটি সম্পূর্ণ নতুন আকৃতি হতে পারে, যা সাধারণত মানব-আকৃতির চেয়েও বেশি স্থিতিশীল, কমখরচের,এবংদ্রুতগতির।
“‘মানবাকৃতি’ আকৃতির সীমাবদ্ধতায় আটকে থাকবেন না; দ্রুত মূল্য প্রদান এবং আয় উৎপাদনকারী নির্দিষ্ট উপ-ক্ষেত্রের প্রয়োগগুলি খুঁজে বার করুন।” এছাড়াও, গাও তিং প্রযুক্তি, হার্ডওয়্যার, প্রয়োগের ক্ষেত্র এবং বাস্তব চ্যালেঞ্জসহ বিভিন্ন দিক থেকে আজকের রোবটিক্স শিল্পের বাস্তব চিত্রটি সাজিয়েছেন।
আজকের রোবট কী করতে পারে?
সংক্ষিপ্ত সময়ের জন্য, আপনাকে এটি নিয়ে চিন্তা করা উচিত নয় যে “রোবটগুলি মানুষের মতো দেখায়” বরং “একটি খুব স্পষ্ট পরিস্থিতিতে রোবটগুলি স্থিরভাবে কাজ সম্পন্ন করতে পারে কিনা, খরচ কমাতে পারে কিনা, মানব নির্ভরতা কমাতে পারে কিনা এবং অপারেশনাল দক্ষতা বাড়াতে পারে কিনা”।
তাহলে, আজকের রোবট কী করতে পারে?
এখন পর্যন্ত বাস্তবায়িত কেসগুলির ভিত্তিতে, রোবটের চেহারা বাস্তবিকই সবচেয়ে গুরুত্বপূর্ণ নয়। যাই হোক না কেন, স্টোরেজ ওয়ারহাউসের মেকানিক্যাল আর্ম বা অটোমোবাইল ফ্যাক্টরিতে বহনকারী রোবট, সবচেয়ে সহজেই বাস্তবায়নযোগ্য পরিস্থিতিগুলির একটি বৈশিষ্ট্য হল: পরিবেশটি প্রায় অপরিবর্তনীয়। শেষপর্যন্ত, কোম্পানিগুলি দেখে যে, এই রোবটটি কি কাজটি ভালোভাবে করতে পারছে কিনা, এবং এই ব্যাপারটি কি আর্থিকভাবে লাভজনক, না কি এটি মানুষের মতো দেখাচ্ছে।
উচ্চ টিং এর সারাংশ অনুযায়ী, বর্তমান পর্যায়ে বিনিয়োগ ফলাফল তৈরি করা সহজ রোবট স্কেনারিওগুলির সাধারণত তিনটি বৈশিষ্ট্য থাকে: কাজের সীমানা স্পষ্ট, প্রক্রিয়াটি পুনরাবৃত্তি করা যায়, এবং অস্বাভাবিক পরিস্থিতি সাপেক্ষে সীমিত। উদাহরণস্বরূপ, শিল্প লাইন-পাশের লজিস্টিকস, স্টোরেজ এবং কিছু সেবা প্রক্রিয়াগুলি স্থানীয়ভাবে পরিবর্তন করে রোবটের দ্বারা প্রক্রিয়াকরণের জটিলতা কমানো যায়। তবে পারিবারিক পরিস্থিতি ভিন্ন: কাজের সংমিশ্রণ আরও বিক্ষিপ্ত, পরিবেশের পরিবর্তন আরও প্রায়শই ঘটে, এবং যেকোনো ভুলই সম্ভবত মানুষের নিরাপত্তাকে সরাসরি প্রভাবিত করে। ফলে, পারিবারিক রোবটগুলির শক্তিশালী মডেলের ক্ষমতা ছাড়াও, এগুলির জন্য আরও পরিণত প্রকৌশলগত নির্ভরযোগ্যতা এবং নিরাপত্তা ব্যবস্থা প্রয়োজন।
বড় পরিসরে শিল্পায়নের জন্য উইন্ডো পিরিয়ড, সুযোগ কোথায়?
“রোবোটিক্স বিপুল পরিসরে শিল্পায়নের জন্য একটি জানালা সময়ের মধ্যে রয়েছে।” বর্তমান রোবোটিক্স শিল্পের পর্যায়ের জন্য গাও এভাবে সংজ্ঞা দিয়েছেন। “বর্তমানে, রোবোটগুলি কিছু ব্যবসায়িক ও বাণিজ্যিক পরিস্থিতিতে কার্যকরভাবে ব্যবহার করা হচ্ছে। বিশেষ করে কারখানা এবং গুদামে, পুনরাবৃত্তির পরিমাণ বেশি কাজগুলিতে, রোবোটগুলি কিছুটা মানবশক্তির প্রতিস্থাপন করতে পারছে। তাই এই খাতে মূলধনের খুব বেশি আগ্রহ, এবং কিছু শীর্ষস্থানীয় কোম্পানির মূল্যায়নও দ্রুত বৃদ্ধি পাচ্ছে।”
কিন্তু প্রকৃতপক্ষে বৃহৎ পরিসরে শিল্প বাস্তবায়ন এখনও ঘটেনি।
টেসলা ২০২৫ সালে প্রায় ৫০০০টি অপটিমাস উৎপাদনের লক্ষ্য রেখেছিল। কিন্তু ২০২৫ সালের চতুর্থ ত্রৈমাসিক ফলাফল প্রকাশের সময়, এলন মাস্ক স্বীকার করেন যে অপটিমাস কারখানায় কেবলমাত্র কিছু মৌলিক কাজ করেছে, এখনও প্রকৃত উৎপাদনশীলতা তৈরি হয়নি। জানা গিয়েছে, টেসলার তৃতীয় প্রজন্মের মানবাকৃতির রোবটটি মধ্যবর্তীতে প্রকাশিত হবে, এবং ২০২৬ সালের জুলাই-আগস্টের মধ্যেই এটির প্রকৃত উৎপাদন শুরু হবে।
রোবট, বিশেষ করে মানবাকৃতির রোবট, বাস্তবে বাস্তবায়ন এবং জনসাধারণের প্রত্যাশার মধ্যে প্রচুর পার্থক্য রয়েছে, এটিই বর্তমান অবস্থা।
হাও টিং-এর মতে, আগামী ২-৩ বছরে মানবাকৃতির রোবটগুলি সম্পূর্ণরূপে বড় পরিসরে বাণিজ্যিকভাবে বাস্তবায়ন করা কঠিন হবে। "এই মানবাকৃতির রোবটগুলি সম্ভবত কারখানা, স্টোরেজ, অটোমোবাইল উৎপাদনের মতো আপেক্ষিকভাবে স্থির পরিবেশেই থাকবে এবং পুনরাবৃত্তিমূলক, কম জটিল কাজগুলি করবে। কিন্তু এগুলি বেশিরভাগই পাইলট এবং ছোট পরিসরের বাস্তবায়ন হবে, শ্রমিকদের সম্পূর্ণরূপে প্রতিস্থাপনের মতো নয়। অন্যদিকে, শিল্প রোবট, স্টোরেজ রোবট, সার্ভিস রোবট এবং কিছু নির্দিষ্ট কাজের জন্য বহুমুখী রোবটগুলির বাণিজ্যিক পথগুলি আরও স্পষ্ট। কারণ এদের কাজের সীমানা পরিষ্কার, বিনিয়োগ-ফলাফলের গণনা আরও সহজ, এবং নিরাপত্তা ও প্রক্রিয়াগুলি নিয়ন্ত্রণ করা আপেক্ষিকভাবে সহজ।"
যে প্রতিষ্ঠানগুলি রোবোট কিনতে চায়, তাদের জন্য তার পরামর্শ: “প্রথমত, শুরু করুন ‘একটি মানবাকৃতি রোবোট কেনা’ দিয়ে নয়, বরং উচ্চ-মূল্যবান, কম-জটিল কাজ খুঁজে বার করা দিয়ে। দ্বিতীয়ত, রোবোটটিকে শুধুমাত্র হার্ডওয়্যার ক্রয় হিসেবে না দেখে, একটি অপারেশনাল ট্রান্সফরমেশন প্রকল্প হিসেবে বিবেচনা করুন। শুধুমাত্র বডি কিনলেই এটি সরাসরি বাস্তবায়িত হবে না; আপনাকে স্থানীয় প্রক্রিয়া, স্থান বিন্যাস, IT/OT একীকরণ, কর্মচারীদের সহযোগিতা ইত্যাদিরও বিষয়ে চিন্তা করতে হবে। তৃতীয়ত, একটি-দুটি ছোট, বন্ধ পরিস্থিতি দিয়ে পাইলট প্রকল্প শুরু করুন, বাস্তবিক উৎপাদনশীলতা ফলাফল পেয়েছেন, তখনই এটির প্রসারণ করুন। চতুর্থত, AMR, মেকানিক্যাল আর্ম, কো-রোবটসের মতো পরিপক্ক ক্যাটাগরির দিকেই প্রথমেই মনোযোগ দিন, এবং দীর্ঘমেয়াদে মানবাকৃতি রোবোটগুলির পরিপক্কতা অনুসরণ করুন।”
উচ্চ টিং ব্যাখ্যা করেন, “শিল্পে অনেকে বর্তমান এমবডিড ইন্টেলিজেন্সের উন্নয়ন পর্যায়কে বড় মডেলের প্রাথমিক পর্যায়ের সাথে তুলনা করেন: প্রযুক্তিগত দিকনির্দেশ ধীরে ধীরে স্পষ্ট হয়ে উঠেছে, কিন্তু স্কেলিং ক্ষমতা এখনও গড়ে উঠেনি।” এই তুলনাটি কিছুটা যুক্তিসঙ্গত, কিন্তু রোবটের বাণিজ্যিককরণের কঠিনতা আরও বেশি। “কারণ এটি শুধুমাত্র ডেটা এবং কম্পিউটিং শক্তির সীমাবদ্ধতার সাথেই সীমাবদ্ধ নয়, এটি সেনসর, ড্রাইভ সিস্টেম, পাওয়ার ম্যানেজমেন্ট এবং সিস্টেম বিশ্বস্ততারও সাথে জড়িত।”
VLA এখনও গুরুত্বপূর্ণ পথ, এবং বিশ্ব মডেলগুলি রোবট সিস্টেমে দ্রুত একীভূত হচ্ছে
রোবট কী করতে পারে এবং কী করতে পারে না, তা মৌলিকভাবে এর “মস্তিষ্ক”-এর উপর নির্ভর করে, যা রোবট মডেল।
হাও টিং বলেন: "VLA হল বর্তমানে সবচেয়ে পরিপক্ক জেনারেল রোবট মডেলের প্রযুক্তিগত পথ।" VLA অর্থ ভিশন-ল্যাঙ্গুয়েজ-অ্যাকশন, যা দৃশ্য, ভাষা এবং ক্রিয়াকলাপকে নির্দেশ করে। এখানে "ল্যাঙ্গুয়েজ" অংশটি বড় ভাষা মডেল থেকে এসেছে। এটি রোবটকে পরিবেশের তথ্য এবং কাজের নির্দেশনা একত্রিত করে সংশ্লিষ্ট ক্রিয়াকলাপ তৈরি করতে সক্ষম করে।

ভাষা মডেলের ভূমিকা হল রোবটকে ব্যাকরণগত বোঝাপড়া, সাধারণ জ্ঞান এবং কাজের পরিকল্পনার ক্ষমতা প্রদান করা। উদাহরণস্বরূপ, যখন ব্যবহারকারী বলেন “কক্ষটি খুব অন্ধকার”, তখন রোবটকে এই বাক্যের পিছনের কাজের লক্ষ্যটি বুঝতে হবে এবং আলো জ্বালানো উচিত কিনা তা নির্ণয় করতে হবে।
পূর্বের প্যারাডাইমের বিপরীতে, ভিএলএ মডেলগুলি প্রথমে সাধারণীকরণের ক্ষমতা অর্জন করে, তারপর ধাপে ধাপে বিভিন্ন পরিস্থিতিতে নির্ভরযোগ্যতা বাড়ায়। যুক্তি ঠিক উল্টো। "আগে বিশেষ পরিস্থিতির উচ্চ নির্ভরযোগ্যতা সমস্যা সমাধান করা হত, তারপর সাধারণীকরণের চেষ্টা করা হত। যেমন, প্রথমে একটি রোবটকে একটি নির্দিষ্ট কাজের নির্ভরযোগ্যতা খুব বেশি করে তোলা হত, তারপর এটিকে অন্যান্য কাজ শেখানোর চেষ্টা করা হত। কিন্তু আপনি দেখবেন, এই পদ্ধতিতে সত্যিকারের সাধারণীকরণ অর্জন করা খুব কঠিন, আপনি শুধুমাত্র একটি অত্যন্ত বিশেষজ্ঞ রোবট পাবেন, যা অন্য কোনও কাজের জন্য ভালোভাবে কাজ করবে না।"
এই ধরনের নতুন প্রযুক্তি পথ, যেমন বিশ্ব মডেল, সম্পর্কে গাও বলেন, "এটি একটি অন্যান্য দৃষ্টিভঙ্গি প্রদান করে: সিস্টেমকে পদার্থবিদ্যাগত বিশ্বের অবস্থার পরিবর্তন এবং কারণ-প্রভাব সম্পর্ক শেখানো এবং ক্রিয়াগুলির সম্ভাব্য ফলাফলগুলি পূর্বানুমান করা। এটি অবশ্যই ভাষাকে মধ্যস্থতাকারী হিসেবে নির্ভর করে না, বরং পদার্থবিদ্যাগত নিয়মগুলির মডেলিংয়ের উপর বেশি জোর দেয়। যেমন, একজন দক্ষ ড্রাইভার যখন গাড়ি চালাচ্ছেন, তখন সামনের দিকে পানির পুকুরটি দেখে, মস্তিষ্কে 'এখানে পানি, এটি দিয়ে হাতছাড়া হতে পারে, আমি গতি কমাব'—এইভাবে ভাষায় অনুবাদ করতে প্রয়োজন হয় না, বরং দৃষ্টির মাধ্যমেই গাড়ির গতিপথের পদার্থবিদ্যাগত পূর্বানুমানটির সৃষ্টি হয়, এবং স্বভাবতই ব্রেকটি চেপে দেওয়া হয়। বিশ্ব মডেলের লক্ষ্য, হলো—এইধরনের 'প্রথমেই'ভাষায় অনুবাদের প্রয়োজন ছাড়াই,সরাসরি সিদ্ধান্তগুলিরক্ষমতা।
তবে, তিনি মনে করেন, “আজকের দিনে, জেনারিক রোবোট এবং মানবাকৃতির রোবোটের অগ্রগতির পথ এখনও প্রধানত VLA-এর উপর নির্ভর করে। ওয়ার্ল্ড মডেলগুলি যদিও দ্রুত বিকাশ পাচ্ছে, তবে বর্তমানে এগুলি বেশিরভাগই সিনথেটিক ডেটা জেনারেশন, সিমুলেশন, মূল্যায়ন এবং সহায়ক পরিকল্পনার জন্য ব্যবহৃত হচ্ছে, আসল শারীরিক রোবোট নিয়ন্ত্রণের জন্য ব্যবহারের ক্ষেত্রগুলি এখনও খুবই প্রাথমিক। আগামী এক-দুই বছরে, VLA-এর সম্ভাবনা এখনও রোবোট অ্যাকশন মডেলের প্রধান অংশ হবে, কিন্তু ওয়ার্ল্ড মডেলগুলি VLA সিস্টেমের সাথে ধীরে ধীরে একীভূত হবে, যা রোবোটগুলিকে শক্তিশালী ভৌত বোধ, পরিকল্পনা এবং প্রিভিউ ক্ষমতা প্রদান করবে। দীর্ঘমেয়াদে, VLA-এর সাথে ওয়ার্ল্ড মডেলের একীভূতকরণই বেশি সম্ভাবনা, VLA-কে সহজেই ওয়ার্ল্ড মডেলগুলির দ্বারা প্রতিস্থাপনের চেয়ে।”
হাও টিং বলেন যে বর্তমানে VLA হল সবচেয়ে বেশি প্রকৌশলগতভাবে বাস্তবায়িত সাধারণ রোবোটিক্স পথগুলির মধ্যে একটি। এটি মানুষের মতো লচকা এবং সাধারণ বুদ্ধিমত্তা অর্জনের দিকে এখনও বড় পার্থক্য রাখে, তবে স্টোরেজ, উৎপাদন ইত্যাদি সীমানা সাপেক্ষে পরিষ্কার পরিস্থিতিতে এটি ইতিমধ্যেই ভালো ব্যবহারিক মূল্য প্রদর্শন করেছে। আগামীকালের কিছুক্ষণের জন্য, VLA সম্ভবত রোবোটিক্সের বাণিজ্যিককরণের প্রধান পথই থাকবে।
অপরিহার্য “দক্ষ হাত”: রোবট ব্যাচ উৎপাদনের বহুমুখী প্রকৌশল সমন্বয়
যদি মডেলটিকে রোবটের "মস্তিষ্ক" বলা যায়, তবে দক্ষ হাতটি হল এর সবচেয়ে গুরুত্বপূর্ণ "সরঞ্জাম"। "বস্তু পরিচালনার প্রয়োজন থাকা রোবটের জন্য, এন্ড এফেক্টর অত্যন্ত গুরুত্বপূর্ণ; সাধারণ অপারেশন পরিস্থিতিতে, দক্ষ হাতটি বিশেষভাবে গুরুত্বপূর্ণ।"
গো টিং বলেছেন, যে কোনও রোবটিক হাতকে “দক্ষ হাত” বলা যায় না; এটিতে যথেষ্ট স্বাধীনতা থাকতে হবে, সূক্ষ্ম অপারেশন করতে পারতে হবে এবং বিভিন্ন বস্তুর ধরণের জন্য অভিযোজিত হতে পারতে হবে।
গত কয়েক বছরে দক্ষ হাতের উল্লেখযোগ্য উন্নতি হয়েছে: মুক্তির মাত্রা বাড়ছে এবং মূল্য কমছে। তবে গাও টিং বলেন, “দক্ষ হাতের চ্যালেঞ্জ শুধুমাত্র মুক্তির মাত্রা বাড়ানো নয়। শিল্প প্রয়োগের জন্য, সীমিত স্থানে ধরে রাখার সঠিকতা, শক্তি আউটপুট, টেকসইতা এবং রক্ষণাবেক্ষণ খরচের মধ্যে ভারসাম্য বজায় রাখা আরও গুরুত্বপূর্ণ। সবচেয়ে বেশি মুক্তির মাত্রা সম্পন্ন পণ্যটি অবশ্যই বড়পরিমাণে উৎপাদনের জন্য সবচেয়ে উপযুক্ত নয়; বিভিন্ন কাজের জন্য পারফরম্যান্স এবং বিশ্বস্ততার মধ্যে বিভিন্নভাবে সমন্বয় করতে হয়।”
তিনি উদাহরণ দিয়ে বলেন: “কিছু বিদেশি উচ্চপ্রযুক্তি সুন্দর হাত উচ্চ ঘনত্বের সেন্সর স্তর এবং জটিল টেন্ডন ড্রাইভের মাধ্যমে মানুষের হাতের মতো স্বাধীনতা এবং সামঞ্জস্যপূর্ণ ধরা ক্ষমতা অর্জন করতে পারে, কিন্তু এদের দাম সাধারণত খুব বেশি, কয়েক লক্ষ বা দশ লক্ষ টাকা পর্যন্ত, যা বড় পরিসরে বাস্তবায়নের জন্য কঠিন। কিছু হাজার টাকা বা ওপেন-সোর্স শুরুর পণ্যগুলি ব্যবহারের বাধা কমিয়েছে, কিন্তু প্রান্তিক শক্তি আউটপুট, টেকসইতা এবং সংবেদনশীলতার সঠিকতা ইত্যাদির ক্ষেত্রে আরও যাচাইয়ের প্রয়োজন, এখনও এগুলি মানবিক কাজকে সরাসরি প্রতিস্থাপন করতে পারছে না।”
ডেটা গ্যাপ: সিমুলেশন এবং বাস্তবতা, মেশিন এবং মানুষের মধ্যে পার্থক্য
আজকের দিনে রোবোটিক্স শিল্প এখনও অনেক চ্যালেঞ্জের সম্মুখীন, এবং এর মধ্যে একটি মূল বাধা হল উচ্চ মানের ডেটার অভাব। "ডেটা এখনও রোবোটিক্সকে স্কেল করার প্রথম বাধা।"
হাও টিং বলেন, বড় ভাষা মডেল প্রশিক্ষণের জন্য ইন্টারনেট ডেটা ব্যবহার করা হয়, যা সাপেক্ষে সহজেই পাওয়া যায়। কিন্তু রোবটের বাস্তব অপারেশন ডেটা, যেমন রিমোট কন্ট্রোল ডেটা, প্রশিক্ষণের জন্য অনেক খরচ পড়ে।
যেহেতু বাস্তব ডেটা পাওয়া কঠিন, কি করে সিমুলেশন ডেটা দিয়ে এটি প্রতিস্থাপন করা যায়? এটি দ্বিতীয় চ্যালেঞ্জের দিকে নিয়ে যায়: সিমুলেশন এবং বাস্তবতার ব্যবধান। গাও টিং বলেন, NVIDIA ভার্চুয়াল পরিবেশে রোবটকে প্রশিক্ষণ, পরীক্ষা এবং যাচাইয়ের মাধ্যমে প্রশিক্ষণ ডেটার পরিসর বাড়ানো এবং বাস্তব বিশ্বের পরীক্ষা-নিরীক্ষার খরচ কমানোর জন্য সিমুলেশন এবং সিনথেটিক ডেটা টুলচেইনের উপর গুরুত্বারোপ করছে। এর সুবিধা হলো খরচ কম এবং সহজেই স্কেলযোগ্য। কিন্তু একটি গুরুত্বপূর্ণ সমস্যা আছে: সিমুলেশনের পরিস্থিতি এবং বাস্তব বিশ্বের মধ্যে সবসময়ই পার্থক্য থাকে। “সিমুলেশনটি যতই ভালোভাবে করা হোক, বাস্তব বিশ্বের সঙ্গে এটির পার্থক্য থাকবেই। যদিও রোবটটি ভার্চুয়াল এঞ্জিনে অসংখ্যবার পারফেক্ট অ্যাকশন-ম্যাপিংসমূহ সম্পন্ন করেছে, তবুও বাস্তবতায় অতি-সূক্ষ্ম ঘর্ষণ, উপাদান বা আলো-ছায়ার পরিবর্তনগুলির সম্মুখীন হলে, ভার্চুয়াল পরিবেশে শেখা নিয়ন্ত্রণকারীকেন্দ্রগুলিরও ।”
অন্যান্যরা প্রশ্ন করেছেন: কি করে ইন্টারনেটের বিপুল পরিমাণ ভিডিও ব্যবহার করে রোবটকে প্রশিক্ষণ দেওয়া যায়? এটি খরচ কম এবং ডেটা পাওয়া সহজ, কিন্তু এখানে একটি নতুন চ্যালেঞ্জ আসে: Embodiment Gap (শরীরগত ব্যবধান)। সহজ কথায়, মানুষের শরীর এবং রোবটের শরীর আলাদা, যেমন “চোখ শিখেছে, কিন্তু হাত অবশ্যই শিখেনি”। তাই, মানুষের আচরণের ভিডিও বা অ্যাকশন ডেটা সরাসরি রোবটে স্থানান্তরিত করলে, দক্ষতা ব্যাপকভাবে প্রভাবিত হয়।
“ভবিষ্যতের বাস্তবসম্মত পথ হল ‘শুধুমাত্র সিমুলেশনের উপর নির্ভর করা’ নয়,” গাও টিং বলেন, “বরং একটি মিশ্র ডেটা কৌশল তৈরি করা: বাস্তব রোবট ইন্টারঅ্যাকশন ডেটা—যেমন রিমোট অপারেশন, ম্যানুয়াল টিউটরিং এবং ফিল্ড অপারেশনের ফিডব্যাক—কে কেন্দ্র করে; এরপর মোশন ক্যাপচার, ফার্স্ট-পারসন ভিডিও ইত্যাদি মানব আচরণের ডেটা এবং সিমুলেশন/সিনথেটিক ডেটা যোগ করে রোবট মডেলের জেনারেলাইজেশন এবং বিশ্বস্ততা বাড়ানো।”
ডেটার পাশাপাশি, খরচও রোবোটিক্স শিল্পের জন্য এখনও একটি চ্যালেঞ্জ। “রোবোটকে সকল শিল্পে প্রবেশ করতে হলে, এটি যথেষ্ট সস্তা হতে হবে।” তবে গাও টিং বলেন, চীনের সরবরাহ শৃঙ্খলা একটি বিশাল সুবিধা। “উয়ু টেকনোলজির সবচেয়ে সস্তা মানবাকৃতির রোবোট R1 Air-এর দাম ইতিমধ্যে ৩০,০০০ চীনা ইয়ুয়ানের নিচে নামিয়েছে। যদিও এখনও এটি বাস্তবিকভাবে কারখানায় কাজ করতে পারে না, মূলত এটি গবেষণার জন্য ব্যবহৃত হয়, তবুও চীনের রোবোটিক্স সরবরাহ শৃঙ্খলার সুবিধা স্পষ্ট।”
মূল্য পড়ছে, সরবরাহ শৃঙ্খল পারিপাট্য লাভ করছে, VLA প্যারাডাইম সফলতার প্রমাণ পেয়েছে, এবং মূলধন প্রবাহিত হচ্ছে। কিন্তু ডেটা ব্যবধান, হার্ডওয়্যার বাধা এবং খরচের সমস্যা—এগুলো এখনও সম্পূর্ণ ব্যাপক গ্রহণের পথে তিনটি উচ্চ দেয়ালের মতো দাঁড়িয়েছে।
এই শিল্পের জন্য সবচেয়ে যুক্তিসঙ্গত দৃষ্টিভঙ্গি হতে পারে “মানুষের মতো” নাটকীয়তার পিছনে দৌড়ানোর বদলে একটি সাধারণ প্রশ্নের দিকে ফিরে আসা: এই মেশিনটি বাস্তবিকভাবে মানুষের কোন সমস্যা সমাধান করতে পারে? যেমন গাও বলেছেন: “মানুষের মতো দেখতে কি না, তা নিয়ে চিন্তা করবেন না।” এর চেয়ে বড় বিষয় হল “উপকারী”। এবং মূল্যের চেয়ে বড় বিষয় হল মূল্যবানতা। উৎপাদনশীলতা, আকৃতির নয়—এই শিল্পের এই প্রতিযোগিতা শুধুমাত্র শুরু হয়েছে।
