ফিজিক্যাল এআই, হাতে নিয়েছে।
লেখক এবং উৎস: ডংজিয়ান নিউ রিসার্চ সোসাইটি
২০২৬ সালের শুরুতে, এআই জগতে একটি জনপ্রিয় শব্দ দেখা দিয়েছে—“ফিজিক্যাল এআই”。
হুয়াং রেনক্সুন বছরের শুরুতে সিইএস প্রদর্শনীতে বারবার উল্লেখ করেছেন, "পরবর্তী তরঙ্গ এআই হবে ভৌত বিশ্বে চলমান এআই," এবং সুন ইউচেনও সাম্প্রতিককালে ঘোষণা করেছেন: "ভার্চুয়াল এআইয়ের লাভ শেষ, ভৌত এআইই পরবর্তী তিন বছরের সবচেয়ে বড় সুযোগ।"
শিল্প ক্ষেত্রে, স্টার কোম্পানি ফিগার এআই একটি অবিরাম পাঁচ দিনের রোবট বাছাই লাইভস্ট্রিমের মাধ্যমে সমগ্র ইন্টারনেটকে বিস্ফোরিত করেছে, এবং চীনা জিজিয়ুয়ান রোবোটিক্স ১০,০০০তম জেনারিক এমবডিড রোবট উত্পাদন করেছে...
বড় বড় ব্যক্তিদের মন্তব্য এবং এমবডিড ইন্টেলিজেন্সের প্রকৃত পরিবর্তনগুলি শিল্পের দৃষ্টি ভার্চুয়াল ইন্টেলিজেন্স থেকে ফিজিক্যাল এক্সিকিউশনে যাওয়া এই বৃহৎ বর্ণনার দিকে নিয়ে গেছে, তবুও অনেকের মনে এখনও প্রশ্ন রয়েছে, এই “ফিজিক্যাল এআই”টি কি প্রযুক্তির বিকাশের অপরিহার্য মোড়, নাকি এটি শুধুমাত্র পরিষ্কারভাবে প্যাকেজযুক্ত ধারণার পুনর্নির্মাণ?
২০২৬ সালে এআই ক্ষেত্রে "ফিজিক্যাল এআই"-এর তরঙ্গ শুরু হয়েছে, হুয়াং রেনক্সন বলেছেন যে পরবর্তী এআই তরঙ্গটি প্রকৃত বিশ্বে কাজ করবে। ফিগার এআই ৫ দিনের রোবট বাছাইয়ের লাইভ প্রদর্শনের মাধ্যমে প্রযুক্তিটিকে ল্যাব ডেমোর সীমানা পার করেছে, এবং জিহুয়ান রোবটিক্স তাদের ১০,০০০তম জেনারিক এমবডিড রোবট উৎপাদনের মাইলফলক অতিক্রম করেছে। এই প্রযুক্তির মূল হল এআইকে প্রকৃত বিশ্বে "অনুভব-যুক্তি-কাজ-প্রতিক্রিয়া" একটি বন্ধ চক্রের ক্ষমতা দেওয়া। এর পিছনের প্রধান প্রযুক্তির মধ্যে রয়েছে: বড় ভাষা মডেলগুলির মাধ্যমে রোবটগুলিকে বুঝতে শেখানো, ওয়ার্ল্ড মডেলগুলির মাধ্যমে প্রকৃত বিশ্বের কাজগুলির সমস্যা সমাধান, এবং VLA মডেলগুলির মাধ্যমে "দেখা" থেকে "সঠিকভাবে করা"-এর শেষ ১ km-এর সংযোগ। ফিজিক্যাল এআই এখন প্রযুক্তিগত যাচাইয়ের পর্যায়টি ছেড়ে বাণিজ্যিকভাবে বাস্তবায়নের দিকে এগিয়েছে, ২০২৬-এর পর থেকে ১১০০+ বিলিয়ন CNY-এরও বেশি融资 (অর্থনৈতিক বিনিয়োগ) হয়েছে,এবংপ্রতিযোগিতাএখনপরিমাণগতপ্রদানেরপর্যায়েপ্রবেশকরেছে।
উৎস: ডংজিয়ান নিউ রিসার্চ সোসাইটি
01 কথা বলতে পারা থেকে কাজ করতে পারা
উপরের প্রশ্নের উত্তর দেওয়ার আগে, আসুন এই কিছুটা কঠিন পেশাদার শব্দটিকে বিশ্লেষণ করি।
ভৌত এআই, শব্দটির অর্থ হল এআইকে ভৌত বিশ্বের সাথে গভীরভাবে একীভূত করা, কিন্তু এর মূলে যাওয়ার জন্য, ভার্চুয়াল এআই কেবলমাত্র “চিন্তা ও যোগাযোগ” করে, ভৌত এআইকে “অনুভব করতে এবং কাজ করতে” হয়, যার ফলে এটি শুধুমাত্র স্ক্রিনের ভিতরের একটি বুদ্ধিমান এজেন্ট নয়, বরং মেশিনগুলিকে বাস্তব ভৌত বিশ্বে অনুভব, বুঝতে এবং জটিল অপারেশনগুলি সম্পাদন করতে হয়।
ফিজিক্যাল এআই হল একটি প্রযুক্তি যা স্বায়ত্তশাসিত মেশিনগুলিকে (যেমন রোবোট, স্বয়ংচালিত গাড়ি ইত্যাদি) বাস্তব ভৌত বিশ্বে পরিপ্রেক্ষিতে বুঝতে এবং জটিল অপারেশন সম্পাদন করতে সক্ষম করে। চীনা কম্পিউটার সোসাইটির এক্সিকিউটিভ কমিটির সদস্য ওয়াং শিয়াং তৃতীয় চীনা আন্তর্জাতিক সাপ্লাই চেইন এক্সপোতে এই ধারণাটির একটি ব্যাপক ব্যাখ্যা দেন, “ফিজিক্যাল এআই মানে এআই সিস্টেমের ‘পরিপ্রেক্ষিতে—যুক্তি—কর্ম—প্রতিক্রিয়া’ একটি বন্দনা ক্ষমতা রয়েছে।”
সহজ ভাষায়, আগের AI ছিল “কথা বলতে পারে”, এখনকার ফিজিক্যাল AI হল “কাজ করতে পারে”। যখন AI ChatGPT-এর ডায়ালগ বক্স থেকে বাইরে বেরিয়ে বাস্তব বিশ্বের কারখানা, গুদাম এবং ঘরে প্রবেশ করে, তখনই ফিজিক্যাল AI-এর সমস্যা সমাধানের কথা হয়।
এই পার্থক্যটি এই বছর দুটি স্টার রোবট কোম্পানির গতিবিধিতে বিশেষভাবে প্রকাশ পেয়েছে।
একটি হল মার্কিন যুক্তরাষ্ট্রের Figure AI, যা 5 দিনের লাইভস্ট্রিমের মাধ্যমে প্রমাণ করেছে যে “রোবোটগুলি প্রকৃতপক্ষে কাজ করতে পারে”। লাইভস্ট্রিমটি 14 মে শুরু হয়েছিল, এবং এর বিষয়বস্তু ছিল 3টি Figure 03 মানবাকৃতি রোবোট যা উৎপাদন লাইনে প্যাকেজ বাক্সগুলি বাছাই করছিল; রোবোটগুলির কাজ ছিল বারকোড সনাক্তকরণ, প্যাকেজগুলি ধরে রাখা, দিকনির্দেশনা পুনরায় সমন্বয় করা, এবং বারকোডটি নিচের দিকে রেখে কনভেয়র বেল্টে রাখা।
লাইভস্ট্রিমের সময়, একটি রোবট ৩৩ ঘন্টার বেশি ধরে কাজ করে ৪০,০০০ এর বেশি প্যাকেজ প্রক্রিয়া করেছে। প্রতিষ্ঠাতা ব্রেট অ্যাডকক বলেছেন যে রোবটটি কোম্পানির সর্বশেষ হেলিক্স ০২ মডেল ব্যবহার করে “সম্পূর্ণ স্বায়ত্তশাসিত মোড”-এ কাজ করছে।
ফিগার AI লাইভস্ট্রিমের গুরুত্ব শুধু নিজেদের প্রযুক্তিগত ক্ষমতা প্রদর্শন করা নয়, বরং বাস্তব সময়ের ছবি দিয়ে বিশ্বব্যাপী জানানো যে পদার্থগত AI প্রযুক্তি “ল্যাব ডেমো” এর সীমানা অতিক্রম করেছে—একটি কোম্পানি যখন উৎপাদন লাইনে রোবটের কয়েকদিন ধরে চলমান কাজের লাইভস্ট্রিম করে, এবং কোনো বড় সমস্যা দেখা দেয়নি, তখন এটি নিজেই একটি শক্তিশালী প্রযুক্তিগত ঘোষণা।
চীনের জিয়ায়ুয়ান রোবোটিক্সও একটি অনুরূপ লাইভস্ট্রিম পরিচালনা করেছে, যেখানে তাদের জিয়ায়ুয়ান স্প্রিট G2-কে নানচাং লংকি টেকনোলজি পার্কের প্লেটলাইন MMIT (মাল্টিমিডিয়া ইন্টিগ্রেশন)-এ মানুষের সাথে কাজ করতে দেখানো হয়েছে। লাইভস্ট্রিমের পরীক্ষামূলক ডেটা অনুযায়ী, রোবোটটি 8 ঘন্টা ধরে নিরবচ্ছিন্নভাবে কাজ করেছে, কোনও গুরুতর অস্বাভাবিকতা ছাড়াই, এবং মোট কাজের সফলতার হার 99.5%এরও বেশি; একটি একক প্রক্রিয়ায় শুধুমাত্র 18-20 সেকেন্ড সময় লাগে, প্রতি ঘন্টায় 310টি পণ্য তৈরি করা যায়, এবং একটি রোবোটই দুটি প্রক্রিয়ার কাজ পূরণ করতে পারে।
ফিগার AI-এর চেয়ে আরও এগিয়ে যাওয়ার কথা, জিয়ুয়ান রোবোটিক্স ২০২৫ সালের ডিসেম্বর থেকে ২০২৬ সালের মার্চ পর্যন্ত মাত্র তিন মাসে ৫০০০টি থেকে ১০,০০০টি পর্যন্ত পৌঁছানোর সাথে সাথে বিশ্বের প্রথম জেনারেল এমবডিড এআই রোবটের ১০,০০০টি ডেলিভারির ঘোষণা করেছে।
ডেলিভারি পরিমাণের বাইরে, জিয়ায়ুয়ান রোবোটিক্স প্রকাশ করেছে যে কোম্পানিটি 2027 সালে 100 বিলিয়ন ডলার আয়ের লক্ষ্য রাখে। যদি অতীতের নবীন শক্তি, স্বয়ংচালিত গাড়ি বা চিপ এই ধরনের অগ্রণী শিল্পের উন্নয়নের অভিজ্ঞতা বিবেচনা করা হয়, তবে দুই বছরেরও কম সময়ের মধ্যে একটি কোম্পানি যদি দশহাজার ইউনিটের পরিমাণে বড় পরিসরে উৎপাদন ও ডেলিভারি করতে পারে এবং 100 বিলিয়ন ডলারের আয়ের লক্ষ্য নির্ধারণ করে, তবে এটি হার্ডটেক ক্ষেত্রে একটি ঘটনা।
উপরের দুটি কোম্পানি বাস্তব ডেটা এবং পরিস্থিতি ব্যবহার করে প্রমাণ করেছে যে ফিজিক্যাল এআই এখন নিয়ন্ত্রণ বা পূর্বনির্ধারিত স্ক্রিপ্টের উপর নির্ভর করে পারফর্ম করার প্রয়োজন নেই, বরং এটি বাস্তব পরিবেশে জটিল কাজগুলি স্বয়ংক্রিয়ভাবে সম্পন্ন করতে সক্ষম।
আরও গুরুত্বপূর্ণ বিষয় হলো, জিয়ায়ুয়ান প্রথম যে সীমানা অতিক্রম করেছে তা হলো এক হাজার ইউনিট ডেলিভারির সীমানা, যা বড় পরিমাণে উৎপাদনের ক্ষমতা এবং বর্তমান অর্ডারগুলির সাথে সংযুক্ত করে, যা এই খাতে “প্রযুক্তিগত যাচাই” থেকে “বাণিজ্যিক বাস্তবায়ন”-এর একটি মোড়কে পরিণত হয়েছে। অন্যভাবে বললে, ভৌত AI-এর “সম্ভবতা” এখন প্রশ্নবিদ্ধ নয়, আসল প্রতিযোগিতা এখন “ব্যবহারযোগ্যতা” এবং “অর্থনৈতিকতা”-এর গভীর অঞ্চলে প্রবেশ করেছে।
02 পদার্থবিদ্যা এআই-এর বিস্ফোরণের প্রযুক্তিগত চালিকাশক্তি
তাহলে, এখন প্রশ্ন হলো, ভৌত এআই কেন এই বছর হঠাৎ বিস্ফোরিত হলো? বর্তমানে পুনর্বিশ্লেষণ করলে, বাস্তব বাণিজ্যিক চাহিদার পাশাপাশি, এর পিছনে একটি ধারাবাহিক প্রযুক্তিগত উন্নতি সবচেয়ে বড় প্রেরণাশক্তি হয়ে উঠেছে।
প্রথমে, বড় ভাষা মডেল (LLM) রোবটগুলিকে "বুঝার ক্ষমতা" প্রদান করেছে। পারম্পরিক রোবটগুলি নির্ধারণমূলক কোড এবং নিয়ম প্রোগ্রামিংয়ের উপর নির্ভর করে, যা প্রকৌশলীদের আগে থেকেই "স্ক্রিপ্ট" লেখার সমান, যেখানে রোবটের প্রতিটি কাজ "স্ক্রিপ্ট"-এর পূর্বনির্ধারিত শর্তগুলি অনুসরণ করে। এই মডেলটির একটি বড় ত্রুটি হল যে, রোবটের কাজের পরিবেশে যদি কিছুটা পরিবর্তন হয়, তবে কোডটি পুনরায় লিখতে হয়, যার ফলে দৃঢ়তা কম, এবং বাণিজ্যিককরণের দরজায় পৌঁছানো কঠিন।
তবে গুগল যখন এলএলএমকে রোবটের শারীরিক কার্যক্রমের সাথে একীভূত করার চেষ্টা করে এবং ২০২৩ সালের আগস্টে গুগল প্যালম-ই এবং আরটি-২ সহ বিভিন্ন শারীরিক বহুমুখী বড় মডেল চালু করে, তখন রোবটগুলি প্রাকৃতিক ভাষার নির্দেশের মাধ্যমে জটিল কাজগুলিকে কয়েকটি ধাপে বিভক্ত করে স্বয়ংক্রিয়ভাবে সম্পন্ন করতে সক্ষম হয়, যা বড় ভাষা মডেলগুলিকে “কথোপকথন বুঝতে” থেকে “শারীরিক সম্পাদন”-এর ক্ষমতা অর্জনের পথে এগিয়ে নিয়ে যায়।
হুয়াং রেনশুন সিইএস ২০২৬-এর বক্তৃতায় এই প্রযুক্তিগত বিকাশের সারমর্ম উল্লেখ করেন: ভৌত এআই বাস্তবে একটি মৌলিক নিয়ন্ত্রণের হস্তান্তর, যখন ভৌত এআই প্রযুক্তিগত বিকাশের সীমানা অতিক্রম করে, তখন নিয়ন্ত্রণ মানব-লেখা নির্ধারণমূলক কোড থেকে সাধারণীকরণ ক্ষমতা এবং ভৌত নিয়মগুলি বোঝার ক্ষমতা সম্পন্ন নিউরাল নেটওয়ার্কগুলির হাতে চলে যায়।
এই সময়ে, রোবট শুধুমাত্র "কোড বাস্তবায়ন" করে না, বরং "নির্দেশ বুঝতে এবং নিজের কার্যক্রম পরিকল্পনা করতে" সক্ষম হয়েছে।
যদি বড় ভাষা মডেলগুলি "শোনার" সমস্যা সমাধান করে থাকে, তবে বিশ্ব মডেলগুলি "ভৌত বিশ্বে কাজ করার" সমস্যা সমাধান করে, বিশ্ব মডেলের মূল বিষয় হল এআইকে ভৌত বিশ্বের কার্যপ্রণালীর একটি অভ্যন্তরীণ বোঝাপড়া শেখানো।
গত বছর CES-এ নভিডিয়া যে ফিজিক্যাল এআই ওয়ার্ল্ড ফাউন্ডেশন মডেল প্ল্যাটফর্ম কসমস প্রকাশ করেছিল, তা একটি চিহ্নিত ঘটনা হয়ে উঠেছে; এই মডেলের মূল ক্ষমতা হলো টেক্সট বা ইমেজ থেকে পদার্থবিদ্যার নিয়ম অনুসরণকারী অ্যাকশন ডেটা তৈরি করা, যার মাধ্যমে ডেভেলপাররা কসমস ব্যবহার করে স্মার্ট কার, রোবোট এবং ভিডিও বিশ্লেষণ এআই এজেন্টের ফিজিক্যাল এআই উন্নয়নকে ত্বরান্বিত করতে পারবেন।
নভেডিয়ার বর্ণনা অনুযায়ী, কসমস 20 মিলিয়ন ঘন্টার বাস্তব ডেটা দিয়ে প্রশিক্ষিত, যা সিমুলেশন এবং মডেল প্রশিক্ষণের কঠিনতা ব্যাপকভাবে কমিয়েছে। বিশ্ব মডেলের মাধ্যমে, এআই সিস্টেমগুলি ভার্চুয়াল পরিবেশে বিপুল পরিমাণে সিমুলেশন পরীক্ষা করতে পারে এবং তারপর এগুলি বাস্তব ভৌত বিশ্বে স্থানান্তরিত করতে পারে।
রোবটের চূড়ান্ত ক্ষমতা হল “দেখা” বা “শোনা” নয়, বরং “সঠিকভাবে করা”। ভিশন-ল্যাঙ্গুয়েজ-অ্যাকশন মডেলের উত্থানের মাধ্যমে রোবটগুলি এখন দৃশ্যমান ইনপুট, ভাষা বুঝতে পারে এবং অ্যাকশন নিয়ন্ত্রণ একসাথে পরিচালনা করতে পারে, যার ফলে “দেখলেই করা” একটি বন্দর সম্পূর্ণ হয়।
ডিপমাইন্ড গত সেপ্টেম্বরে নতুন প্রজন্মের মাল্টিমোডাল এমবডিড ইন্টেলিজেন্স মডেল জেমিনি রোবোটিক্স 1.5 প্রকাশ করেছে, যা ঘোষণা করা হয়েছে যে এটি বিশ্বের প্রথম এমবডিড রিজনিং-এর জন্য অপ্টিমাইজড থিংকিং মডেল; নভিডিয়া তাদের মানবাকৃতির রোবোটের জন্য ডিজাইন করা ওপেন-সোর্স মডেল Isaac GR00T N1.6 চালু করেছে, যা সম্পূর্ণ শরীরের নিয়ন্ত্রণকে অনলক করতে পারে।
এর সাথে সাথে, বেইজিং ম্যানিকুলার রোবোট ইনোভেশন সেন্টার এমবডিড স্মল ব্রেইন মডেল XR-1 ওপেন সোর্স করেছে, যা দেশের প্রথম এমবডিড ইন্টেলিজেন্স জাতীয় মানদণ্ড অনুসারে তৈরি মডেল হয়েছে, যা এক মিলিয়নের বেশি ডেটা দিয়ে ট্রেইন করা হয়েছে এবং নেওয়া-রাখা, ঠেলা-টানা, ঘোরানো সহ জটিল দ্বি-হাতি অপারেশনগুলি সম্পন্ন করতে পারে।
এখন পর্যন্ত, ভৌত এআই প্রয়োগের জন্য প্রয়োজনীয় মৌলিক সমর্থন প্রযুক্তি সমূহ একত্রিত করেছে, LLM মেশিনকে মানুষের ইচ্ছা বুঝতে সাহায্য করছে, ওয়ার্ল্ড মডেল মেশিনকে ভৌত পরিণতি পূর্বানুমান করতে সাহায্য করছে, এবং VLA দ্বারা “দেখা” থেকে “সঠিকভাবে করা”-এর শেষ পথটি খোলা হয়েছে। এই তিনটির সমন্বয়ে, রোবটগুলি প্রথমবারের মতো খোলা পরিবেশে স্বাধীনভাবে কাজ সম্পাদনের মৌলিক ক্ষমতা অর্জন করেছে।
অবশ্যই, এখনও দক্ষতার সীমাবদ্ধতা রয়েছে, দুটি বাহু এবং দুটি হাতের সূক্ষ্ম নিয়ন্ত্রণের অনেক সমস্যা এখনও সমাধানের অপেক্ষায় রয়েছে; অন্যভাবে বললে, ভৌত AI পেয়েছে “কারখানায় কাজ করার” প্রবেশপত্র, কিন্তু “পরিবারে চা পরিবেশন করার” পর্যায়ে পৌঁছাতে, “খসড়া ক্রিয়াকলাপ” থেকে “সূক্ষ্ম নিয়ন্ত্রণ”-এর গুণগত পরিবর্তনের বাধা অতিক্রম করতে হবে।
03 প্রযুক্তিগত দৃষ্টিভঙ্গি থেকে বাস্তবায়ন ক্ষমতা
ফিজিক্যাল এআই-এর অতীত এবং বর্তমান বুঝতে গুরুত্বপূর্ণ, এবং এখন, এমবডিড ইন্টেলিজেন্স শিল্পের সামনে দাঁড়ানো প্রশ্নটি হলো, পরবর্তী প্রতিযোগিতা কোন কেন্দ্রীয় মাপদণ্ডগুলির চারপাশে ঘুরবে?
আমরা অটোনোমাস ড্রাইভিংয়ের বিকাশের অভিজ্ঞতা থেকে শিক্ষা নিই, ডেটার যুদ্ধ অটোনোমাস ড্রাইভিংকে এড়িয়ে যায়নি, অটোনোমাস ড্রাইভিংয়ের সাথে সদৃশ যুক্তি বহনকারী এমবডিড ইন্টেলিজেন্সও এটি এড়াতে পারে না। সাধারণত, যে কেউ উচ্চতর মানের প্রশিক্ষণ ডেটা অধিকারী, তারই কথাবার্তায় বেশি ক্ষমতা থাকে।
বর্তমানে শিল্পে, নভিডিয়া কসমসের উপর ভিত্তি করে বিশ্ব মডেলের বাধা স্থাপন করেছে, যা 20 মিলিয়ন ঘন্টারও বেশি বাস্তব ডেটা দিয়ে প্রশিক্ষিত, এবং এটি দ্রুত অনুকরণ করা কঠিন। একইভাবে, জিয়ুয়ান 10,000টি রোবটের পরিমাণে উৎপাদন এবং বাস্তবায়ন সম্পন্ন করেছে, যার অর্থ এটি বাস্তব, ফিডব্যাক-চালিত ডেটা সংগ্রহের ক্ষমতা অর্জন করেছে, যা শিল্পে একটি ডেটা প্রতিরক্ষা হিসাবে ব্যাপকভাবে বিবেচিত।
এটি উল্লেখ করা প্রয়োজন যে, ভৌত এআই প্রতিযোগিতার জন্য প্রয়োজনীয় ডেটা শুধুমাত্র কার ডেটার পরিমাণ বেশি তা নয়, বরং সিনথেটিক ডেটা এবং বাস্তব ডেটার সমন্বয় প্রয়োজন।
প্রকৃত ডেটার উপর কেবলমাত্র নির্ভর করলে স্কেল সমস্যা এবং হার্ডওয়্যার ক্ষয় খরচের সম্মুখীন হতে হয়, আবার সিনথেটিক ডেটার উপর অতিমাত্রায় নির্ভর করলে sim2real ট্রানজিশন গ্যাপ দেখা দেয়। বেইজিং হিউম্যানয়েড রোবোট ইনোভেশন সেন্টারের “ক্রস-ডেটা সোর্স লার্নিং” সমাধানটি এই ধারণার ফলে তৈরি হয়েছে, যা রোবোটগুলিকে বিপুল পরিমাণ মানব ভিডিওর সহায়তায় প্রশিক্ষণ দেওয়ার সুযোগ করে দেয়, ফলে প্রশিক্ষণ খরচ ব্যাপকভাবে কমে যায় এবং প্রশিক্ষণের দক্ষতা বৃদ্ধি পায়।
এটি খুব সহজে বোঝা যায়, ভবিষ্যতে যে কেউ সত্যিকারের “সিনথেটিক ডেটা ট্রেনিং-রিয়েল ডেটা ফাইন-টিউনিং-অ্যাকচুয়াল সিনারিও ফিডব্যাক” পূর্ণ সাইকেলটি সফলভাবে সংযুক্ত করতে পারবে, সেই কেউ এই প্রতিযোগিতায় শীর্ষস্থান অধিকার করবে।
ডেটা সমস্যাগুলি সমাধানের পরে, পদার্থবিদ্যাগত এআই এবং ভার্চুয়াল এআইকে কার্যকরভাবে একীভূত করা হল পদার্থবিদ্যাগত এআইয়ের আরও এগিয়ে যাওয়ার চাবিকাঠি।
আমরা বর্তমানে ভৌত এআই নিয়ে আলোচনা করি, যা প্রায়শই উপেক্ষা করা হয় এমন একটি দিক হলো, ভৌত এআই এবং ভার্চুয়াল এআই পরস্পরবিরোধী নয়; প্রযুক্তিগত আর্কিটেকচারের দিক থেকে, একটি সম্পূর্ণ ভৌত এআই সিস্টেম প্রায়শই তিনটি স্তরে বিভক্ত: নিম্নস্তরে সংবেদনশীল স্তর (সেন্সর, দৃশ্য চিহ্নিতকরণ), মধ্যস্তরে চিন্তা-সিদ্ধান্ত স্তর (এআই যুক্তি), এবং উচ্চস্তরে কার্যকরণ স্তর (মেকানিকাল নিয়ন্ত্রণ)।
ভার্চুয়াল এআই মূলত মধ্যবর্তী স্তরের জন্য দায়ী, যখন পদার্থগত এআই অনুভূতি থেকে কার্যক্রমের পূর্ণ চেইনকে সংযুক্ত করে।
নভেডিয়ার “চিপ + মডেল + টুলস” সম্পূর্ণ সমাধান এই ধারণার প্রতিফলন, জেটসন থর এজ কম্পিউটিং প্ল্যাটফর্ম কম্পিউটেশনাল পাওয়ার প্রদান করে, GR00T মডেল বুদ্ধিমত্তা প্রদান করে, এবং ইসাক প্ল্যাটফর্ম ডেভেলপমেন্ট টুলচেইন প্রদান করে। এই সমাধানের সাথে তুলনা করলে, ভবিষ্যতে যে প্রতিষ্ঠান সফটওয়্যার এবং হার্ডওয়্যারের গভীর একীভূতকরণকে সঠিকভাবে সম্পন্ন করতে পারবে, তারা শুধুমাত্র ভৌত AI-এর “মস্তিষ্ক” থেকে “অঙ্গ”-এর সম্পূর্ণ চক্রটি সম্পন্নই করবে না, বরং নিজস্ব প্রযুক্তিগত সুরক্ষা প্রাচীরও গড়ে তুলবে।
শেষ বিষয়টি হল ফিজিক্যাল এআইয়ের বাণিজ্যিক প্রক্রিয়া। তিন বছর আগে, মূলধন বাজারে রোবোটিক্স ক্ষেত্রের জন্য কল্পনা ছিল “প্রযুক্তিগত দৃষ্টিভঙ্গি” থেকে, কিন্তু এখন, মূলধন বাজারের কাছে আরও বাস্তবসম্মত মূল্যায়নের মাপকাঠি রয়েছে, যা হল ডেলিভারি ক্ষমতা।
মিডিয়ার পরিসংখ্যান অনুযায়ী, ২০২৫ সালে চীনে বডি ইন্টেলিজেন্স ক্ষেত্রে মোট বিনিয়োগ ৭৩৫ বিলিয়ন যুযান এবং ৭৪৪টি বিনিয়োগ ও ফাইন্যান্সিং ইভেন্ট ঘটেছে, আর ২০২৬ সালের শুরু থেকে আরও ৩৭০ বিলিয়ন যুযানের বেশি যোগ করা হয়েছে, যার ফলে মোট ১,১০০ বিলিয়ন যুযানেরও বেশি পৌঁছেছে, কিন্তু এই ফুলের বনের নিচে মূলধনের প্রবাহে স্পষ্টভাবে গঠনগত পরিবর্তন ঘটেছে।
2026 সালের মে মাসে, টিয়ানজি ইন্টেলিজেন্স 10 বিলিয়ন ইয়ুয়ানের B-পর্যায়ের বিনিয়োগ সম্পন্ন করে, যার মূল চাবিকাঠি হল Q1-এ 10,000টিরও বেশি অর্ডার হাতে রাখা এবং 45টি রোবোটিক্স কোম্পানিকে ক্লায়েন্ট হিসেবে কভার করা।
সেংকে ফাইফথ এজ একই সময়ে কয়েক শত কোটি রেনমিনবির A-রাউন্ড ফান্ডিং পেয়েছে এবং বিদেশে কয়েক শত কোটি রেনমিনবির অর্ডার পেয়েছে তা প্রকাশ করেছে।
ভিটা পাওয়ার এবং লু মিং রোবোটিক্সের ফান্ডিংয়ে শংগি ক্যাপিটাল, মিবিশি ইলেকট্রিক সহ শিল্প বিনিয়োগকারীরা ধারাবাহিকভাবে প্রবেশ করেছেন, যার উদ্দেশ্য হল উৎপাদন লাইনের ক্ষমতা এবং রোবোট ডেলিভারির ক্ষমতা বাঁধা।
অন্যদিকে, মার্কিন মানবাকৃতি রোবট স্টার্টআপ কার্টউইল রোবোটিক্স যদিও প্রযুক্তিগত দৃষ্টিভঙ্গি রেখেছিল, কিন্তু অর্ডারের সমর্থন ছিল না, এবং ২০২৬ সালের মার্চে বন্ধ হয়ে যায়।
সকার ও বিপরীত উদাহরণগুলি দেখায় যে, মূলধন এখন শুধুমাত্র বাস্তবিক প্রোডাকশন ডেলিভারির ক্ষমতার জন্য পেমেন্ট করে, শুধুমাত্র কুল ডেমোর জন্য নয়।
04 সমাপ্তি
ভৌত এআইয়ের হঠাৎ জনপ্রিয়তা আসলে স্বাভাবিক প্রবাহ।
অবশ্যই, কিছু শিল্প বিশেষজ্ঞ মনে করেন যে “ফিজিক্যাল এআই” বেশিরভাগই ক্যাপিটাল মার্কেট দ্বারা তৈরি একটি নতুন ধারণা, যার মূল হল এমবডিড ইন্টেলিজেন্স এবং রোবোটিক্স প্রযুক্তির প্রাকৃতিক বিকাশ, তবে অস্বীকার করা যায় না যে ফিজিক্যাল এআই-এর উত্থানটি স্পষ্টভাবে চিহ্নিত করে যে এআই শিল্পটি “ভার্চুয়াল ইন্টেলিজেন্স” থেকে “ফিজিক্যাল এক্সিকিউশন”-এর দিকে যাচ্ছে, যা নিজেই একটি অপরিবর্তনীয় ঐতিহাসিক প্রক্রিয়া।
সর্বশেষ প্রতিযোগিতায়, ফিগার এআই লাইভস্ট্রিমের মাধ্যমে বিশ্বকে তাদের ক্ষমতা প্রদর্শন করেছে, জিয়ায়ুয়ান রোবোটিক্স বড় পরিমাণে ডেলিভারির মাধ্যমে শিল্প বাধা গড়ে তুলেছে, নভিডিয়া কসমস এবং GR00T ব্যবহার করে প্ল্যাটফর্ম ইকোসিস্টেম তৈরি করেছে... এখন পরবর্তী প্রশ্নটি হলো, কোন কোম্পানি ফিজিক্যাল এআই-এর ক্ষেত্রে OpenAI-এর মতো হবে? কোন অ্যাপ্লিকেশন স্কেনারিওটি সবচেয়ে আগে “ChatGPT মুহূর্ত” অনুভব করবে?
