লি ফেই-ফেই দল ওয়ার্ল্ড মডেল ধারণাটি পরিষ্কার করেছে, সোরাকে রেন্ডারার হিসাবে শ্রেণীবদ্ধ করা হয়েছে

২০২৬ সালের ৩ জুন, ওয়ার্ল্ড ল্যাবস দল স্ট্যানফোর্ড বিশ্ববিদ্যালয়ের অধ্যাপক লি ফেইফেইয়ের সাথে মিলে একটি ধারণামূলক বিশ্লেষণ প্রবন্ধ প্রকাশ করে, যার শিরোনাম এতটাই সরল যে এতে কোনও সাজসজ্জা নেই: “ওয়ার্ল্ড মডেলস: একটি ফাংশনাল ট্যাক্সনমি”। প্রবন্ধটির প্রথম বাক্যটি একটি শিল্পের অনুচিত চুপচাপকে ভেদ করে: “ওয়ার্ল্ড মডেলস হল বর্তমান কৃত্রিম বুদ্ধিমত্তা ক্ষেত্রের সবচেয়ে গুরুত্বপূর্ণ, এবং সবচেয়ে বেশি দুর্ব্যবহৃত শব্দগুলির মধ্যে একটি।”

এই বাক্যটির প্রেক্ষাপট, যে কেউ যিনি এআই শিল্পের দিকে দৃষ্টি রেখেছেন, তিনি তা অপরিচিত নন।

২০২৪ সালের ফেব্রুয়ারিতে, ওপেনএআই ভিডিও জেনারেশন মডেল Sora প্রকাশ করে, যার প্রযুক্তিগত রিপোর্টের শিরোনামে স্পষ্টভাবে লেখা ছিল: “ভিডিও জেনারেশন মডেল হিসাবে বিশ্ব সিমুলেটর”। সেই সময় NVIDIA-এর রোবোটিক্স ডিরেক্টর Jim Fan LinkedIn-এ একটি মন্তব্য রাখেন, যা পরবর্তীতে বারবার উদ্ধৃত হয়: Sora মূলত একটি “শুধুমাত্র অপারেশনহীনতা একমাত্র ক্রিয়া হিসাবে অনুমতি দেওয়া বিশ্ব মডেল”। অন্যদিকে, প্রকাশিত প্রতিবেদনগুলির মতে, Tesla-এর AI টিম প্রকাশ্যে বারবার তাদের ফুলি-অটোমেটেড ড্রাইভিং সিস্টেমের ভবিষ্যদ্বাণী উপাংশকে “বিশ্ব মডেল” বা “বিশ্ব সিমুলেটর” বলেছে। গেম ইঞ্জিন, 3D জেনারেশন টুলস, এমবডিড ইন্টেলিজেন্স মডেল—বিভিন্ন পণ্য এবং প্রযুক্তি একই বাক্সের মধ্যে ঢুকিয়ে একই লেবেল লাগানো হয়েছে।

একটি ভিডিও জেনারেটর, একটি অটোনোমাস ড্রাইভিং প্রেডিকশন নেটওয়ার্ক, একটি রোবোট কন্ট্রোল মডেল, একটি ফিজিক্স ইঞ্জিন—এদের মধ্যে প্রায় কোনো সাদৃশ্য নেই। কিন্তু এগুলিকেই “ওয়ার্ল্ড মডেল” বলা হয়।

দীর্ঘ দুই বছরের এই ধারণাগত বিশৃঙ্খলা শেষ পর্যন্ত কেউ ব্যবস্থাগতভাবে পরিষ্কার করার চেষ্টা করেছে। লি ফেইফেই দল এবার কোনো নতুন মডেল প্রকাশ করেননি, কোনো নতুন বেঞ্চমার্ক ঘোষণা করেননি, কোনো পণ্যের ফিচার ডেমো করেননি। তারা একটি আরও মৌলিক কাজ করেছেন: আংশিকভাবে পরিলক্ষিত মার্কোভ সিদ্ধান্ত প্রক্রিয়া—এই তত্ত্বগত উৎসে ফিরে যান, এবং বাজারে “বিশ্ব মডেল” হিসাবে পরিচিত সমস্ত সিস্টেমকে একই চিন্তাধারা-চক্রের তিনটি ভিন্ন কার্যকরী প্রক্ষেপণে সংকুচিত করেন।

তিনটি প্রজেকশন হল: রেন্ডারার, সিমুলেটর, প্ল্যানার। ওয়ার্ল্ড ল্যাবসের ক্লাসিফিকেশন ফ্রেমওয়ার্কের অধীনে, সোরা এবং এর অনুরূপ ভিডিও জেনারেশন মডেলগুলি রেন্ডারারের অন্তর্গত।

একটি শব্দ কিভাবে এতগুলি পরস্পরবিরোধী অর্থ ধারণ করতে পারে

এই বিশৃঙ্খলার মূল কারণ বুঝতে হলে একটি আরও মৌলিক প্রশ্ন করতে হবে: যখন একটি কোম্পানি বলে যে “আমরা বিশ্ব মডেল তৈরি করছি,” তখন এটি কী বোঝাচ্ছে?

OpenAI-এর জন্য, Sora-এর লক্ষ্য হল "ভিডিওতে পদার্থবিদ্যাগত বিশ্বকে বুঝতে এবং উপস্থাপন করা।" প্রযুক্তিগত রিপোর্ট অনুযায়ী, Sora বিশাল ভিডিও ডেটা থেকে পরিসংখ্যানগত নিয়মগুলি শিখে, দৃশ্যমান যুক্তির সাথে সঙ্গতিপূর্ণ চিত্র তৈরি করতে পারে—যেমন: কাপটি মেঝেতে পড়লে ভাঙবে, কাগজের বিমানটি ছেড়ে দিলে উড়বে, এবং মানুষ হাঁটার সময় পা একটির পর একটি নড়বে। এই চিত্রগুলি "পদার্থবিদ্যা বুঝে" মনে হয়।

টেসলার জন্য, "ওয়ার্ল্ড মডেল" হল একটি নিউরাল নেটওয়ার্ক যা FSD সিস্টেমে পথের অংশগ্রহণকারীদের ভবিষ্যতের কয়েক সেকেন্ডের মধ্যে গতিপথ পূর্বানুমান করে। এটি পথ পরিকল্পনা মডিউলকে নিরাপদ ড্রাইভিং সিদ্ধান্ত গ্রহণের জন্য সঠিক 3D অবস্থান, গতি এবং দিকনির্দেশ আউটপুট করতে হবে। এই মডেলটি পিক্সেল আউটপুট করার প্রয়োজন নেই, এটি ভেক্টর এবং সম্ভাবনার বণ্টন আউটপুট করে।

রোবোট কোম্পানির জন্য, "ওয়ার্ল্ড মডেল" হল একটি অভ্যন্তরীণ সিমুলেশন মেকানিজম যা রোবোটিক আর্মকে পূর্বানুমান করতে সক্ষম করে যে "যদি আমি এই কাপটিকে 5 সেন্টিমিটার বাম দিকে ঠেলে দিই, তাহলে এটি পড়ে যাবে কি?" এটির জন্য বস্তুর বৈশিষ্ট্য, সংযোগ বলবিদ্যা এবং স্থিতিশীলতা বুঝতে হয়, এবং আউটপুট হল কার্যক্রমের সম্ভাব্যতা মূল্যায়ন।

তিন ধরনের কোম্পানির লক্ষ্য সম্পূর্ণ ভিন্ন। ভিডিও জেনারেশন কোম্পানি পিক্সেল ফিডেলিটির দিকে মনোযোগ দেয়, অটোনোমাস ড্রাইভিং কোম্পানি ভৌত অবস্থা পূর্বানুমানের সঠিকতার দিকে মনোযোগ দেয়, এবং রোবোটিক্স কোম্পানি ক্রিয়াকলাপের পরিণতির প্রতিফলনযোগ্যতার দিকে মনোযোগ দেয়। তারা সবাই “ওয়ার্ল্ড মডেল” তৈরি করছে, কিন্তু এটি একই বিষয় নয়।

ওয়ার্ল্ড ল্যাবস নিবন্ধে সরাসরি সমস্যার মূলে যায়: এই সিস্টেমগুলি সবগুলিকে একই নাম দেওয়া হয়েছে, কারণ এগুলি প্রকৃতপক্ষে "বিশ্বকে বুঝতে" একটি নির্দিষ্ট দিক পূরণ করে। কিন্তু প্রতিটি সিস্টেম শুধুমাত্র পূর্ণাঙ্গ চেতনা চক্রের একটি ধাপ পূরণ করে, যা বিপণনের ভাষা, মিডিয়া রিপোর্টিং এবং মূলধনের বর্ণনা দ্বারা পূর্ণাঙ্গ বিশ্ব মডেলের মতো প্রদর্শিত হয়।

অন্য একটি প্রেরক হল শব্দগুলির নিজস্ব টানাপোড়েন। "বিশ্ব মডেল" শব্দটি স্বাভাবিকভাবেই বৃহৎ বর্ণনামূলক বৈশিষ্ট্য বহন করে, যা "ভিডিও জেনারেশন মডেল" বা "ভিডিও পূর্বানুমান মডেল"-এর চেয়ে বেশি কল্পনাশক্তি জাগায় এবং উচ্চ মূল্যায়ন এবং বিনিয়োগের গল্পকে সমর্থন করে। যখন প্রযুক্তিগত ক্ষমতা জনসাধারণের প্রত্যাশার সাথে মেলে না, তখন ধারণাটি প্রচারের সরঞ্জামে পরিণত হওয়াটা অপরিহার্য।

1960-এর দশকে সম্পূর্ণ “বিশ্ব মডেল” কী হওয়া উচিত ছিল

ওয়ার্ল্ড ল্যাবসের বর্গীকরণ কাঠামোটি একটি প্রাচীন মনে হওয়া তত্ত্বের উপর ভিত্তি করে তৈরি: আংশিকভাবে পরিলক্ষিত মার্কোভ সিদ্ধান্ত প্রক্রিয়া।

এই ফ্রেমওয়ার্কটি একটি এজেন্ট এবং পরিবেশের মধ্যে পূর্ণাঙ্গ চক্রের বর্ণনা করে। এজেন্টটি কোনো পরিবেশের অবস্থায় থাকে, এটি একটি ক্রিয়া সম্পাদন করে, যা পরিবেশের অবস্থা পরিবর্তন করে; এজেন্টটি সেন্সরের মাধ্যমে আংশিক পর্যবেক্ষণ পায়, যা অভ্যন্তরীণ অবস্থা আপডেটকে ট্রিগার করে, এবং আপডেটকৃত চিত্তাকর্ষণ পরবর্তী ক্রিয়াকে পরিচালিত করে। এই চক্রটি পুনরাবৃত্তি হয়।

এই কাঠামোর অধীনে, "বিশ্ব মডেল"-এর পূর্ণাঙ্গ কার্যক্রম তিনটি ধাপ অন্তর্ভুক্ত করবে: অবস্থা থেকে পর্যবেক্ষণ উৎপাদন (মানুষের চোখ দ্বারা দেখা বা সেন্সর দ্বারা সংগৃহীত পিক্সেল, পয়েন্ট ক্লাউড ইত্যাদি), ক্রিয়া এবং বর্তমান অবস্থা থেকে পরবর্তী অবস্থা পূর্বানুমান (ভৌত পরিবর্তনের পূর্বাভাস), এবং পর্যবেক্ষণ এবং লক্ষ্য থেকে ক্রিয়া উৎপাদন (সিদ্ধান্ত নির্ধারণ)।

ভাষা মডেল টেক্সট সিক�োয়েন্সের পরিসংখ্যানগত নিয়ম শেখে, অন্যদিকে বিশ্ব মডেল স্থান এবং সময়ের পরিসংখ্যানগত বৈশিষ্ট্য শেখে। বিভিন্ন পদার্থের পৃষ্ঠে আলোকের প্রতিফলন, বস্তুগুলি মহাকর্ষের প্রভাবে কীভাবে চলে, কঠিন বস্তুর ধাক্কার পর শক্তি কীভাবে স্থানান্তরিত হয়—এইগুলিই হল বিশ্ব মডেলের ধরে রাখার নিয়ম।

ওয়ার্ল্ড ল্যাবস দল নিবন্ধে উল্লেখ করেছে যে, বর্তমানে বাজারে যেসব সিস্টেমকে "ওয়ার্ল্ড মডেল" বলা হয়, তারা আসলে উপরের পূর্ণ চক্রের শুধুমাত্র একটি ফাংশনাল ধাপের প্রতিফলন। কিছু সিস্টেম শুধুমাত্র "অবস্থা থেকে পর্যবেক্ষণ" রেন্ডারিং করে, কিছু শুধুমাত্র "ক্রিয়া থেকে পরবর্তী অবস্থা" অবস্থা পূর্বানুমান করে, আবার কিছু শুধুমাত্র "পর্যবেক্ষণ থেকে ক্রিয়া" পরিকল্পনা করে। তারা প্রত্যেকেই চক্রের একটি চাপ কেটে নিয়েছে, কিন্তু প্রত্যেকটিকেই পূর্ণ বৃত্তের প্রতীক হিসাবে লেবেল দেওয়া হয়েছে।

এই বিশ্লেষণাত্মক কাঠামোর মূল্য হল এটি বিপণনের কথাবার্তার বাইরে একটি তুলনামূলক কোঅর্ডিনেট সিস্টেম প্রদান করে। যেকোনো কোম্পানি যতটা ইচ্ছা তার পণ্যকে কিভাবেই না প্যাকেজ করুক, এটিকে POMDP চক্রের মধ্যে ফিরিয়ে আনলে, এটি কী ইনপুট দেয়, কী আউটপুট দেয়, কোন ধাপগুলি অনুপস্থিত—এগুলির মাধ্যমেই এর ক্ষমতার সীমানা প্রকাশ পায়।

রেন্ডারার, সিমুলেটর, প্ল্যানার—তিনটি প্রজেকশনের সীমানা

ওয়ার্ল্ড ল্যাবসের বর্গীকরণে, প্রথম শ্রেণীকে "রেন্ডারার" হিসাবে সংজ্ঞায়িত করা হয়েছে। এর মূল লক্ষ্য হল মানব দৃষ্টির জন্য উচ্চ-বিশ্বস্ত পিক্সেল আউটপুট তৈরি করা। ইনপুট হল কোনো পরিবেশের অবস্থার প্রতিনিধিত্ব (যা টেক্সট বর্ণনা, 3D সিন প্যারামিটার বা ইমপ্লিসিট এনকোডিং হতে পারে), এবং আউটপুট হল ফ্রেম-বাই-ফ্রেম কন্টিনিউয়াস ইমেজ।

রেন্ডারিং অপ্টিমাইজেশনের দিকনির্দেশ হল দৃশ্যমান বাস্তবসম্মততা, ভৌত সঠিকতা নয়। World Labs-এর নিবন্ধটি স্পষ্টভাবে উল্লেখ করেছে যে রেন্ডারিং সিস্টেম দ্বারা তৈরি ভবনগুলি “অস্থির” হতে পারে, কারণ এটি আসলে কাঠামোগত বলবিজ্ঞানের সমীকরণগুলি সমাধান করে না; এটি তৈরি করা তরলের ছিটানো দেখতে বাস্তবসম্মত হতে পারে, কিন্তু তরলের আয়তন, প্রবাহহার এবং আঘাতের বল বাস্তব ভৌত পরিমাণগুলির সাথে সম্পূর্ণভাবে মিলছে না। তাই, এই ধরনের মডেলগুলিকে ভবন ডিজাইন, রোবট প্রশিক্ষণ, বা ভৌতভাবে সঠিকভাবে সিমুলেশনের প্রয়োজনীয়তা সহকারে কোনও কাজের জন্য ব্যবহার করা যাবে না।

গুগলের জেনিয়ে 3, বিভিন্ন টেক্সট-টু-ভিডিও মডেল এবং প্রায় সমস্ত এআই ভিডিও জেনারেশন টুল এই শ্রেণীর অন্তর্গত। সোরা অবশ্যই এর মধ্যে রয়েছে।

দ্বিতীয় ধরন হল "সিমুলেটর"। এর মূল লক্ষ্য হল মানুষের জন্য দৃশ্য তৈরি করা নয়, বরং পরবর্তী গণনার জন্য ব্যবহারযোগ্য সঠিক অবস্থা তৈরি করা। ইনপুট হল বর্তমান পরিবেশের অবস্থা এবং বাহ্যিক বল (বা ক্রিয়া), আউটপুট হল পদার্থবিদ্যা এবং জ্যামিতিভাবে বাস্তব পৃথিবীর নিয়মগুলির সাথে সঙ্গতিপূর্ণ পরবর্তী অবস্থা। সিমুলেটরের আউটপুটের অবস্থাগুলি প্রতিক্রিয়া বিশ্লেষণ, শক্তি খরচের গণনা, সংঘর্ষ শনাক্তকরণের জন্য ব্যবহার করা যেতে পারে, এবং এগুলি ভিজুয়ালাইজেশনের জন্য রেন্ডারারের ইনপুটও হতে পারে, কিন্তু এর মূল মূল্য অবস্থারই গণনাযোগ্যতায়।

NVIDIA Omniverse এই ধরনের সিস্টেমের একটি প্রতিনিধি। এটি একটি AI-নেটিভ মডেল নয়, বরং একটি ডিজিটাল টুইন প্ল্যাটফর্ম যা প্রাচীন ভৌত ইঞ্জিন এবং AI-ত্বরিত গণনাকে একীভূত করে। World Labs নিবন্ধে মন্তব্য করেছে যে, সিমুলেটরটি রেন্ডারিং এবং পরিকল্পনার মধ্যে সেতুবন্ধন, কিন্তু উচ্চমানের 3D ভৌত অ্যানোটেশন ডেটা এর অভাবই প্রধান বাধা। World Labs-এর নিবন্ধে অনুমান করা হয়েছে যে, এই ধরনের মডেলগুলির জন্য প্রশিক্ষণের ডেটা, ইন্টারনেটে উপলব্ধ ভিডিও ডেটার চেয়ে কয়েকটি ক্ষমতা কম।

তৃতীয় ধরন হল “প্ল্যানার”। এর ইনপুট হল পর্যবেক্ষণ ডেটা (ক্যামেরা ফুটেজ, লেজার রাডার পয়েন্ট ক্লাউড, ট্যাকটাইল সেন্সর পাঠ ইত্যাদি) এবং লক্ষ্য নির্দেশ, এবং আউটপুট হল পরবর্তী কী কার্যটি সম্পাদন করা উচিত। VLA (ভিজুয়াল-ল্যাঙ্গুয়েজ-অ্যাকশন) মডেল এবং ওয়ার্ল্ড অ্যাকশন মডেলস এই শ্রেণীর অন্তর্ভুক্ত।

তিনটি শ্রেণীর মধ্যে পার্থক্য হল প্রযুক্তিগত পথের সামান্য পার্থক্য নয়, বরং মৌলিক কার্যকারিতার বিভাজন। রেন্ডারার পিক্সেল আউটপুট দেয় মানুষের জন্য, সিমুলেটর অবস্থা আউটপুট দেয় মেশিনের জন্য, এবং প্ল্যানার ক্রিয়া আউটপুট দেয় এক্সিকিউটরের জন্য। একটি সিস্টেম একসাথে বহু ক্ষমতা ধারণ করতে পারে, কিন্তু যখন “ওয়ার্ল্ড মডেল” হিসাবে পরিচিত অধিকাংশ সিস্টেম মূলত শুধুমাত্র রেন্ডারিং করে, তখন “রেন্ডারিং”কে “বিশ্বকে বুঝা”এর সমান বলা একটি গুরুতর চিন্তাভাবনার অসামঞ্জস্যতা।

দুই বছর ধরে চলা একটি বিতর্ক, সোরা কি বাস্তব মডেল

২০২৪ সালের ফেব্রুয়ারিতে, ওপেনএআই সোরা প্রকাশ করে, যার প্রযুক্তিগত রিপোর্টের শিরোনামে সরাসরি লেখা ছিল “ভিডিও জেনারেশন মডেল হিসাবে বিশ্ব সিমুলেটর”। এই শব্দচয়ন তৎক্ষণাৎ শিক্ষাবিদদের এবং ডেভেলপার সম্প্রদায়ের মধ্যে তীব্র বিতর্কের সৃষ্টি করে।

সমর্থকদের মতে, সোরা দ্বারা তৈরি ভিডিওগুলি 3D স্পেস কনসিসটেন্সি, অবজেক্ট পারসিস্টেন্স এবং পদার্থবিদ্যাগত ইন্টারঅ্যাকশনের প্রতি কিছুটা স্বাভাবিক বোধকে প্রদর্শন করে। একটি কামড় খাওয়া হ্যামবার্গারে দাঁতের ছাপ থাকে, একটি কুকুর বরফের উপর দিয়ে দৌড়ালে বরফের ফুলকি উড়ে যায়—এই বিস্তারিতগুলি মডেলটি কিছু পদার্থবিদ্যাগত নিয়ম শিখেছে বলে মনে হয়।

প্রতিবাদকারীদের মূল যুক্তি বিশ্ব মডেলের জন্য রিইনফোর্সমেন্ট লার্নিং ক্ষেত্রের ক্লাসিক সংজ্ঞা থেকে আসে: একটি বিশ্ব মডেল অবশ্যই ক্রিয়ার ভিত্তিতে অবস্থা স্থানান্তর পূর্বানুমান করতে পারতে হবে। অর্থাৎ, বর্তমান অবস্থা এবং একটি ক্রিয়া ইনপুট প্রদান করলে, মডেলটি ক্রিয়ার পরের পরবর্তী অবস্থা আউটপুট করতে পারতে হবে। Sora এটি করতে পারে না। ব্যবহারকারীরা Sora-কে “বামদিক থেকে সেই কাপটি ঠেলে দিন” বলতে পারেন না, এবং তারপর দেখতে পান না যে কাপটি কি পড়বে, কোন দিকে পড়বে, বা ভাঙা টুকরোগুলি কোথায় ছড়িয়ে পড়বে।

জিম ফ্যানের মন্তব্যটি এই বিরোধটিকে সঠিকভাবে ধরেছে: “Sora মূলত একটি বিশ্ব মডেল, শুধু এটি একমাত্র ক্রিয়া হিসাবে নো-অপ (no-op) কে অনুমতি দেয়।” এর অর্থ হলো, Sora পরিবেশের সময়ের সাথে পরিবর্তনকে পূর্বানুমান করছে, কিন্তু এই পরিবর্তনের প্রক্রিয়াটি কোনো বাহ্যিক হস্তক্ষেপের প্রভাবে নয়, শুধুমাত্র ভিডিও ডেটার মধ্যে নিহিত কারণ-প্রভাব শৃঙ্খলের উপর ভিত্তি করে ঘটছে। এটি পারস্পরিক পরিকল্পনা করছে না, বরং পাসিভ পর্যবেক্ষণের ধারাবাহিকতা লিখছে।

Reddit-এর r/MachineLearning ফোরামে, অনেক রিইনফোর্সমেন্ট লার্নিং গবেষক আরও তীব্র সমালোচনা প্রকাশ করেছেন: ক্রিয়ার ভিত্তিতে অবস্থা পরিবর্তনের পূর্বানুমান করতে পারে না এমন সিস্টেমকে ওয়ার্ল্ড মডেল বলা যায় না, এটিকে শুধুমাত্র ভিডিও পূর্বানুমান মডেল বলা যায়।

ওয়ার্ল্ড ল্যাবসের বর্গীকরণ কাঠামো এই বিতর্কের জন্য একটি চূড়ান্ত উত্তর প্রদান করে। POMDP চক্রে, ক্রিয়াগুলি অবস্থা স্থানান্তরের জন্য কীভাবে প্রভাব ফেলে, এই ইনপুটটি অনুপস্থিত হলে, সিস্টেমটি শুধুমাত্র পূর্ণাঙ্গ জ্ঞানচক্রের "পর্যবেক্ষণ উৎপাদন" পর্যায়ের প্রতিবিম্ব। Sora একটি রেন্ডারার, পূর্ণাঙ্গ বিশ্ব মডেল নয়, আরও কমই বিশ্ব সিমুলেটর।

কিন্তু এর অর্থ এই নয় যে Sora-এর কোনো মূল্য নেই। রেন্ডারিং একটি ভিন্ন সমস্যার সমাধান করে: মানব দৃষ্টিকোণের প্রত্যাশার সাথে সঙ্গতিপূর্ণ চিত্র কীভাবে তৈরি করা যায়। এই সমস্যাটি নিজেই অত্যন্ত কঠিন এবং বিশাল বাণিজ্যিক মূল্য রাখে। সমস্যা হলো, রেন্ডারিং ক্ষমতাকে “বিশ্বকে বুঝতে পারা”-এর ক্ষমতা হিসেবে প্যাকেজ করা প্রযুক্তি সিদ্ধান্তগ্রহণকারীদের এবং বিনিয়োগকারীদের ভুলভাবে ধারণা দেয় যে এই মডেলগুলি ইতিমধ্যেই ভৌত পরিমাপনা বা শরীরসংশ্লিষ্ট মিথস্ক্রিয়ার ক্ষমতা অর্জন করেছে।

ধারণা পরিষ্কার করার শিল্পের মূল্য

"বিশ্ব মডেল" এর সংজ্ঞার সীমানা পরিষ্কার করা শুধু একটি শিক্ষাগত শব্দার্থবিতর্ক নয়। এটি প্রযুক্তি বাছাই, বিনিয়োগ সিদ্ধান্ত এবং জনগণের এআই-এর ক্ষমতা সম্পর্কে বোঝার মাত্রা প্রত্যক্ষভাবে প্রভাবিত করে।

একটি নির্মাণ প্রতিষ্ঠানের জন্য যেটি রোবোট প্রশিক্ষণের জন্য একটি “বিশ্ব মডেল” ব্যবহার করা হচ্ছে কিনা তা মূল্যায়ন করছে, এই মডেলটি কি রেন্ডারার, সিমুলেটর নাকি প্ল্যানার, এটি বুঝতে পারা হাজার হাজার ডলারের পরীক্ষা-ভুলের একটি অপরিহার্য পূর্বশর্ত। যে মডেলটি শুধুমাত্র ভিডিও ফ্রেম তৈরি করতে পারে, যদিও সেগুলি খুবই বাস্তবসম্মত, তা বস্তুর উপরের বল, গতিপথ এবং সংঘর্ষের পরিণতির সঠিক গণনা প্রতিস্থাপন করতে পারে না।

বিনিয়োগ প্রতিষ্ঠানগুলির জন্য, তিনটি প্রক্ষেপণ শ্রেণিবিভাগ চিহ্নিত করা মানে হল প্রকল্পটির প্রযুক্তিগত স্ট্যাকের অবস্থান সঠিকভাবে চিহ্নিত করা। একটি স্টার্টআপ যদি নিজেকে "ওয়ার্ল্ড মডেল" বলে দাবি করে, কিন্তু এর পণ্যটি মূলত একটি রেন্ডারার, তাহলে এর প্রতিদ্বন্দ্বী হবে ভিডিও জেনারেশন কোম্পানিগুলি, ডিজিটাল টুইন প্ল্যাটফর্ম বা রোবট কন্ট্রোল মডেলগুলি নয়। এটি সরাসরি বাজারের আকারের অনুমান এবং প্রতিদ্বন্দ্বী কোম্পানির নির্বাচনকে নির্ধারণ করে।

শিক্ষাবিদদের জন্য, স্পষ্ট শ্রেণীবিভাগ তুলনামূলক বেঞ্চমার্ক তৈরির পূর্বশর্ত। যদি "বিশ্ব মডেল" শব্দটি আরও ব্যাপকভাবে ব্যবহৃত হয়, তবে গবেষকদের জন্য কী উন্নতি এবং কী বিপ্লব তা সংজ্ঞায়িত করা কঠিন হয়ে পড়বে, এবং সহপাঠী পর্যালোচনা অস্পষ্টতার উপর ভিত্তি করে গড়ে উঠবে।

ওয়ার্ল্ড ল্যাবস নিবন্ধে উল্লেখ করেছে যে, ধারণাগত পরিষ্কারকরণের উদ্দেশ্য হলো বিপরীত মতের সৃষ্টি নয়। ভবিষ্যতের দিকনির্দেশ হবে তিনটি প্রজেকশনের সমন্বয়। একটি সত্যিকারের কাপের ভৌত বৈশিষ্ট্যগুলি বুঝতে পারে এমন মডেলটি একসাথে এর দৃশ্যমান আকৃতি রেন্ডার করতে, এটিকে পড়ে যাওয়ার সময়ের ভৌত প্রক্রিয়াটি সিমুলেট করতে এবং মেকানিক্যাল হ্যান্ডটিকে কীভাবে স্থিতিশীলভাবে ধরতে হবে তা পরিকল্পনা করতে পারবে। কিন্তু প্রযুক্তি সেই পর্যায়ে পৌঁছানোর আগে, সমন্বয়ের কথা ভাবার চেয়ে প্রতিটির সীমানা চিনা বাস্তবসম্মত।

ওয়ার্ল্ড ল্যাবসের নিবন্ধে অনুমান করা হয়েছে যে, NVIDIA Omniverse-এর মতো সিমুলেটর এবং ডিজিটাল টুইন প্রযুক্তি ফ্যাক্টরি, গুদাম, সাপ্লাই চেইন ইত্যাদি ক্ষেত্রে এক ট্রিলিয়ন ডলারেরও বেশি সম্ভাব্য বাজারকে লক্ষ্য করছে। এই সংখ্যাটি প্রস্তুতকারকদের নিজস্ব মূল্যায়নের উপর ভিত্তি করে। বাজারটি এই আকারে পৌঁছাতে কতক্ষণ সময় লাগবে, তা নির্ভর করছে সিমুলেটরগুলির উচ্চমানের 3D পদার্থবিদ্যা ডেটা-এর অভাবের বাধা অতিক্রম করতে পারবে কিনা।

বর্তমান পর্যায়ের এআই শিল্পের জন্য, সবচেয়ে গুরুত্বপূর্ণ বোধ হয়তো খুব সাদাসিধে: বাস্তবসম্মত ভিডিও তৈরি করতে পারা মানে পদার্থবিদ্যা বোঝা নয়; বিশ্ব মডেল বলা হলেও মানে বাস্তবে বিশ্বের অনুকরণ করা নয়। মার্কেটিংয়ের ভাষা পার হয়ে, একটি সিস্টেমের POMDP চক্রে কী ইনপুট গ্রহণ করা হচ্ছে, কী আউটপুট পাওয়া যাচ্ছে, কোন ধাপটি অনুপস্থিত—এগুলি হল প্রযুক্তিগত ক্ষমতার সীমানা নির্ধারণের সবচেয়ে সৎ পদ্ধতি।