লেখাটি শরীরবাদী বুদ্ধিমত্তার ক্ষেত্রে ওয়ার্ল্ড মডেলের বিকাশের পথ নিয়ে আলোচনা করে। বর্তমানে দুটি পথ রয়েছে: সিলিকন ভ্যালির “প্রতিস্থাপনবাদী” পথটি WAM দ্বারা VLA-কে সম্পূর্ণভাবে প্রতিস্থাপনের দিকে ঝুঁকে, যেখানে দেশীয় প্রবাহটি “সংযোগবাদী” পথ হিসেবে ওয়ার্ল্ড মডেলকে VLA-এর ক্ষমতার পূরক হিসেবে বিবেচনা করে। লেখাটি বলছে যে ওয়ার্ল্ড মডেল তিনটি বুদ্ধিমত্তা-বিকৃতির সম্মুখীন: সংজ্ঞার সাধারণীকরণ, কম্পিউটিং বাধা এবং বাস্তবায়নের কঠিনতা। লেখকের মতে, প্রকৃত ওয়ার্ল্ড মডেলটি সত্যিকারের ব্যবসায়িক চক্রের সাথে এমবেডড হওয়া উচিত, যাতে মেশিনগুলি ভৌত বিশ্বে কাজ করতে পারে, শুধুমাত্র চিত্রগুলির বাস্তবসম্মততা অর্জনের জন্য নয়।

লেখক, উৎস: অ্যাপ্রিওরি ল্যাব

ভিএলএ থেকে ওয়াম পর্যন্ত, একটি অতিমূল্যায়িত বিপ্লব এবং অবহেলিত বিকাশ।

গত ছয় মাসে, এমবডিড ইন্টেলিজেন্স ক্ষেত্রে দুটি সবচেয়ে বড় জনমতের উৎসব ঘটেছিল। একটি স্ক্রিনের জন্য: Sora থেকে বিভিন্ন ভিডিও জেনারেশন মডেলগুলি ধারাবাহিকভাবে তাদের ক্ষমতা প্রদর্শন করেছে, একটি কাপ পানির ঢালার বিস্তারের বিস্তারিত, এবং স্থানের ধারাবাহিকতায় মানুষের গতিপথ, যা “AI পুনর্গঠন করছে বাস্তবতা” এর বর্ণনাকে শীর্ষে নিয়ে গেছে, “ওয়ার্ল্ড মডেল এসে গেছে” এই চিৎকারগুলি বারবার শোনা গেছে। অন্যটি মৃতদেহের জন্য: NVIDIA-এর প্রধান গবেষণা বিজ্ঞানী Jim Fan-এর একটি Meme-এ WAM (World Action Model) VLA (Vision-Language-Action Model) এর সমাধির সামনে দাঁড়িয়েছে, যা “VLA মারা গেছে, ওয়ার্ল্ড মডেলকে জয়!” ঘোষণা করে, সরাসরি পথের বিরোধকে সামনের দিকে নিয়ে আসে। (এই প্রবন্ধটি শুধুমাত্র এমবডিড ইন্টেলিজেন্সের ওয়ার্ল্ড মডেলকেই আলোচনা করবে)

দুটি উৎসবের একই কেন্দ্রীয় শব্দ: বিশ্ব মডেল।

কিন্তু অদ্ভুত বিষয় হলো, এমবডিড ইন্টেলিজেন্স ক্ষেত্রে যত বেশি মানুষ এটি নিয়ে কথা বলে, তত বেশি এর চেহারা অস্পষ্ট হয়ে যায়; কেউ বাস্তবসম্মত ভিডিও তৈরির কথা বলেন ওয়ার্ল্ড মডেল হিসেবে, কেউ রোবটের অ্যাকশন প্রিভিউজিংকে ওয়ার্ল্ড মডেল বলেন, আবার কেউ অটোনোমাস ড্রাইভিং সিমুলেশন পরিবেশকেও ওয়ার্ল্ড মডেল বলেন। একই ধারণার অধীনে, সম্পূর্ণভাবে ভিন্ন প্রযুক্তিগত লক্ষ্য এবং বাণিজ্যিক দাবি রাখা হয়েছে।

বিশ্ব মডেলের বর্তমান সবচেয়ে বড় বিপদ কখনও “অস্পষ্ট সংজ্ঞা” নয়, বরং সবাই এটির সবচেয়ে সহজে প্রদর্শনযোগ্য, সবচেয়ে সহজে প্রচারের বিস্ফোরণ তৈরি করতে পারে এমন দিকটিকে নিয়ে এটির সম্পূর্ণ মূল্য সংজ্ঞায়িত করছে। যখন “বিশ্ব তৈরি” করার দক্ষতা “বিশ্ব ব্যবহার” করার মূল উদ্দেশ্যকে ছাড়িয়ে যায়, তখন বিশ্ব মডেলগুলি সবচেয়ে ভালো গল্পকথাদের দ্বারা তাদের প্রকৃতভাবে যেখানে যাওয়া উচিত—Physical AI-এর প্রকৃত ভৌত পরিস্থিতি—থেকে দূরে নিয়ে যাচ্ছে।

বিশ্ব মডেলের অবশ্যই “বিশ্ব তৈরি” করার ক্ষমতা থাকতে হবে। সেই অসাধারণ জেনারেটিভ ডেমোগুলি না থাকলে, এটি এত দ্রুত জনসাধারণ এবং মূলধনের দৃষ্টিতে আসতে পারত না। কিন্তু ফিজিক্যাল AI শিল্পের জন্য, একটি বিশ্ব তৈরি করা কখনই সমস্যার শুরু ছিল না। বিশ্বটিকে চূড়ান্তভাবে নিয়ন্ত্রণ, যাচাই এবং সংশোধন করা প্রয়োজন, যাতে এটি মেশিনের কার্যকলাপের আগের প্রাক-সিমুলেশন স্পেস এবং সিদ্ধান্ত-গ্রহণের ভিত্তি হয়ে উঠতে পারে। ভিডিও জেনারেশন বিশ্ব মডেলের দরজা খুলতে পারে, কিন্তু এটি বাস্তব ভৌত বিশ্বের দিকে যাওয়ার পথটি শেষ করতে পারে না।

আমাদের কাছে নতুন ধারণা এবং নতুন বর্ণনা কখনই কমে না, শরীরবাদী বুদ্ধিমত্তা অবশ্যই নিজেদের সার্বজনীন পথ খুঁজে পাবে। তখন, এই পথটি VLA নামে, WAM নামে, অথবা অন্য যেকোনো নামে পরিচিত হোক, সম্ভবত এটি কোনোভাবেই গুরুত্বপূর্ণ হবে না।

কারণ এটি আমাদের জীবনে অন্তর্ভুক্ত হয়ে গেছে।

ওয়ার্ল্ড মডেল শুধুমাত্র "চিত্র তৈরি করা" এর সমান নয়

সোরা মনে আছে?

সেই বছর, ওপেনএআই যখন সোরা প্রকাশ করে, তখন রিপোর্টের শিরোনাম ছিল “ভিডিও জেনারেশন মডেল হিসাবে বিশ্ব সিমুলেটর”, যা ঘোষণা করে যে ভিডিও জেনারেশন মডেলগুলি “ভৌত বিশ্বের সার্বজনীন সিমুলেটর”-এর দিকে একটি সম্ভাব্য পথ হতে পারে। সোরা তখন যে দীর্ঘ ভিডিওগুলি প্রদর্শন করেছিল, তাতে ক্যামেরা মোশন, লোকাল 3D সামঞ্জস্যতা এবং অবজেক্ট স্টেট কনজারভেশনের ক্ষমতা, জনসাধারণকে প্রথমবারের মতো স্পষ্টভাবে অনুভব করিয়েছিল: AI আসলেই “একটি বিশ্ব তৈরি” করছে। টেক্সট এবং ছবির তুলনায়, ভিডিও মানবদের “বিশ্ব”-এর প্রতি সহজাত অনুভূতির সাথে প্রাকৃতিকভাবেই মানানসই—এতে সময়, স্থান, গতি এবং ধারাবাহিক পরিবর্তন থাকে, যা মানুষকে “মডেলটি ভৌত নিয়মগুলি শিখেছে” এইভাবের ভুল ধারণা তৈরি করতে সহজ।

এই ধরনের ক্ষমতা প্রকাশনা অনুষ্ঠানে প্রদর্শনের জন্য স্বাভাবিকভাবেই উপযুক্ত এবং বিনিয়োগকারী এবং মিডিয়ার দৃষ্টি আকর্ষণ করার জন্য সবচেয়ে সহজ। সময়ের সাথে সাথে, “ভিডিও জেনারেশন = ওয়ার্ল্ড মডেল” অনেকের জন্য ডিফল্ট চিন্তার প্রবেশদ্বার হয়ে উঠেছে।

এটি অবশ্যই ভুল নয়। ডিজিটাল-ন্যাটিভ পরিস্থিতিতে, ভিডিও জেনারেশন ভিত্তিক পথটি দক্ষ সমাধান হিসেবে প্রমাণিত হয়েছে এবং এখন অসংখ্য ইউনিকর্ণ কোম্পানি এই ক্ষেত্রে উঠে এসেছে। গেমিং শিল্পে, এই পণ্যগুলি বাস্তবসময়ে ডাইনামিক স্কেনগুলি তৈরি করতে ব্যবহার করা যায়, যা আর্টিস্টিক খরচ কমায় এবং খেলোয়াড়দের স্বাধীনতা বাড়ায়; এয়ারস্পেস, হাই-এন্ড ম্যানুফ্যাকচারিংয়ের মতো উচ্চ-পরীক্ষা-ভিত্তিক ক্ষেত্রগুলিতে, এটি পরীক্ষার সীমা বাড়াতে এবং সিমুলেশন স্কেনারিওগুলি সমৃদ্ধ করতে ব্যবহার করা যায়, যা স্পষ্ট বাণিজ্যিক মূল্য রয়েছে। এই সময়ে তৈরি “বিশ্ব”টি শুধুমাত্র দর্শকদের জন্য দৃশ্য নয়, বরং এটি ইন্টারঅ্যাকটিভ, পরীক্ষা-ভিত্তিক সিমুলেশন পরিবেশ।

বাস্তবিক ভুল ব্যাখ্যা হয় যখন এটি ক্রস-ডোমেইন হয়, যখন বিশ্ব মডেলগুলি এমবডিড ইন্টেলিজেন্সের সাথে মিলিত হয়, অনেকে ধরে নেয় যে মডেল যদি একটি নিরবচ্ছিন্ন, বাস্তবসম্মত ডিজিটাল বিশ্ব তৈরি করতে পারে, তাহলে এটি ভৌত বিশ্বের বোঝাপড়া, ভবিষ্যদ্বাণী এবং ক্রিয়াকলাপের ক্ষমতা অর্জন করেছে।

বিজিং জিহুয়ান আর্টিফিশিয়াল ইন্টেলিজেন্স ইনস্টিটিউটের প্রধান ওয়াং জংয়ুয়ান এই বিষয়ে স্পষ্টভাবে মন্তব্য করেছেন: বর্তমানে বিশ্ব মডেলের প্রতিনিধি হিসাবে প্রচলিত ভিডিও জেনারেশন প্রযুক্তি মূলত পিক্সেল-লেভেলের বিশ্ব সিমুলেশন। "ভিডিও জেনারেশন মডেলগুলি একটি ঝাঁকের শূকরকে আকাশে বিমানের সাথে উড়তে দেখাতে পারে, কারণ এর প্রশিক্ষণ ডেটাতে অসংখ্য বিজ্ঞান-কল্পকাহিনী চলচ্চিত্রের কনটেন্ট রয়েছে, এবং এর লক্ষ্য কখনই বাস্তব পদার্থবিদ্যার নিয়মগুলির পুনরুৎপাদন হয়নি।"

একটি ক্লাসিক শারীরিক পরিস্থিতি পার্থক্যটি বুঝতে পর্যাপ্ত: একটি কাপ ধরা। মডেলটি বিভিন্ন দৃশ্য থেকে একই আকৃতির কাপ তৈরি করতে পারে—এটি দৃশ্যগত সামঞ্জস্যতা, যা এটি ভিডিও ডেটা থেকে শিখেছে; কিন্তু হাত বাড়ালে ঘর্ষণ কতটা? উপাদানটি সংশ্লিষ্ট ধরে রাখার বলকে সহ্য করতে পারবে? কাপটি টেবিলের উপরে পড়ে, কারণ মডেলটি “কাপগুলি সাধারণত টেবিলের উপরে থাকে” মনে রেখেছে, নাকি এটি আসলে মহাকর্ষ, সমর্থন বল এবং সংযোগের সীমাবদ্ধতা বুঝতে পেরেছে? জটিল যান্ত্রিক প্রতিক্রিয়া, সংযোগের পরের অবস্থা পরিবর্তন, এবং বাস্তব ভৌত আইনের কারণ-প্রভাব সীমাবদ্ধতা—এগুলির মধ্যে কোনোটিই একটি জেনারেটেড ভিডিওতে অন্তর্ভুক্ত হয়না। যখন একটি পাশের দিকে চলা গাড়িকে জেনারেট করা হয়, এবং এটিকে অটোনোমাস ড্রাইভিংয়ের ট্রেনিংয়ের চেইনে যাচাইয়ের ছাড়াইই ঢুকিয়ে দেওয়া হয়, তখন বাস্তব ভৌতবিশ্বঅবশ্যইএকটিকষ্টকরপ্রতিক্রিয়াদেবে।

অর্থাৎ, ভিডিও জেনারেশন হল একটি বিশ্ব মডেলের একটি রূপ, যা অনেক পরিস্থিতিতে বাস্তবায়িত হয়েছে, কিন্তু এটি কখনই এমবডিড ইন্টেলিজেন্সের বিশ্ব মডেল নয়, এবং নিশ্চয়ই ফিজিক্যাল AI-এর প্রেক্ষাপটে কেন্দ্রীয় রূপও নয়। “বিশ্ব তৈরি” করার ভিজুয়াল ইফেক্ট দিয়ে এমবডিড ইন্টেলিজেন্সের বিশ্ব মডেলকে সংজ্ঞায়িত করা মূলত ডিজিটাল বিশ্বের মাপকাঠি দিয়ে পদার্থবিদ্যাগত বিশ্বের সমস্যা পরিমাপ করা।

ভিএলএ মারা গেছে? বিশ্ব মডেল হল বিপ্লব নয়, বরং পূরক

"VLA মারা গেছে, WAM এর উত্তরাধিকারী" হল শিল্পের মধ্যে সবচেয়ে জনপ্রিয় বর্ণনা।

গত দুই বছরে, VLA শরীরবৃত্তীয় বুদ্ধিমত্তার প্রধান পথ হয়ে উঠেছে। এটি বড় ভাষা মডেলের প্রি-ট্রেনিং পদ্ধতির অনুসরণ করে, বিপুল পরিমাণ রিমোট-অপারেশন ডেটা ব্যবহার করে “感知 - নির্দেশ - ক্রিয়া” ম্যাপিং তৈরি করে, যার ফলে রোবটগুলি কঠিন পুনরাবৃত্তি ক্রিয়াগুলি থেকে স্বাভাবিক ভাষা বুঝতে এবং জটিল কাজগুলি বিশ্লেষণ করতে সক্ষম হয়। শিল্পের সমস্ত প্রধান খেলোয়াড়গুলি VLA-কে তাদের প্রযুক্তিগত ভিত্তি হিসাবে ব্যবহার করেছে।

কিন্তু VLA-এর দুর্বলতা খুব পরিষ্কার: এটি মূলত অনুকরণ শেখার ফলে স্মৃতি এবং ম্যাপিং করে, যার ফলে পদার্থবিদ্যার মৌলিক বোঝাপড়ার অভাব ঘটে; যখনই ডেটাতে অপরিচিত নতুন পরিস্থিতি বা নতুন বস্তুর সম্মুখীন হয়, তখনই এর সাধারণীকরণ ক্ষমতা দ্রুত ব্যর্থ হয়ে যায়। জিম ফ্যানের প্রস্তাবিত WAM পথটি ঠিক এই সমস্যার উপর ফোকাস করে। এর মূল যুক্তি হল “সেমান্টিক বোঝাপড়া” থেকে “পদার্থবিদ্যাগত ভবিষ্যদ্বাণী”-এর দিকে সরে যাওয়া: সরাসরি ক্রিয়াগুলির আউটপুট দেওয়ার বদলে, এটি প্রথমে ভবিষ্যতের বিশ্বের অবস্থা ভবিষ্যদ্বাণী করে, তারপরে ক্রিয়ার ধারাটির বিপরীতে গণনা করে, যা রোবটকে কাজের আগেই মনের মধ্যে “অনুশীলন”-এর মাধ্যমে পরিণামগুলির পূর্বাভাস দেয়, যার ফলে অপরিচিত পরিস্থিতির প্রতি এর адапটেবিলিটি বৃদ্ধি পায়।

অতএব “বিপ্লবের তত্ত্ব” দ্রুত বিস্তার লাভ করে, ভিএলএ পুরনো প্যারাডাইম, আর বিশ্ব মডেলই শরীরবাদী বুদ্ধিমত্তার পরবর্তী প্রজন্মের উত্তর। কিন্তু বাস্তব শিল্প অনুশীলনে, এটি “জীবন বা মৃত্যু” এর মতো সহজ নয়।

শিল্পটি দুটি স্পষ্ট পথে বিভক্ত হয়েছে, যার পিছনে ভিন্ন ভিন্ন প্রযুক্তিগত দর্শন এবং ব্যবসায়িক চাহিদা রয়েছে:

একটি সিলিকন ভ্যালি প্রধান বিকল্প প্রবাহ। নভিডিয়া এবং গুগল ডিপমাইন্ডের প্রতিনিধিত্বে, যথেষ্ট কম্পিউটেশনাল পাওয়ার এবং ডেটা সঞ্চয়ের উপর নির্ভর করে, এটি সম্পূর্ণ প্যারাডাইম পুনর্গঠনের দিকে এগিয়ে যায়। নভিডিয়া Cosmos 3-এ ভাষা, চিত্র, ভিডিও এবং অ্যাকশন সিকোয়েন্সকে একই Physical AI ওয়ার্ল্ড মডেল ফ্রেমওয়ার্কের মধ্যে একীভূত করেছে, যাতে জেনারেশন, সিমুলেশন এবং অ্যাকশন প্রেডিকশন আর বিচ্ছিন্ন মডিউল না থাকে; Waymo এবং গুগল ডিপমাইন্ডের সহযোগিতায় চালুকৃত Waymo World Model, Genie 3 মডেলের ক্ষমতার সহায়তায়, শুধুমাত্র বিরল আবহাওয়া, প্রাণীর পথে আসা ইত্যাদি লং-টেইল সিনারিওগুলি তৈরির জন্যই সীমাবদ্ধ নয়, বরং এই সিনারিওগুলিকে ড্রাইভিং অ্যাকশন, রোড লেআউট এবং ভাষাগত শর্তগুলির দ্বারা নিয়ন্ত্রণের উদ্দেশ্যে, যাতে自动驾驶 সিস্টেমগুলির反事实 পরিস্থিতিতে প্রতিক্রিয়া পরীক্ষা করা যায়।

এই পথটি সবচেয়ে বেশি আকাঙ্ক্ষাপূর্ণ এবং "বিপ্লবী বর্ণনা" এর সাথে সবচেয়ে বেশি সামঞ্জস্যপূর্ণ, কিন্তু এর প্রবেশ প্রান্ত অত্যন্ত উঁচু, যা শীর্ষস্থানীয় বিগ কোম্পানিগুলির খেলা।

অন্যটি চীনা বাজারে আরও জনপ্রিয় “সংযোজনবাদী” পদ্ধতি। বেশিরভাগ খেলোয়াড় সম্পূর্ণভাবে পুনর্নির্মাণের পরিবর্তে বিশ্ব মডেলকে VLA-এর ক্ষমতার পূরক হিসাবে বিদ্যমান আর্কিটেকচারের মধ্যে এমবেড করেছে। জিজিয়ানফাং 2026 সালের মে মাসে VLA-ভিত্তিক এমবডিড লার্জ মডেল AlphaBrain প্রকাশ করে। এটি মানব মস্তিষ্কের “মস্তিষ্ক-অনুমস্তিষ্ক-শরীর” বিভাজন পদ্ধতির অনুকরণ করে, “দ্রুত-ধীর সিস্টেম”-এর সহযোগিতায় বিশ্ব মডেলের “পূর্বানুমান” ক্ষমতা VLA আর্কিটেকচারের ভিতরে এমবেড করেছে—ধীর সিস্টেমটি পরিবেশের অবস্থা সনাক্তকরণ এবং উচ্চস্তরীয় আচরণ পরিকল্পনার জন্য দায়ী, আর দ্রুত সিস্টেমটি সূক্ষ্ম সংবেদনশীলতা এবং দ্রুত ফিডব্যাকের জন্য। জিজিয়ানফাং-এর প্রতিষ্ঠাতা গুয়ান ইয়ানডংয়ের মতামতটি সরাসরি: “বিশ্ব মডেল এবং VLA-এর মধ্যে কোনও সংঘাতই নেই, এগুলি একই প্রযুক্তির দুটি শাখা। যদি আপনি দীর্ঘমেয়াদী যুক্তি-ভিত্তিক কাজগুলি করতে চান, তবে আপনার প্রয়োজন—বিশ্ব মডেল + VLA, অথবা বিশ্ব মডেলকে VLA-এর সাথে একীভূতকরণ।”

গ্যালাক্সি জেনারেলও খুব দূরে এগিয়েছে; তারা এই বছরের এপ্রিলে প্রকাশ করা LDA-1B মডেলটি একটি একীকৃত ফ্রেমওয়ার্কে একসাথে স্ট্র্যাটেজি শেখা, পদার্থবিদ্যা পূর্বানুমান এবং দৃশ্য সংবেদনশীলতা করেছে, যা প্রথমবারের মতো শিল্প-স্তরের 1 বিলিয়ন প্যারামিটার স্কেলে ওয়ার্ল্ড মডেল এবং অ্যাকশন মডেলকে একীভূত করেছে। সংশ্লিষ্ট অর্জনগুলি RSS, রোবটিক্সের শীর্ষ কনফারেন্সে বাছাই করা হয়েছে, এবং মডেলেরওয়েটস এবং ট্রেনিং কোডটি ওপেন-সোর্স করা হয়েছে। তারা “VLA নাকি ওয়ার্ল্ড মডেল” নিয়ে বিতর্কের পরিবর্তে, আরও বাস্তবসম্মতভাবে পূর্বানুমান এবং বাস্তবায়নকে একই মডেলের সাথে শেয়ার করে, প্রতিটির শক্তির সুবিধা নিয়ে, প্রতিটির দুর্বলতা পূরণ করছে।

আমাদের দৃষ্টিতে, “প্রতিস্থাপন” এবং “একীভূকরণ” এর মধ্যে কোনো পরম সঠিক বা ভুল নেই, শুধু বিভিন্ন পর্যায়ের বিভিন্ন পছন্দ। VLA বাস্তবিকই “মৃত” হবে না, বিশ্ব মডেলও সবকিছুকে উল্টে দেওয়ার বিপ্লব নয়; এটি VLA-এর সবচেয়ে বেশি অভাবিত ভৌত পূর্বানুমানের ক্ষমতা পূরণ করে। দুটির চূড়ান্ত সম্পর্ক হতে পারে স্তরবদ্ধ সহযোগিতা, নয় একটির মৃত্যু দিয়ে অন্যটির বিজয়। আসলে পথের বিজয়ীকে নির্ধারণ করে, ধারণাটি কতটা নতুন বা ট্রেন্ডি, তা নয়—বরং কে প্রথমে ডেটা, সিমুলেশন, এবং বাস্তব ডিপ্লয়মেন্টের চেইনটি সফলভাবে চালাতে পারে, যাতে রোবটগুলি প্রকৃত পরিস্থিতিতে প্রবেশ করতে পারে।

ওয়ার্ল্ড মডেল এখনও বাস্তবায়িত হয়নি, কিন্তু ধারণার অতিরিক্ত উত্তেজনা শুরু হয়ে গেছে

যখন ধারণার জনপ্রিয়তা প্রযুক্তির বাস্তবায়নের আগে চলে যায়, তখন বুদ্বুদ প্রায়ই অপরিহার্য ফলাফল। বর্তমান বিশ্ব মডেল খাতে, কমপক্ষে তিনটি সতর্কতার প্রয়োজনীয় বুদ্বুদ উঠে এসেছে।

প্রথম পর্যায় হল বুদ্বুদ সংজ্ঞায়িত করা। আজকের “বিশ্ব মডেল” একটি এমন টোকা হয়ে উঠেছে যাতে যা ইচ্ছা তাই ঢুকিয়ে দেওয়া যায়। ইয়ান লেকুন এটিকে বিশ্বের অবস্থার বিমূর্ত পূর্বানুমান হিসাবে দেখেন, লি ফেইফেই এটিকে ইন্টারঅ্যাকটিভ 3D স্পেস রিপ্রেজেন্টেশন হিসাবে সংজ্ঞায়িত করেন, নভিডিয়া এটিকে ফিজিক্স-এআই-জেনারেটেড সিমুলেশন হিসাবে পজিশন করেছে, স্টার্টআপগুলিতে কেউ ভিডিও জেনারেশন দিয়ে পূরণ করছে, আবার কেউ প্রাচীন সিমুলেশন ইঞ্জিনকে নতুন নাম দিয়ে “বিশ্ব মডেল” বলছে। দেশীয়ভাবে “বিশ্ব মডেল”-এর জন্য বিনিয়োগ করার দাবি করা ৩০টিরও বেশি কোম্পানির নাম উল্লেখ করা হয়েছে, কিন্তু তারা সম্ভবত একই জিনিসের কথা বলছে না। যখন একটি প্রযুক্তিগত ধারণাকে অসীমভাবেই ব্যাখ্যা করা যায়, তখন এটি প্রায়শই প্রযুক্তিগত মাপকাঠির অর্থহীনতা অর্জন করে। সংজ্ঞার সাধারণীকরণের পিছনে, ফান্ডিংয়ের প্রয়োজনীয়তা এবং মার্কেটিংয়ের গল্পগুলির সম্মিলিত প্রচারই রয়েছে, কারণ “বিশ্ব মডেল” বলা, “ভিডিও জেনারেশনটুল” বা “সিমুলেশন-অপটিমাইজেশন”-এর চেয়েও “বেশি”।

দ্বিতীয় প্রতিবন্ধকতা হল ক্যালকুলেশন ফুসকুড়ি। বিশ্ব মডেলের প্রধান প্রশিক্ষণ পথটি বিপুল পরিমাণে ভিডিও ডেটা এবং অত্যন্ত বড় ক্যালকুলেশন ক্ষমতার উপর ভিত্তি করে গড়ে উঠেছে, এবং এটিই হল নভেডিয়ার মূল ক্ষেত্র। হুয়াং রেনক্সন GTC কনফারেন্সে স্পষ্টভাবে বলেছেন যে 2027 সালের মধ্যে Blackwell এবং Rubin চিপগুলি, এবং এগুলির জন্য ডিজাইন করা বডি-সংক্রান্ত বুদ্ধিমত্তা মডেলগুলির জন্য সম্পূর্ণ সিস্টেমগুলি নভেডিয়াকে কমপক্ষে 1 ট্রিলিয়ন ডলারের আয় আনবে। কিছুটা অর্থে, সিলিকন ভ্যালির শীর্ষস্থানীয় খেলোয়াড়দের “সম্পূর্ণ-মোডালিটি জেনারেলওয়ার্ল্ড মডেল” পথটির প্রচারই, নভেডিয়ার “ক্যালকুলেশন-ইনফ্রাস্ট্রাকচার বিক্রি”-এর ব্যবসায়িক যুক্তির সাথে অত্যন্ত সামঞ্জস্যপূর্ণ। কিন্তু এই পথটির জন্য প্রয়োজনীয় বিনিয়োগের বাধা, অধিকাংশকেই, অপরিমেয়। অতীতে VLA-তে বিনিয়োগকারীদেরও, 100% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এরও 1% -এর�

তৃতীয় এবং সবচেয়ে মারাত্মক বিষয়টি হল ল্যান্ডিং বুবল। সমস্ত ধারণাগত বর্ণনা চূড়ান্তভাবে একই প্রশ্নের উত্তর দেয়: এটি কি প্রকৃত পারফরম্যান্স বাড়াতে পারে? কিন্তু বাস্তবতা হল, সিমুলেশন থেকে বাস্তবের স্থানান্তরের ব্যবধানটি মডেলের নাম VLA থেকে WAM-এ পরিবর্তন করলেই স্বয়ংক্রিয়ভাবে অদৃশ্য হবে না। ভিডিওতে একটি সূক্ষ্ম পার্টিকল ক্রস-অ্যানিমেশন, গুরুত্বহীনতা, বা সীমানা অস্পষ্টতা, রোবট প্রশিক্ষণের মধ্যে দিয়ে ভুল ভৌত ধারণা হয়ে জমে যায়; একটি যা যুক্তিসঙ্গত মনে হলেও ভৌত নিয়মকে উল্লঙ্ঘন করে, তা বাস্তব রোবটের জন্য মডেল-ভিত্তিক প্রশিক্ষণের চেয়েও বেশি বিভ্রান্তিকর।

অ্যান্ট লিংবোর প্রধান বিজ্ঞানী শেন ইউজুন মূল পার্থক্যটি উল্লেখ করেছিলেন: ডিজিটাল বিশ্বের জেনারেটিভ মডেলগুলি হাই-ডিফিনিশন রিয়েলিস্টিক ফলাফলের দিকে এগিয়ে যেতে পারে, ধীরে চললেও কোনো সমস্যা নেই; কিন্তু ভৌত বিশ্বের মডেলগুলির প্রথম প্রয়োজনীয়তা হলো দ্রুত, স্থিতিশীল এবং সঠিক, যাতে এটি প্রতিক্রিয়া প্রদান করতে পারে এবং কার্যকলাপকে সমর্থন করতে পারে। অনেক দল ডিজিটাল বিশ্বে দৃশ্যগুলির বাস্তবতা আরও বাড়ানোর উপর জোর দেয়, কিন্তু বাস্তব ভৌত ইন্টারঅ্যাকশনের ডেটা হলো সবচেয়ে দুর্লভ সম্পদ—এটি উপেক্ষা করে। বিশ্ব মডেলগুলি সিমুলেশনের মধ্যে সুন্দরভাবে মেট্রিকস প্রদর্শন করতে পারে, কিন্তু যতক্ষণ না এগুলি কারখানার উৎপাদন লাইন, লজিস্টিকস গুদাম, বা খোলা রাস্তায় বাস্তবিকভাবে মূল্যবানতা প্রমাণিত হয়নি, ততক্ষণই এগুলি শুধুমাত্র ল্যাব-স্তরের গবেষণা, শিল্প-স্তরের অবকাঠামোর মতো নয়।

তাহলে, ফিজিক্যাল এআই বা এমবডিড ইন্টেলিজেন্সের জন্য বিশ্ব মডেলটি কেমন হওয়া উচিত? উত্তরটি কখনও প্রকাশনা ভিডিওতে নয়, বরং বাস্তব পরিস্থিতির প্রয়োজনীয়তায় লুকিয়ে আছে। এর মূল মূল্যায়ন মাপকাঠি কখনও “উত্পাদিত বিশ্বটি কতটা বাস্তবসম্মত” নয়, বরং “এটি কি মেশিনকে ভৌত বিশ্বে আরও ভালভাবে কাজ করতে সাহায্য করতে পারে”, “এটি পরীক্ষা-ভুলের খরচ কমাতে পারে কি”, “এটি সাধারণীকরণের ক্ষমতা বাড়াতে পারে কি”, “এটি বাস্তব ব্যবসায়িক চক্রের সাথে একীভূত হতে পারে কি”。

বর্তমান শিল্পের অভ্যাস অনুযায়ী, সঠিক দিকে এগিয়ে যাওয়া প্রতিযোগীরা সবাই একই কাজ করছে: বিশ্ব মডেলকে "প্রদর্শন-ভিত্তিক" থেকে "কাজ-ভিত্তিক" এ রূপান্তরিত করা। অর্থাৎ, বিশ্ব মডেলের চূড়ান্ত রূপ হলো একটি স্বাধীন "পণ্য" নয়, বরং বিভিন্ন ভৌত সিস্টেমের মধ্যে অন্তর্ভুক্ত একটি মৌলিক ক্ষমতা। এটি অটোনোমাস ড্রাইভিংয়ের সিমুলেশন ব্যাকএন্ডে, রোবটের অ্যাকশন প্ল্যানিং মডিউলে, এবং ফ্যাক্টরি লাইনের পূর্বানুমান সিস্টেমে লুকিয়ে আছে, যেখানে এটি নিরবচ্ছিন্নভাবে পূর্বানুমান, পরীক্ষা-ভুল, এবং সংশোধনের কাজটি সম্পন্ন করে। বেশিরভাগ সময়, ব্যবহারকারীরা এটির অস্তিত্বও অনুভব করেনা।

এটিই বিশ্ব মডেলের যুগ, যদিও এটিকে বিশ্ব মডেল বলা হয় এমন কোনো বাধ্যবাধকতা নেই।

শরীরীয় বুদ্ধিতে ওয়ার্ল্ড মডেলস: ভিজুয়াল জেনারেশনের বাইরে একটি এগিয়ে যাওয়ার পথ

ওয়ার্ল্ড মডেল শুধুমাত্র "চিত্র তৈরি করা" এর সমান নয়

ভিএলএ মারা গেছে? বিশ্ব মডেল হল বিপ্লব নয়, বরং পূরক

ওয়ার্ল্ড মডেল এখনও বাস্তবায়িত হয়নি, কিন্তু ধারণার অতিরিক্ত উত্তেজনা শুরু হয়ে গেছে