ফেই-ফেই লি রোবোটিক্স এবং গেমিংয়ের জন্য ওয়ার্ল্ড মডেলের ফ্রেমওয়ার্ক প্রকাশ করেছেন

ফেই-ফেই লি একটি বিতর্ক সমাধান করতে চান যা কিছুদিন ধরে এআই সম্প্রদায়ে চলছে: বাস্তবিকই কী একটি “ওয়ার্ল্ড মডেল” হিসাবে গণ্য হয় এবং কীটা শুধুমাত্র একটি ল্যাবকোট পরা ফ্যান্সি ভিডিও জেনারেটর।

স্ট্যানফোর্ড বিশ্ববিদ্যালয়ের অধ্যাপক এবং ওয়ার্ল্ড ল্যাবসের সিইও জুন ৩, ২০২৬-এ “এ ফাংশনাল ট্যাক্সনমি অফ ওয়ার্ল্ড মডেলস” প্রকাশ করেন, যেখানে ওয়ার্ল্ড মডেলগুলিকে তিনটি স্পষ্ট কার্যক্রমে—রেন্ডারার, সিমুলেটর এবং প্ল্যানার—এ বিভক্ত করা হয়েছে। এই পেপারটি যুক্তি দেয় যে এই তিনটি ভূমিকা একটি পরস্পরসংশ্লিষ্ট লুপ গঠন করে, যা লি যা “স্পেশিয়াল ইনটেলিজেন্স” নামে ডাকেন, অর্থাৎ সেই ধরনের এআই যা পদার্থগত পরিবেশকে বুঝতে এবং এর সাথে মিথস্ক্রিয়া করতে সক্ষম।

তিনটি চাকরি, একটি মডেল

রেন্ডারার ফাংশনটি ভিজুয়াল জেনারেশন পরিচালনা করে। এটি ডেটা ইনপুট থেকে উচ্চ-বিশ্বস্ততা বিশিষ্ট ভিজুয়াল প্রতিনিধিত্ব তৈরি করে। এটিই বর্তমানে সবচেয়ে বেশি “ওয়ার্ল্ড মডেল” গুলি বাস্তবে করে, এবং লি পরিষ্কারভাবে যুক্তি দেন যে এই স্তরে আটকে থাকা সিস্টেমগুলি বাস্তবিকই ওয়ার্ল্ড মডেল নয়।

সিমুলেটর ফাংশনটি আরও গভীরে যায়। এটি শুধু আপনাকে কিছুর দেখতে কেমন তা দেখায় না। এটি পদার্থবিদ্যা, কারণ এবং প্রভাব, এবং বস্তুগুলির সময়ের সাথে পরস্পরের সাথে মিলনের পদ্ধতি মডেল করে। একটি রেন্ডারার আপনাকে একটি বলকে একটি প্রান্তের দিকে গড়িয়ে যাওয়ার দৃশ্য দেখাতে পারে। কিন্তু একটি সিমুলেটর জানে যে বলটি পড়ে যাবে।

বিজ্ঞাপন

প্ল্যানার ফাংশনটি বিশ্বের কাজের পদ্ধতি সম্পর্কে সিমুলেটরের বোঝাপড়া ব্যবহার করে কার্যক্রমের পথ নির্ধারণ করে। এটি একটি এআইয়ের মধ্যে পার্থক্য, যেটি একটি রান্নাঘর দেখে এবং যেটি ক্যাবিনেটের প্রতিটি প্লেট ভাঙ্গা ছাড়াই আপনার জন্য একটি স্যান্ডউইচ তৈরির উপায় বুঝতে পারে।

এই তিনটি ফাংশন পৃথকভাবে কাজ করে না। লির পেপারে এগুলিকে একটি নিরবচ্ছিন্ন লুপ হিসেবে বর্ণনা করা হয়েছে, যেখানে প্রতিটি ক্ষমতা অন্যগুলিকে তথ্য প্রদান করে এবং তাদের শক্তিশালী করে। একটি রেন্ডারার সিমুলেটরকে দৃশ্যমান প্রসঙ্গ সম্পর্কে তথ্য দেয়, সিমুলেটরটি প্ল্যানারকে পদার্থবিদ্যা-ভিত্তিক ভবিষ্যদ্বাণী প্রদান করে, এবং প্ল্যানারের লক্ষ্যগুলি রেন্ডারার এবং সিমুলেটরকে কী অগ্রাধিকার দিতে হবে তা আকৃতি দেয়।

কেন রোবোটিক্সের এতটাই দরকার

লি যুক্তি দিয়েছেন, যা নভেম্বর ২০২৫-এর একটি আগের ঘোষণাপত্রেও উল্লেখ করেছেন, যে বিশ্ব মডেলগুলি সিমুলেশন এবং বাস্তবতার মধ্যে ব্যবধান পূরণ করতে পারে। যদি আপনি ভৌত বিশ্বের একটি যথেষ্ট সঠিক ডিজিটাল প্রতিকৃতি তৈরি করতে পারেন, তাহলে রোবটগুলি প্রথমে সেখানে প্রশিক্ষণ নিতে পারে।

ওয়ার্ল্ড ল্যাবস ইতিমধ্যেই এই তত্ত্বকে বাস্তবায়ন শুরু করেছে। কোম্পানিটি নভেম্বর 2025-এ তার প্রথম বাণিজ্যিক পণ্য মার্বল চালু করে। মার্বল মাল্টিমোডাল প্রম্পট থেকে ধারাবাহিক, উচ্চ-বিশদ 3D বিশ্ব তৈরি করে, অর্থাৎ আপনি টেক্সট, ছবি বা অন্যান্য ইনপুট ব্যবহার করে একটি পরিবেশ বর্ণনা করতে পারেন, এবং মার্বল সেই বর্ণনা থেকে একটি নেভিগেটযোগ্য 3D স্থান তৈরি করে। এই সিস্টেমটি ইতিমধ্যেই রোবোটিক সিমুলেশন পরিবেশে ব্যবহার করা হচ্ছে।

একটি ভিডিওর মতো নয়, যা ফ্রেমের একটি নির্দিষ্ট ক্রম, মার্বলের বিশ্বগুলি আপনি তাদের মধ্যে চলাচল করার সময় সমান জ্যামিতি এবং পদার্থবিদ্যা বজায় রাখে। একটি মার্বল পরিবেশে প্রশিক্ষণ পাওয়া রোবট একই শেলফের বিভিন্ন কোণ থেকে আসতে পারে এবং একই অবস্থানে একই বস্তুগুলি খুঁজে পায়।

মিশনের পিছনের টাকা

ফেব্রুয়ারি ২০২৬-এ ওয়ার্ল্ড ল্যাবস $1 বিলিয়ন আকর্ষণ করে, যা আগের $230 মিলিয়ন রাউন্ডের উপর ভিত্তি করে। বিনিয়োগকারীদের তালিকায় রয়েছে AMD, Autodesk, NVIDIA এবং Fidelity।

মোট $1.23 বিলিয়ন ফান্ডিংয়ের মাধ্যমে, ওয়ার্ল্ড ল্যাবস একটি এআই স্টার্টআপ হিসেবে বিরল একটি অবস্থানে পৌঁছেছে, যেখানে এটি বড় ভাষা মডেলের প্রতিযোগিতার পরিবর্তে স্পেশিয়াল ইন্টেলিজেন্সের উপর ফোকাস করছে।