এইচডব্লিউএম ওয়ার্ল্ড মডেলসে দীর্ঘমেয়াদি পরিকল্পনার অগ্রগতি ঘটাচ্ছে

প্রস্তাবনা

গত বছরের জন্য বিশ্ব মডেলের গবেষণার প্রাথমিক ফোকাস ছিল প্রতিনিধিত্ব শেখা এবং ভবিষ্যতের পূর্বানুমান। মডেলটি প্রথমে বিশ্বকে বুঝে, তারপর অভ্যন্তরীণভাবে ভবিষ্যতের অবস্থা পূর্বানুমান করে। এই পথটি এখন পর্যন্ত কয়েকটি প্রতিনিধিত্বমূলক ফলাফল উৎপন্ন করেছে। V-JEPA 2 (ভিডিও জয়েন্ট এমবেডিং প্রেডিকটিভ আর্কিটেকচার 2—মেটা দ্বারা 2025 সালে প্রকাশিত একটি ভিডিও বিশ্ব মডেল) 100 লক্ষ ঘন্টারও বেশি ইন্টারনেট ভিডিওর সাথে পূর্ব-প্রশিক্ষণ করা হয়েছিল, এবং কয়েকটি রোবট ইন্টারঅ্যাকশন ডেটা সহ, এটি বিশ্ব মডেলের বুঝতে, পূর্বানুমান করতে এবং জিরো-শট রোবট পরিকল্পনা করতে সক্ষমতা দেখিয়েছে।

কিন্তু মডেল পূর্বাভাস দেওয়ার ক্ষমতা রাখে, এর মানে এটি দীর্ঘ কাজ প্রক্রিয়াকরণের ক্ষমতা রাখে না। বহু-পর্যায় নিয়ন্ত্রণের ক্ষেত্রে, সিস্টেম সাধারণত দুটি চাপের সম্মুখীন হয়। একটি হলো, পূর্বাভাসের ত্রুটি দীর্ঘ rollout (ক্রমাগত একাধিক পদক্ষেপের পূর্বাভাস) জুড়ে সঞ্চিত হয়ে সমগ্র পথটিকে লক্ষ্য থেকে বিচ্যুত হওয়ার দিকে নিয়ে যায়। অন্যটি হলো, ক্রিয়ার অনুসন্ধানের স্থানটি horizon (পরিকল্পনা-দৃষ্টিকোণ) বৃদ্ধির সাথে দ্রুত বিস্তৃত হয়, যা পরিকল্পনার খরচকে ক্রমাগতভাবে বৃদ্ধি করে। HWM বিশ্ব মডেলের মূল শিক্ষা পথকে পুনঃলিখন করেনি, বরং ইতিমধ্যেই ক্রিয়া-শর্তযুক্ত বিশ্ব মডেলের উপরে একটি স্তরবদ্ধ পরিকল্পনা কাঠামোয় যোগ করেছে, যাতে সিস্টেমটি প্রথমে পর্যায়গুলির পথগুলি সংগঠিত করে, তারপরে স্থানীয় ক্রিয়াগুলির সাথে কাজ করে।

প্রযুক্তিগতভাবে, V-JEPA 2 (https://ai.meta.com/research/vjepa/) বিশ্বের প্রতিনিধিত্ব এবং মৌলিক পূর্বাভাসের দিকে বেশি মনোনিবেশ করে, HWM দীর্ঘমেয়াদি পরিকল্পনার দিকে বেশি মনোনিবেশ করে, এবং WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry, https://arxiv.org/abs/2604.01985) মডেলের নিজস্ব পূর্বাভাসের বিকৃতি চিহ্নিতকরণ এবং সংশোধনের দিকে বেশি মনোনিবেশ করে। এই তিনটি দিক ধীরে ধীরে একত্রিত হচ্ছে। বিশ্ব মডেল গবেষণার ফোকাস এখন শুধুমাত্র ভবিষ্যতের পূর্বাভাস দেওয়ার থেকে এগিয়ে গিয়েছে—এখন পূর্বাভাসের ক্ষমতাকে কার্যকর, সংশোধনযোগ্য এবং যাচাইযোগ্য সিস্টেমগত ক্ষমতায় রূপান্তরিত করা হচ্ছে।

কেন দীর্ঘস্থায়ী নিয়ন্ত্রণ এখনও বিশ্ব মডেলের বাধা

দীর্ঘ সময়ের নিয়ন্ত্রণের কঠিনতা রোবট কাজের সাথে তুলনা করলে এটি আরও সহজে বোঝা যায়। মেকানিক্যাল আর্ম অপারেশনের উদাহরণ দিয়ে বলা যাক, একটি কাপ উঠিয়ে এটিকে ড্রয়ারে রাখা একটি একক ক্রিয়া নয়, বরং একটি ধারাবাহিক পদক্ষেপের সমষ্টি। সিস্টেমটিকে বস্তুর কাছাকাছি আসতে হবে, ভঙ্গি সমন্বয় করতে হবে, ধরে রাখতে হবে, লক্ষ্যস্থানে নিয়ে যেতে হবে, এবং ড্রয়ার এবং স্থাপনের সাথে পরিচালনা করতে হবে। এই শৃঙ্খলটি যতই দীর্ঘ হয়, দুটি সমস্যা একসাথে দেখা দেয়। একটি হলো, পূর্বানুমানের ত্রুটি rollout-এর সাথে সঞ্চিত হয়ে যায়, আরেকটি হলো, অ্যাকশন অনুসন্ধানের স্থানটি দ্রুত বৃদ্ধি পায়।

প্রায়শই সিস্টেমের অভাব হয় স্থানীয় ভবিষ্যদ্বাণীর ক্ষমতার নয়, বরং দীর্ঘমেয়াদি লক্ষ্যগুলিকে পর্যায়ক্রমে পথে সাজানোর ক্ষমতার। অনেক ক্রিয়াকলাপ স্থানীয়ভাবে লক্ষ্য থেকে বিচ্যুত হচ্ছে বলে মনে হলেও, আসলে এগুলি লক্ষ্য পূরণের জন্য প্রয়োজনীয় মধ্যবর্তী ধাপ। যেমন, ধরে রাখার আগে হাতটি উঁচু করা, আঁকড়ে টানার আগে পিছনে সরে যাওয়া এবং কোণটি সামঞ্জস্য করা।

প্রদর্শনমূলক কাজে, বিশ্ব মডেল সক্ষম হয়েছে সুসংগঠিত ভবিষ্যদ্বাণী দিতে। কিন্তু বাস্তব নিয়ন্ত্রণ পরিস্থিতিতে প্রবেশ করার পর, কার্যক্ষমতা হ্রাস পেতে শুরু করে এবং সমস্যাগুলি দেখা দেয়। চাপ শুধুমাত্র প্রতিনিধিত্বের উপরই নয়, বরং পরিকল্পনা স্তরটি এখনও পর্যাপ্ত পরিপক্ক নয়।

দ্বিতীয়, এইচডব্লিউএম কীভাবে পরিকল্পনা প্রক্রিয়াকে পুনর্গঠন করে

HWM মূলত একটি স্তরে সম্পন্ন পরিকল্পনা প্রক্রিয়াকে দুটি স্তরে বিভক্ত করেছে। উপরের স্তরটি দীর্ঘতর সময় স্কেলে পর্যায়ের দিকনির্দেশনা নিয়ন্ত্রণ করে, আর নিচের স্তরটি ছোট সময় স্কেলে স্থানীয় বাস্তবায়নের দায়িত্ব বহন করে। মডেলটি শুধুমাত্র একটি গতিতে পরিকল্পনা করে না, বরং দুটি ভিন্ন সময় গতিতে একসাথে পরিকল্পনা করে।

দীর্ঘ কাজগুলি প্রক্রিয়াকরণের জন্য এক-স্তরের পদ্ধতিটি সাধারণত মূল ক্রিয়া স্থানে সম্পূর্ণ ক্রিয়া শৃঙ্খলটি অনুসন্ধান করে। কাজটি যত দীর্ঘ হয়, অনুসন্ধানের খরচ তত বেশি হয়, এবং পূর্বাভাসের ত্রুটিগুলি একাধিক পদক্ষেপের রোলআউটের মধ্যে দিয়ে বিস্তারিতভাবে ছড়িয়ে পড়ার সম্ভাবনা বেড়ে যায়। HWM-এর প্রক্রিয়াটি বিভক্ত করার পর, উচ্চস্তরটি শুধুমাত্র দীর্ঘতর সময়সীমার পথ নির্বাচনের সাথে কাজ করে, এবং নিম্নস্তরটি শুধুমাত্র বর্তমান ক্রিয়ার সম্পন্নকরণের সাথে কাজ করে, যার ফলে দীর্ঘ কাজটি কয়েকটি ছোট কাজে বিভক্ত হয়, এবং পরিকল্পনার জটিলতা হ্রাস পায়।

এখানে একটি গুরুত্বপূর্ণ ডিজাইন রয়েছে, উচ্চ স্তরের ক্রিয়াগুলি শুধুমাত্র দুটি অবস্থার মধ্যে পার্থক্য রেকর্ড করে না, বরং একটি এনকোডার ব্যবহার করে একটি নিম্ন স্তরের ক্রিয়াকে উচ্চতর স্তরের ক্রিয়ার প্রতিনিধিত্বে সংকুচিত করে। দীর্ঘ কাজের জন্য, শুধুমাত্র শুরু এবং শেষের মধ্যে পার্থক্যই গুরুত্বপূর্ণ নয়, বরং মধ্যবর্তী ধাপগুলি কীভাবে সংগঠিত হয়েছে তাও গুরুত্বপূর্ণ। উচ্চ স্তর যদি শুধুমাত্র স্থানান্তরের পার্থক্য দেখে, তবে এই ক্রিয়া চেইনের পথের তথ্য হারিয়ে ফেলতে পারে।

HWM একটি স্তরবদ্ধ কাজ সংগঠন পদ্ধতি প্রতিফলিত করে। একাধিক পর্যায়বিশিষ্ট কাজের সম্মুখীন হয়ে, সিস্টেম একসাথে সমস্ত ক্রিয়াকলাপ প্রকাশ করে না, বরং প্রথমে একটি স্থূল পর্যায় পথ গঠন করে, তারপর ধাপে ধাপে কার্যক্রম এবং সংশোধন করে। এই স্তরবদ্ধ সম্পর্কটি বিশ্ব মডেলে প্রবেশ করার পর, ভবিষ্যদ্বাণীর ক্ষমতা পরিকল্পনার ক্ষমতায় আরও স্থিতিশীলভাবে রূপান্তরিত হতে শুরু করে।

তিন, ০% থেকে ৭০% পর্যন্ত, পরীক্ষার ফলাফল কী বোঝায়

প্রকৃত বিশ্বের ধরে রাখা এবং রাখার কাজে, সিস্টেমটি শুধুমাত্র চূড়ান্ত লক্ষ্য শর্তগুলি পায়, মানব-বিভক্ত মধ্যবর্তী লক্ষ্যগুলি প্রদান করা হয় না। এই শর্তে, HWM-এর সফলতার হার 70% এবং একক-স্তরের বিশ্ব মডেলের সফলতার হার 0%। আগে প্রায় অসম্ভব দীর্ঘ কাজগুলি, স্তরবদ্ধ পরিকল্পনা চালুর পরে, সম্ভাব্যভাবে সম্পন্নযোগ্য হয়ে উঠেছে।

পেপারটি প্রতিকৃতি কাজগুলির মধ্যে বস্তু ঠেলা এবং ল্যাবিরিন্থ নেভিগেশন পরীক্ষা করেছে। ফলাফলগুলি দেখিয়েছে যে, স্তরীয় পরিকল্পনা শুধুমাত্র সাফল্যের হার বাড়ায়নি, বরং পরিকল্পনা পর্যায়ের গণনা খরচও কমিয়েছে। কিছু পরিবেশে, পরিকল্পনা পর্যায়ের গণনা খরচ প্রায় চারগুণ কমিয়ে ফেলা যায়, একইসাথে উচ্চতর বা সমতুল্য সাফল্যের হার বজায় রেখে।

চতুর্থ, ভি-জেপিএ থেকে এইচডব্লিউএম এবং তারপর ওয়াভ পর্যন্ত

V-JEPA 2 হল বিশ্বের প্রতিনিধিত্বের পথ। V-JEPA 2 কে 10 লক্ষ ঘন্টার বেশি ইন্টারনেট ভিডিও দিয়ে প্রি-ট্রেন করা হয়েছে, এবং তারপর 62 ঘন্টার কম রোবট ভিডিও ব্যবহার করে পোস্ট-ট্রেনিং (প্রি-ট্রেনিংয়ের পরে লক্ষ্য-ভিত্তিক ট্রেনিং) করা হয়েছে, যার ফলে পদার্থবিদ্যার বিশ্বকে বুঝতে, ভবিষ্যদ্বাণী করতে এবং পরিকল্পনা করতে ব্যবহারযোগ্য latent action-conditioned world model (অস্পষ্ট প্রতিনিধিত্ব স্থানে, ক্রিয়ার তথ্য সহ ভবিষ্যদ্বাণীকারী বিশ্ব মডেল) তৈরি হয়। এটি দেখায় যে মডেলটি বৃহৎ পরিমাণে পর্যবেক্ষণের মাধ্যমে বিশ্বের প্রতিনিধিত্ব অর্জন করতে পারে এবং এই প্রতিনিধিত্বটি রোবট পরিকল্পনায় স্থানান্তরিত করতে পারে।

HWM পরবর্তী পদক্ষেপে রয়েছে। মডেলটি বিশ্বের প্রতিনিধিত্ব এবং মৌলিক পূর্বানুমানের ক্ষমতা অর্জন করেছে, কিন্তু একবার বহু-পর্যায়ের নিয়ন্ত্রণে প্রবেশ করলে ত্রুটি সঞ্চয় এবং অনুসন্ধান স্থানের বিস্তারের সমস্যা প্রকট হয়ে ওঠে। HWM মৌলিক প্রতিনিধিত্ব শিক্ষার পথকে পরিবর্তন করেনি, বরং ইতিমধ্যেই অ্যাকশন-শর্তযুক্ত বিশ্ব মডেলের উপর একাধিক সময়সীমার পরিকল্পনা কাঠামো যোগ করেছে। এটি যে সমস্যাটি সমাধান করছে, তা হলো—মডেলটি দীর্ঘমেয়াদি লক্ষ্যগুলিকে কিভাবে মধ্যবর্তী পদক্ষেপের একটি সেটে সংগঠিত করবে, এবং পরবর্তীতে ধাপে ধাপে এগিয়ে যাবে।

WAV আরও বেশি জোর দেয় যাচাইকরণের ক্ষমতার উপর। বিশ্ব মডেলগুলি কৌশল অপ্টিমাইজেশন এবং বাস্তবায়নের পরিস্থিতিতে প্রবেশ করতে চায়, শুধু ভবিষ্যদ্বাণী করতে পারলেই যথেষ্ট নয়, এটি নিজেকে কোন অঞ্চলে বিকৃতির শিকার হয়েছে তা শনাক্ত করতে পারতে হবে এবং এর ভিত্তিতে সংশোধন করতে হবে। এটি মডেলটি নিজেকে কীভাবে পরীক্ষা করে তার উপর নির্ভর করে।

V-JEPA বিশ্বের প্রতিনিধিত্বের দিকে ঝুঁকে, HWM কাজের পরিকল্পনার দিকে ঝুঁকে, WAV ফলাফলের যাচাইয়ের দিকে ঝুঁকে। তিনটির প্রতি মনোযোগ ভিন্ন হলেও, মূল দিকনির্দেশ একই। বিশ্ব মডেলের পরবর্তী পর্যায়ে, অন্তর্নিহিত পূর্বানুমানের বাইরেও, পূর্বানুমান, পরিকল্পনা এবং যাচাই ধীরে ধীরে একটি সিস্টেমগত ক্ষমতায় পরিণত হচ্ছে।

পাঁচ: অভ্যন্তরীণ পূর্বানুমান থেকে কার্যকরী সিস্টেমে

গতকালের অনেক বিশ্ব মডেল কাজ ভবিষ্যতের অবস্থা পূর্বানুমানের সামঞ্জস্যতা বা অভ্যন্তরীণ বিশ্ব প্রতিনিধিত্বের স্থিতিশীলতা বাড়ানোর দিকে বেশি মনোযোগ দিয়েছিল। কিন্তু বর্তমান গবেষণার ফোকাস পরিবর্তন হয়েছে—সিস্টেমটিকে পরিবেশের প্রতি বিচার গঠন করতে হবে, এই বিচারকে কার্যে রূপান্তরিত করতে হবে, এবং ফলাফল পাওয়ার পরেও পরবর্তী পদক্ষেপগুলি সংশোধন করতে হবে। বাস্তব বাস্তবায়নের কাছাকাছি যাওয়ার জন্য, দীর্ঘমেয়াদি কাজের মধ্যে ত্রুটির প্রসারণ নিয়ন্ত্রণ, অনুসন্ধানের পরিসর কমানো, এবং যুক্তির খরচ কমানো প্রয়োজন।

এই ধরনের পরিবর্তনগুলি AI এজেন্টকেও প্রভাবিত করবে। অনেক এজেন্ট সিস্টেম ইতিমধ্যেই ছোট লিঙ্কের কাজগুলি সম্পন্ন করতে পারে, যেমন টুল কল করা, ফাইল পড়া, কিছু ধাপের নির্দেশাবলী বাস্তবায়ন করা। কিন্তু যখন কাজটি দীর্ঘ-লিঙ্ক, বহু-পর্যায়বিশিষ্ট এবং মধ্যপথে পুনর্নকশা প্রয়োজন হয়, তখন এর কর্মক্ষমতা হ্রাস পায়। এটি রোবটিক্স নিয়ন্ত্রণের চ্যালেঞ্জগুলির সাথে মৌলিকভাবে একই, যেখানে উচ্চ-স্তরের পথ সংগঠনের অভাবে স্থানীয় বাস্তবায়ন এবং সামগ্রিক লক্ষ্যের মধ্যে বিচ্ছিন্নতা ঘটে।

এই স্তরবদ্ধ কাঠামোটি, যেখানে উচ্চস্তর পথ এবং পর্যায়গত লক্ষ্য নিয়ন্ত্রণ করে এবং নিম্নস্তর স্থানীয় ক্রিয়া এবং প্রতিক্রিয়া প্রক্রিয়াকরণ করে, তারপর ফলাফলের যাচাইকরণ যোগ করা হয়, ভবিষ্যতে আরও বেশি সিস্টেমে দেখা যাবে। বিশ্ব মডেলের পরবর্তী পর্যায়ে, ভবিষ্যতের পূর্বানুমানের বাইরেও, পূর্বানুমান, বাস্তবায়ন এবং সংশোধনকে একটি চলমান পথের মধ্যে সংগঠিত করা হবে।