
লেখক:গুয়ো শিয়াওজিং, টেনসেন টে
সম্পাদনা | শু চিংয়াং
বিশ্বের সেরা কয়েকটি কৃত্রিম বুদ্ধিমত্তা মডেল চিকিৎসা পরীক্ষার পরীক্ষা দিতে পারে, জটিল কোড লিখতে পারে এবং গণিত প্রতিযোগিতায় মানুষের বিশেষজ্ঞদের পরাজিত করতে পারে, তবে শিশুদের খেলা পোকেমনে বারবা�
2025 এর ফেব্রুয়ারিতে, একজন অ্যানথ্রপিকের গবেষক ক্লৌডে সনেট 3.7 মুক্তির সাথে সাথে "ক্লৌডে পোকেমন রেড খেলছে" নামে একটি টিউচ স্ট্রিম শুরু করেন, যার মাধ্যমে এই আকর্ষক প্রচেষ্টা শুরু হয়।
2000 জন দর্শক লাইভ স্ট্রিমে প্রবেশ করে। পাবলিক চ্যাট এলাকায়, দর্শকদের ক্লৌডকে পরামর্শ দিতে এবং উৎসাহিত করতে দেখা যায়, যার ফলে এই লাইভ স্ট্রিম ধীরে ধীরে একটি পাবলিক পর্যবেক্ষণে পরিণত হয়, যেখানে কৃত্রি�
সোনেট3.7 শুধুমাত্র "পোকেমন" খেলতে পারে বলা হতে পারে, কিন্তু "খেলতে পারে" মানে "জিততে পারে" নয়। এটি গুরুত্বপূর্ণ সময়ে ঘন্টার পর ঘন্টা ব্যর্থ হয়ে যায় এবং শিশু খেলোয়াড়দের দ্বারাও ত্রুটিগুলো হতে পারে না।
এটি ক্লৌডের প্রথম চেষ্টা ছিল �
আরও খারাপ ছিল আগের সংস্করণগুলো: কয়েকটি নির্দেশহীনভাবে মানচিত্রে ঘুরত, কয়েকটি অসীম লুপে আটকে থাকত এবং আরও বেশি সংখ্যক নতুন গ্রা�
যদিও ক্লৌড অপার 4.5-এর ক্ষমতা বিস্তার হয়েছে, তবুও এটি বোঝার বাইরে ভুল করে। একবার এটি চারদিন ধরে "গেম গেলারি" এর বাইরে ঘুরে বেড়ায়, কিন্তু ভিতরে প্রবেশ করতে পারে না, কারণ এটি বুঝতে পারে নি যে পথের সামনে একটি গাছ কাটা দরকার।
একটি শিশুদের খেলা কেন হয়ে গেল কৃত্রিম বুদ্ধিমত্তার (AI) ব
"পোকেমন" যা চায়, তা হল বর্তমান আর্টিফিশিয়াল ইন্টেলিজেন্সের সবথেকে কম পাওয়া ক্ষমতা: স্পষ্ট নির্দেশ ছাড়া খোলা বিশ্বে চলমান যুক্তি প্রক্রিয়াকরণ, ঘন্টার পর ঘন্টা আগের সিদ্ধান্তগুলো মনে রাখা, অস্পষ্ট কার্যকারী সম্পর্ক বুঝতে পারা, এবং শত শত সম্ভাব
এই বিষয়গুলি 8 বছর বয়সী শিশুর জন্য সহজ কিন্তু "মানুষের চেয়ে শ্রেষ্ঠ" হিসাবে প্রচারিত কৃত্রিম বুদ্ধিমত্তা মডেলের জন্য অতিক্রম করা অসম্ভব।
01 টুলস সেট গ্যাপ সফলতা বা ব্যর্থতা নির
এর তুলনায়, গুগলের জেমিনি 2.5 প্রো 2025 সালের মে মাসে একটি প্রায় একই পর্যায়ের পোকেমন গেম সফলভাবে শেষ করে। গুগলের সিইও সুন্দর পিচাই এমনকি সার্বজনীনভাবে একটি অর্ধ বিনোদনমূলক মন্তব্য করেন যে তারা "পোকেমন আর্টিফিশিয়াল ইন্টেলিজেন্স" তৈরির দিকে এক পা এগিয়ে গেছে।
তবুও, এই ফলাফলটি সরাসরি জেমিনি মডেলটি আরও "বুদ্ধিমান" হওয়ায় ঘটেছে বলে মনে করা যা�
প্রধান পার্থক্যটি মডেলটি ব্যবহার করা সরঞ্জামগুলির সেটের উপর নির্ভর করে। জেমিনি পোকেমন লাইভ স্ট্রিমিংয়ের অপারেশন পরিচালনা করা স্বাধীন উদ্ভাবক জোয়েল চেং (Joel Zhang) সরঞ্জামগুলির সেটটিকে একটি "আইরন ম্যান আর্মার" এর সাথে তুলনা করেছেন: আর্টিফিশিয়াল ইন্টেলিজেন্স গেমে হাত খালি না হয়ে একটি বহু বাহিনী ক্ষমতা আহবান করা সিস্টেমে
জেমিনির টুলসেট মডেলের ভিজুয়াল বোধগম্যতার দুর্বলতা পূরণ করতে আরও বেশি সমর্থন প্রদান করে, যেমন গেম স্ক্রিন টেক্সটে রূপান্তর করা, এবং কাস্টমাইজড পাজল সমাধান এবং পাথ প্ল্যানিং টুলস প্রদান করে। তুলনামূলকভাবে, ক্লৌডে ব্যবহৃত টুলসেট আরও সংক্ষিপ্ত এবং এর চেষ্টা মডেলের প্রত্যক্ষ প্রত্যক্ষ প্রত্যক্ষ প্রত্যক্ষ প্রত্যক্ষ প্রত্য
সাধারণ কাজে এই ধরনের পার্থক্য স্পষ্ট হয় না।
যখন ব্যবহারকারী চ্যাটবোটকে একটি অনলাইন তথ্য খুঁজে বার করার জন্য অনুরোধ করেন, তখন মডেলটি স্বয়ংক্রিয়ভাবে সার্চ টুল ব্যবহার করে। কিন্তু পোকেমন এই ধরনের দীর্ঘ মেয়াদী কাজে, টুলসেটের পার্থক্য সফলতা বা ব্যর্থতার ম
02 রাউন্ড ব্যবস্থার মাধ্যমে একটি এআই-এর "দীর্ঘমেয়াদী মেম�
যেহেতু পোকেমন কঠোর রাউন্ড বেজড এবং তাৎক্ষণিক প্রতিক্রিয়া প্রয়োজন করে না, তাই এটি AI পরীক্ষা করার জন্য আদর্শ "অনুশীলন মাঠ" হিসাবে পরিচিত। AI প্রতিটি পদক্ষেপে বর্তমান ছবি, লক্ষ্য সংকেত এবং নির্বাচনযোগ্য অপারেশন সংযোগ করে মূল্যায়ন করে এবং "A বোতাম চাপুন" এর মতো স্পষ্ট নির্দেশনা দেয়
এটি ঠিক এমনই একটি ইন্টারঅ্যাকশন যার জন্য বড় ভাষা মডেলগুল�
সমস্যাটি সময়ের মাত্রার একটি "ফাটল" এর মধ্যে অবস্থিত। যদিও ক্লৌড অপারা 4.5 এর চালু থাকা সময় 500 ঘন্টার বেশি এবং প্রায় 170,000 ধাপ সম্পন্ন হয়েছে, তবুও প্রতিটি পদক্ষেপের পরে পুনরায় আরম্ভ করার সীমাবদ্ধতার কারণে মডেলটি শুধুমাত্র খুব সংকীর্ণ একটি প্রেক্ষাপট জানা খুঁজতে পারে। এই মেকানিজমটি এটিকে একজন মনোযোগ রাখার জন্য সুবিধাজনক টিপস নির্ভর ভুল মনে করার মতো করে তৈরি করেছে, যে অবিচ্ছিন্ন তথ্যের মধ্যে দুলছে এবং সত্যিকার মানুষের খেলোয়াড়দের মতো পরিমাণগত পরিবর্তন থেকে গুণগত পরিবর্তনে অভিজ্ঞতা লাভ করত
চেস এবং গো এর মতো ক্ষেত্রে, আর্টিফিশিয়াল ইন্টেলিজেন্স (AI) সিস্টেমগুলো মানুষের চেয়ে অনেক বেশি দক্ষ হওয়ার পরে দেখা গেছে, তবে এই সিস্টেমগুলো নির্দিষ্ট কাজের জন্য খুব বেশি পরিমাণে কাস্টমাইজ করা হয়েছে। তুলনামূলকভাবে, জেমিনি, ক্লোড এবং GPT এর মতো সাধারণ মডেলগুলো পরীক্ষা, প্রোগ্�
এই পার্থক্যটি নিজেই খুবই প্রেরণামূলক।
জোয়েল চাং মনে করেন যে এআই-এর মুখোমুখি হওয়ার প্রধান চ্যালেঞ্জটি হল একটি স্পষ্ট লক্ষ্যকে দীর্ঘ সময়ের জন্য নিরবচ্ছিন্নভাবে সম্পাদন করা সম্ভব নয়। "আপনি যদি এজেন্টকে কোনও কাজ সম্পাদন করতে চান তবে এটি পাঁচ মিনিট �
এই ক্ষমতাটি সম্পূর্ণরূপে সার্বজনীন স্বয়ংক্রিয়তা বাস্�
পিটার উইডেন, একজন স্বাধীন গবেষক, একটি আরও স্পষ্ট বর্ণনা দিয়েছেন। তিনি একটি প্রতিযোগিতামূলক আরটিভি প্রোগ্রাম খুলে দিয়েছেন। "আরটিভি প্রায় সবকিছুই জানে পকেট মনস্টার নিয়ে," তিনি বলেছেন, "এটি বিশাল পরিমাণ মানুষের ডেটা ব্যবহার করে প্রশিক্ষণ নিয়েছে এবং সঠিক উত্তর সম্পর্কে স্পষ্ট ধারণা রয়েছে। কিন্তু কার্যকর করার সময় এটি অসম্পূর্ণ হয়ে পড�
গেমে, এই "জানা হলেও করা সম্ভব নয়" ধরনের ফাটলটি বারবার বাড়িয়ে দেখানো হয়: মডেলটি জানতে পারে যে একটি নির্দিষ্ট আইটেম খুঁজে বার করা দরকার, কিন্তু 2D ম্যাপে স্থিতিশীল অবস্থান নির্ধারণ করতে পারে না; এটি জানতে পারে যে NPC-র সাথে
03 ক্ষমতা বিকাশের পিছনে: অতিক্রম করা হয়নি "প্রবৃত্তি" সীমা
এগুলো সত্ত্বেও, কৃত্রিম বুদ্ধিমত্তা (AI) এর অগ্রগতি স্পষ্টভাবে দেখা যাচ্ছে। ক্লৌড অপারা 4.5 এর আগের সংস্করণের তুলনায় স্বয়ংক্রিয় রেকর্ড এবং দৃশ্য বোধগম্যতা বিষয়ে স্পষ্টভাবে উন্নত হয়েছে এবং গেমে আরও দূরে পৌঁছেছে। জেমিনি 3 প্রো পোকেমন ব্লু গেমটি শেষ করার পরে, আরও কঠিন পোকেমন ক্রিস্টাল গেমটি শেষ করেছে এবং সম্পূর্ণ প্রক্রিয়ায় একটি যুদ্ধও হারেনি। এটি জেমিনি 2.5 প্�
অ্যানথ্রপিক কর্তৃক প্রকাশিত ক্লড কোড টুলসেট মডেলকে নিজস্ব কোড লেখা এবং চালানোর অনুমতি দেয়, যা রিট্রো গেম যেমন রাইডার ম্যানিয়ার মতো ব্যবহার করা হয়েছে এবং এটি সফলভাবে একটি অবিরাম পার্ক প
এই ক্ষেত্রগুলো একটি অনুমান করা হয়নি এমন বাস্তব পরিস্থিতি প্রকাশ করেছে: যে কোনও সঠিক সরঞ্জাম সহ কৃত্রিম বুদ্ধিমত্তা (AI) সফটওয়্যার উন্নয়ন, হিসাববিজ্ঞান, আইন বিশ্লেষণ এবং অন্যান্য জ্ঞান ভিত্তিক কাজে �
"পোকেমন" পরীক্ষার আরও একটি আকর্ষণীয় পর্যবেক্ষণ হলো মানুষের উপর প্রশিক্ষিত মডেলগুলো মানুষের মতো আচরণ প্রদর্শন করে।
জেমিনি 2.5 প্রো এর প্রযুক্তিগত প্রতিবেদনে, গুগল উল্লেখ করেছে যে যখন সিস্টেমটি "প্যানিক মোড" তে সিমুলেট করে, যেমন পোকেমন অজ্ঞান হওয়ার সম্ভাবনা থাকলে, মডেলটি তর্কের মান বিপর্যস্ত হয়ে যায়
যখন জেমিনি 3 প্রো চূড়ান্তভাবে পোকেমন ব্লু শেষ করে, তখন এটি নিজেকে একটি অ-প্রয়োজনীয় মন্তব্য রেখে দেয়: "একটি কবিতাময় শেষ করার জন্য, আমি আমার প্রথম গৃহে ফিরে আসব, আমার মায়ের সাথে শেষ আলাপ করব এবং চরিত্রটিকে অবসর দেব।"
জোয়েল চাংয়ের মতে, এই কাজটি অপ্রত্যাশিত ছিল এবং এতে কিছু মানবিক আবেগের প্রক্ষেপণ ছিল।
04. এআই পার হতে পারে না এমন "ডিজিটাল দীর্ঘ যাত্রা" এর বাধা, মাত্র পোকেমন নয়
"পোকেমন" এককভাবে নয়। AGI (সার্বজনীন কৃত্রিম বুদ্ধিমত্তা) অর্জনের প্রচেষ্টায়, উন্নয়নকারীদের দ্বারা দেখা গেছে যে, যদিও AI আইন পরীক্ষায় শীর্ষে থাকতে পারে, তবুও নিম্নলিখিত ধরনের জটিল গেমগুলির মুখোমুখি হলে এটি এখনও অতিক্রম করা কঠিন "ওয়াটা�
নেটহ্যাক: নিয়মের গভীরতা

এই ৮০ এর দশকের ডার্ক গেমটি কৃত্রিম বুদ্ধিমত্তা (AI) গবেষণার জগতে একটি "রোদ"। এটি খুব বেশি র্যান্ডম এবং "পারমানেন্ট ডিথ" সুযোগ রয়েছে। ফেসবুক কৃত্রিম বুদ্ধিমত্তা গবেষণা পরিচালনা দ্বারা আবিষ্কৃত হয়েছে যে, যদিও মডেল কোড লিখতে পারে, তবুও সাধারণ যুক্তি এবং দীর্ঘমেয়াদী পরিকল্পনা প্রয়োজনীয়ত
মাইনক্রাফট: লক্ষ্যহীনতা হারিয়ে যাওয়

যদিও AI কাঠের খনিকার্ম তৈরি করতে পারে এবং স্বয়ংক্রিয়ভাবে রুবি খনন করতে পারে, তবুও স্বাধীনভাবে "ইন্ডিয়া রাইজিং" পরাজিত করা এখনও একটি কাল্পনিক বিষয়। খোলা বিশ্বে, AI অক্সিজেন সংগ্রহের প্রক্রিয়ায় ঘন্টার পর ঘন্টা ধরে তার উদ্দেশ্য ভুলে যায় বা �
"StarCraft II: সাধারণ এবং বিশেষজ্ঞদের মধ্যে ফাটল"

যদিও কাস্টমাইজড মডেলগুলো পেশাদার খেলোয়াড়দের পরাজিত করেছে, কিন্তু যদি ক্লৌড বা জেমিনি সরাসরি ভিজুয়াল নির্দেশনা দিয়ে নিয়ন্ত্রণ গ্রহণ করে, তবে তা তাৎক্ষণিকভাবে ভেঙে পড়বে। "যুদ্ধের অন্ধকার" এর অনিশ্চিততা নিয়ে কাজ করা, এবং মাইক্রো ম্যানিপুলেশন এবং ম্যাক্র�
রোলার কোস্টার ম্যানিয়াক: মাইক্রো এবং ম্যাক্রোর মধ্যে অসমতা

পার্কটি পরিচালনা করা হাজার হাজার পর্যটকদের অবস্থা ট্র্যাক করার প্রয়োজনীয়তা নিয়ে আসে। ক্লৌড কোড যদি প্রাথমিক পরিচালনা করতে পারে তবুও বড় আর্থিক সংকট বা অকাল দুর্ঘটনা পরিচালনার সময় খুব সহজেই ক্লান্ত হ
"এলডেন রিং" এবং "সেলের শিং" - পদার্থবিদ্যা প্রতিক্রিয়ার অন্তরাল

এই ধরনের শক্তিশালী অ্যাকশন ফিডব্যাক বহুবার কৃত্রিম বুদ্ধিমত্তা (AI) এর জন্য অসুবিধাজনক। বর্তমানে ভিডিও বোঝার বিলম্ব বুঝতে বস চরিত্রের কাজের সময় কৃত্রিম বুদ্ধিমত্তা (AI) এখনও "চিন্তা" করছে। মিলিসেকেন্ড পর্যায়ের প্রতিক্রিয়া চাহিদা, মডে
05 কেন পোকেমন কৃত্রিম বুদ্ধিমত্তা পরীক্ষার প্রতীক হয়ে উঠেছে?
বর্তমানে, পোকেমন ক্রমাগতভাবে কৃত্রিম বুদ্ধিমত্তা (AI) মূল্যায়নের ক্ষেত্রে একটি আনুষ্ঠানিক কিন্তু বিশ্বাসযোগ্য পর�
অ্যানথ্রোপিক, ওপেন এআই এবং গুগলের মডেলগুলো Twitch-এ সম্পর্কিত লাইভ স্ট্রিমে কয়েক লক্ষ মন্তব্য আকর্ষণ করেছে। গুগল তাদের প্রযুক্তি প্রতিবেদনে গেমিনির গেমিং অগ্রগতি বিস্তারিত বর্ণনা করেছে এবং পিচাই I/O ডেভেলপার কনফারেন্সে এই সাফল্যটি প্রকাশ করেছেন। অ্যানথ্রোপিক সম্পূর্ণ একটি "ক্লড পোকেমন খেলছে" প্রদর্শনী সেট আপ করেছে শিল্�
"আমরা সুপার টেক এনথুসিয়াস্টদের একটি দল," বলে অ্যানথ্রপিকের এপ্লিকেশন এআই প্রধান ডেভিড হার্সি স্বীকার করেছেন। তবে তিনি জোর দিয়েছেন যে এটি শুধুমাত্র মনোরম নয়।
'পোকেমন' হল একটি দীর্ঘ সময়ের জন্য মডেলের তর্ক, সিদ্ধান্ত এবং লক্ষ্য অর্জনের প্রক্রিয়া ট্র্যাক করার সামর্থ্য রাখে, যা একটি একক প্রশ্ন-উত্তরের প্রতিযোগিতামূলক মানদণ্ডের বিপরীতে রয়েছে। এটি বাস্তব জগতে �
বর্তমান সময়ে, পোকেমন গেমে কৃত্রিম বুদ্ধিমত্তা সম্পর্কিত চ্যালেঞ্জগুলো চলমান রয়েছে। কিন্তু এই পুনরাবৃত্ত সমস্যাগুলো স্পষ্ট করে দেখাচ্ছে যে সাধারণ কৃত্�
এই নিবন্ধে অনুবাদক ব্যতীত অন্যদের অবদান রয়েছে।
