शीर्ष एआई मॉडलों को पॉकेमॉन गेम जीतने में कठिनाई, दीर्घकालिक तर्क के अंतर को प्रकट करते हैं

iconPANews
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
क्लॉउड और जीमिनी सहित शीर्ष एआई मॉडल पोकेमॉन गेम में अक्सर परीक्षा और कोडिंग में अच्छा प्रदर्शन करने के बावजूद कठिनाई महसूर करते हैं। फरवरी 2025 में, क्लॉउड सोनेट 3.7 टिच चैनल पर पोकेमॉन रेड में बुनियादी कार्यों को निष्पादित करने में विफल रहा। प्रारंभिक मॉडल ट्यूटोरियल तक पार नहीं कर सके, जबकि ओपस 4.5 एक जिम के चारों ओर दिनों तक घूमता रहा। मई 2025 में गूगल के जीमिनी 2.5 प्रो ने बेहतर उपकरणों के साथ सफलता हासिल की। शोधकर्ता कहते हैं कि एआई में दीर्घकालिक स्मृति की कमी है और वह खुले अंत वाले कार्यों को संभाल नहीं सकता। माइंक्राफ्ट और स्टारक्राफ्ट II जैसे गेम में भी इसी तरह की समस्याएं देखी गई हैं। लंबे समय तक निवेश करने के लिए, एआई चालित परियोजनाओं में जोखिम-लाभ अनुपात का मूल्यांकन करने के लिए इन सीमाओं को समझना महत्वपूर्ण है।

लेखक:गुओ जियाओजिंग, टेंसेंट टेक्नोल

संपादन | ज़ू किंगयांग

दुनिया के शीर्ष एआई मॉडल चिकित्सा परीक्षा उत्तीर्ण कर सकते हैं, जटिल कोड लिख सकते हैं और गणित प्रतियोगिताओं में मनुष्यों के विशेषज्ञों को पराजित कर सकते हैं, लेकिन एक बच्चों के खेल पोकेमॉन में बार-बार असफल रहे हैं।

इस ध्यान आकर्षित करने वाले प्रयास की शुरुआत फरवरी 2025 में हुई, जब एक एंथ्रोपिक अनुसंधानकर्ता ने "क्लॉउडी पीकेमन रेड खेलता है" के शीर्षक से ट्विच लाइव स्ट्रीम शुरू किया, जो क्लॉउडी सोनेट 3.7 के जारी होने के साथ-साथ हुआ।

2000 दर्शक लाइव स्ट्रीमिंग रूम में भाग ले रहे थे। सार्वजनिक चैट क्षेत्र में, दर्शकों ने क्लॉड के लिए योजनाएं बनाईं और उनकी प्रशंसा की, जिससे यह लाइव स्ट्रीमिंग धीरे-धीरे एआई क्षमता पर आधारित एक सार्वजनिक अवलोकन बन गई।

सोनेट 3.7 केवल यह कहा जा सकता है कि वह "पॉकेमॉन" खेलना जानता है, लेकिन "खेलना जानता है" इसका मतलब "जीत जाएगा" नहीं है। यह महत्वपूर्ण बिंदुओं पर दसियों घंटे फंस जाएगा और ऐसी बुरी गलतियां करेगा जो बच्चों के खिलाड़ियों द्वारा भी नहीं की जाती हैं।

यह क्लॉउड की पहली कोशिश नहीं है।

पहले संस्करणों के प्रदर्शन अधिक आपातकालीन थे: कुछ नक्शे में लक्ष्यहीन घूम रहे थे, कुछ अनंत लूप में फंस गए थे, अधिकांश नए गांव से भी बाहर नहीं निकल स

क्लॉड 4.5 ओपस की क्षमता में भी विशेष रूप से वृद्धि हुई है, लेकिन अभी भी अजीबो-गरीब गलतियाँ होती हैं। एक बार यह चार दिन तक "गेम के बाहर के गेट" के चारों ओर घूमता रहा, लेकिन अंत में उसमें प्रवेश नहीं कर पाया, कारण यह था कि उसे यह नहीं पता था कि रास्ते में एक पेड़ काटने की आवश्यकता है।

एक बच्चों का खेल, क्योंकि एआई के लिए एक स्टॉकहोम सिंड्रोम बन गया?

"पोकेमॉन" की आवश्यकता आधुनिक एआई में सबसे कम देखी गई क्षमता है: एक खुले दुनिया में बिना स्पष्ट निर्देशों के लगातार तर्क, कई घंटों पहले के निर्णयों को याद रखना, अंतर्निहित कारण-प्रभाव संबंधों को समझना, और सैकड़ों संभावित कार्रवाई में लंबी अवधि की योजना बनाना।

8 साल के बच्चे के लिए आसान काम उन एआई मॉडल के लिए अतुल्य अंतर है जो मनुष्य के बुद्धि के ऊपर कहा जाता है।

01 टूलसेट अंतर निर्णायक है?

इसकी तुलना में, गूगल का जीमिनी 2.5 प्रो मई 2025 में एक बराबर कठिनाई वाला पोकेमॉन गेम सफलतापूर्वक पूरा कर लिया। गूगल के सीईओ सुंदर पिचाई ने खुलेआम तौर पर एक अर्ध-विनोदी टिप्पणी करते हुए कहा कि कंपनी "कृत्रिम पोकेमॉन बुद्धिमता" बनाने की ओर एक कदम बढ़ा चुकी है।

हालाँकि, यह परिणाम स्वयं जमीनी मॉडल के अधिक "बुद्धिमान" होने के कारण सरलता से नहीं जुड़ा है।

मुख्य अंतर यह है कि मॉडल किन उपकरणों का उपयोग कर रहा है। जेमिनी पोकेमॉन लाइव ऑपरेशन के लिए एक स्वतंत्र विकसक जोएल ज़ैंग (Joel Zhang) ने उपकरणों की तुलना "आयरन मैन आर्मर" के साथ की है: एआई खेल में खाली हाथ नहीं दाखिल होता है, बल्कि एक ऐसे सिस्टम में रखा जाता है जो कई बाहरी क्षमताओं को कॉल कर सकता है।

जेमिनी के उपकरण सेट के पास अधिक समर्थन उपलब्ध है, जैसे गेम के चित्र को टेक्स्ट में बदल देना, जो मॉडल की दृश्य समझ के कमजोर पक्ष को पूरा करता है, और अनुकूलित पहेली सुलझाने और पथ योजना बनाने के उपकरण प्रदान करता है। इसके विपरीत, क्लॉउड के उपयोग किए गए उपकरण सेट अधिक सरल हैं, और इसके प्रयास मॉडल की अपनी असली क्षमता को सीधे प्रतिबिंबित करते हैं, जैसे अनुभव, तर्क और कार्�

दिन-प्रतिदिन के कार्यों में ऐसे अंतर अक्सर अस्पष्ट रहत

जब उपयोगकर्ता चैटबॉट से एक ऑनलाइन खोज की आवश्यकता वाली अनुरोध करता है, तो मॉडल भी स्वचालित रूप से खोज उपकरण को कॉल कर देता है। लेकिन पॉकेमॉन जैसे लंबे समय तक चलने वाले कार्यों में, उपकरण सेट के अंतर को इतना बड़ा कर दिया जाता है कि यह स

02 टर्न-बेस्ड एआई की "लंबे समय तक याद रखने" की कमजोरी का खुलासा करन

चूंकि पोकेमॉन में कठोर रूप से टर्न-बेस्ड खेल और तत्काल प्रतिक्रिया की आवश्यकता नहीं होती है, इसलिए यह AI के परीक्षण के लिए एक बेहतरीन "प्रशिक्षण स्थल" बन गया है। प्रत्येक कदम में, AI को केवल वर्तमान दृश्य, लक्ष्य अंकन और उपलब्ध ऑपरेशन के संयोजन के साथ तर्क करने की आवश्यकता होती है, जिससे यह "A बटन दबाएं" जैसे स्पष्ट निर्देश दे स

यह ठीक वह है जिसमें बड़े भाषा मॉडल सबसे अच्छा प्रदर्शन करते हैं

मुख्य समस्या समय के आयाम में "असततता" में है। जबकि क्लॉड ओपस 4.5 को 500 घंटे से अधिक समय तक चलाया गया है और लगभग 170,000 कदम किए गए हैं, फिर भी प्रत्येक कदम के बाद पुनः आरंभ करने के कारण मॉडल केवल बहुत संकीर्ण संदर्भ खिड़की में संकेत खोज सकता है। यह तंत्र इसे एक ऐसे व्यक्ति के रूप में दिखाता है जो अपनी याददाश्त को स्टिकर के माध्यम से बरकरार रखता है, जो टुकड़ों में जानकारी में दोहराव करता है और वास्तविक मानव खिलाड़ियों की तरह मात्रा से गुण में बदलाव के अनुभव को कभी प्राप्त नहीं कर पाता है।

शतरंज और गो जैसे क्षेत्रों में, एआई प्रणालियां लंबे समय से मनुष्यों को पार कर चुकी हैं, लेकिन ये प्रणालियां विशिष्ट कार्यों के लिए अत्यधिक अनुकूलित होती हैं। इसके विपरीत, जेमिनी, क्लॉउड और जीपीटी जैसे सामान्य मॉडल परीक्षाओं और कोडिंग प्रतियोगिताओं में लगातार मनुष्यों को हरा रहे हैं, लेकिन एक बच्चों के लिए बनाए गए खेल

इस विरोधाभास के आत्मघाती होने के कारण यह खुद ब खु

जोएल चांग के अनुसार, एआई का मुख्य चुनौती यह है कि लंबे समय तक एक निर्दिष्ट लक्ष्य को लगातार पूरा करने में असमर्थता है। "अगर आप एजेंट के वास्तविक काम करने की उम्मीद कर रहे हैं, तो वह पांच मिनट पहले क्या किया था इसकी भूल नहीं कर सकता," उन्हों

और यह क्षमता, बौद्धिक श्रम के स्वचालन को साकार करने के लिए आवश्यक प�

स्वतंत्र अनुसंधानकर्ता पीटर विडन (पीटर विडन) ने एक अधिक व्यावहारिक वर्णन दिया। उन्होंने पारंपरिक एआई पर आधारित एक पोकेमॉन एल्गोरिथम को स्रोत खुला कर दिया था। "एआई पोकेमॉन के बारे में लगभग सब कुछ जानता है," उन्होंने कहा, "यह बड़ी मात्रा में मानव डेटा पर प्रशिक्षित है और यह सही उत्तर के बारे में पूरी तरह से अवगत है। लेकिन जब अमल के चरण में आते हैं, तो यह अत्यंत अकुशल लगता है।"

खेल में, ऐसी "जानने लेकिन करने में असमर्थता" की दरार को लगातार बढ़ाया जाता है: मॉडल जान सकता है कि किसी वस्तु की तलाश करने की आवश्यकता है, लेकिन 2डी मानचित्र में स्थिर स्थान निर्धारित करने में असमर्थ हो सकता है; यह जान सकता है कि एनपीसी के साथ बातचीत करनी

03 क्षमता विकास के पीछे: पार नहीं किया गया "अभिप्राय" सीमा

इसके बावजूद, एआई के उन्नति को स्पष्ट रूप से देखा जा सकता है। क्लॉड ओपस 4.5 पिछले संस्करण की तुलना में स्व-रिकॉर्डिंग और दृश्य समझ के मामले में निश्चित रूप से बेहतर है, जिसके कारण खेल में आगे बढ़ा जा सका है। जेमिनी 3 प्रो ने 'पोकेमॉन ब्लू' पूरा करने के बाद, कठिनता के स्तर पर अधिक 'पोकेमॉन क्रिस्टल' को पूरा कर लिया, और पूरे तरीके से कोई भी लड़ाई हारे बिना। यह जेमिनी 2.5 प्रो द्वारा कभी नहीं प्राप्त किया गया था।

इस बीच, एंथ्रोपिक द्वारा पेश किया गया क्लॉउड कोड टूलसेट मॉडल को स्वयं के कोड को लिखने और चलाने की अनुमति देता है, जिसका उपयोग रिट्रो गेम्स जैसे राइडर गेम में किया गया है, जिसका दावा किया गया है कि यह वर्चुअल थीम पा�

ये उदाहरण एक अस्पष्ट वास्तविकता को प्रकट करते हैं: उचित उपकरणों के साथ लैस कृत्रिम बुद्धिमत्ता (एआई) सॉफ्टवेयर विकास, लेखा, कानूनी विश्लेषण आदि जैसे ज्ञान कार्यों में अत्यधिक कुशलता दिखा सकती है, भले ही वे वास्तविक समय के प्र

"पोकेमॉन" पर अनुसंधान ने एक और रोचक घटना भी उजागर की: मानव डेटा पर प्रशिक्षित मॉडल मानव व्यवहार के गुण दिखाते हैं।

जर्मिनी 2.5 प्रो की तकनीकी रिपोर्ट में, गूगल ने बताया कि जब प्रणाली "डरे हुए स्थिति" का अनुकरण करती है, जैसे कि पोकेमॉन बेहोश हो रहा हो, तो मॉडल की तर्क क्षमता में काफी कमी आ जाती है।

जब जमिनी 3 प्रो अंततः पोकेमॉन ब्लू पर अपना नियंत्रण स्थापित कर लेता है, तो वह अपने लिए एक अनावश्यक टिप्पणी छोड़ जाता है: "कवितामय अंत के लिए, मैं अपने शुरुआती घर पर वापस आऊंगा, मेरी माँ से अंतिम बार बात करूंगा और अपने चरित्र को सेवानिवृत्त कर दूंगा।"

जॉय ज़हां के लिए, यह अप्रत्याशित था, और इसमें कुछ मानवीय भावनाओं के प्रक्षेपण के साथ था।

04. "डिजिटल लॉन्ग मार्च" को पार करना एआई के लिए आसान नहीं है, जो कि पोकेमॉन से बहुत आगे है।

"पोकेमॉन" एक अकेला उदाहरण नहीं है। AGI (सामान्य तौर पर बुद्धिमान कृत्रिम बुद्धिमता) के लक्ष्य की ओर बढ़ते हुए, विकसितकर्ता जानते हैं कि भले ही AI वकालत परीक्षा में शीर्ष पर हो, जब वे निम्नलिखित जटिल खेलों के सामने आते हैं, तो उन्हें अभी भी अतिप्रसिद्ध "वॉटरलू" के र�

नेटहैक: नियमों की गहराई

80 के दशक का यह डार्क गेम AI अनुसंधान के लिए "राक्षस" है। इसमें अत्यधिक यादृच्छिकता है और "परम निर्माण" के तंत्र के साथ। फेसबुक एआई अनुसंधान ने पाया कि यद्यपि मॉडल कोड लिख सकता है, लेकिन आम तर्क और दीर्घकालिक योजना की आवश्यकता होने वाले "नेटहैक" के सामने इसका प्रदर्शन मनुष्य के शुरुआती खिलाड़ियों की तुलना में बहुत खराब है।

माइन्स्वीड़: लुप्त हो चुके लक्ष्य की भावन

चाहे एआई लकड़ी के खुरदरे खनन या यहां तक कि डायमंड खोदने में सक्षम हो, अभी भी एक अकेले "ईंडर ड्रैगन" को हराना एक कल्पना है। खुले दुनिया में, एआई अक्सर दसियों घंटों तक संसाधन एकत्र करने के दौरान अपने उद्देश्य को "भूल जाता है" या जटिल नेविगेशन में पूरी तरह से खो बैठता है।

"स्टारक्राफ्ट II: व्यापकता और विशिष्टता के बीच अंतर"

हालांकि कस्टम मॉडल पेशेवर खिलाड़ियों को हरा चुके हैं, लेकिन अगर क्लॉउड या जीमिनी को सीधे विजुअल कमांड के माध्यम से काबू में ले लिया जाए, तो वे तुरंत क्रैश हो जाएंगे। "वॉर क्लाउड" के अनिश्चितता के साथ निपटने और माइक्रो मैनिपुलेशन के साथ मैक्रो बिल्डिंग के बीच संतुलन बनाए रखने में, जनरल प्रॉम्प्टिंग म�

"रोलर कोस्टर ट्यूनर": सूक्ष्म एवं समग्र के बीच का असंतुलन

एम्पायर के प्रबंधन के लिए हजारों आगंतुकों की स्थिति का अनुसरण करना आवश्यक है। क्लॉड कोड के प्रारंभिक प्रबंधन क्षमता के बावजूद, बड़े पैमाने पर वित्तीय डूबे या अप्रत्याशित दुर्घटनाओं के सामने आसानी से थकावट महसूस हो सकती है। कोई भी तर्क अस

"एल्डरिंग रिंग" और "शिमोन वन" : फिजिक्स फीडबैक की खाई

ऐसे तीव्र कार्य प्रतिक्रिया वाले खेल एआई के लिए अत्यंत अनुकूल नहीं होते। वर्तमान दृश्य विश्लेषण विलंब का अर्थ यह है कि जबकि एआई अभी "सोच रहा" होता है कि बॉस कौन सा कार्य कर रहा है, तो पात्र अक्सर पहले ही मारा जा चुका होता है। मिलीसेकंड स्तर पर प्रतिक्रिया की आवश्यकता, म�

05. क्यों पोकेमॉन एआई का परीक्षण पत्थर बन गया?

आजकल, पोकेमॉन धीरे-धीरे एआई मूल्यांकन क्षेत्र में एक अनौपचारिक लेकिन बहुत प्रभावशाली परीक्षण मानक बन रहा है।

एंथ्रोपिक, ओपनएआई और गूगल के मॉडल टिच पर जुड़े लाइव स्ट्रीमिंग के माध्यम से लाखों कमेंट्स आकर्षित कर रहे हैं। गूगल ने तकनीकी रिपोर्ट में गेमिंग में जेमिनी के प्रगति का विस्तार से विवरण दिया है, जिसका उल्लेख पिचई ने I/O डेवलपर्स कॉन्फ्रेंस में सार्वजनिक रूप से किया। एंथ्रोपिक ने तो बाजार में "क्लॉड पॉकेमॉन खेलता है" प्रदर्शन क्षेत्र भी स्थापित किया है।

"हम एक सुपर टेक फैन क्लब हैं," एंथ्रोपिक के एआई एप्लिकेशन्स के प्रभारी डेविड हर्शे ने स्वीकार किया। लेकिन उन्होंने बल देकर कहा कि यह मनोरंजन के लिए ही नहीं है।

एकल बार के प्रश्न-उत्तर वाले पारंपरिक बेंचमार्क के विपरीत, पोकेमॉन लंबे समय तक मॉडल के तर्क, निर्णय और लक्ष्य निर्धारण की प्रक्रिया का अनुसरण कर सकता है, जो वास्तविक दुनिया में मनुष्यों द्वारा AI के लिए अपेक्षित जटिल कार्यों के करीब

अब तक, पॉकेमॉन में एआई की चुनौतियां जारी हैं। लेकिन यह दोहराव वाली चुनौतियां सामान्य एआई के क्षमता के सीमा को स्पष्ट रूप से चित्रित करती हैं।

इस लेख में अतिरिक्त संपादक विनोद के योगदान को भी शामिल किया �

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।