يواجه نماذج الذكاء الاصطناعي الرائدة صعوبات في الفوز بألعاب بوكيمون، مما يسلط الضوء على فجوات في الاستدلال على المدى الطويل

iconPANews
مشاركة
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconملخص

expand icon
تواجه نماذج الذكاء الاصطناعي الرائدة، بما في ذلك كلود وجيميني، صعوبات في ألعاب بوكيمون، على الرغم من تميزها في البرمجة والامتحانات. وفي فبراير 2025، فشلت نسخة كلود سونيت 3.7 في إنجاز مهام بسيطة في لعبة بوكيمون ريد على منصة تويتش. فالموديلات المبكرة لم تتمكن حتى من تجاوز الدروس التعليمية، بينما أدارت نسخة أوبيس 4.5 حلبة صالة التدريب لعدة أيام. وفي مايو 2025، نجحت نسخة جيميني 2.5 برو من شركة جوجل بفضل أدوات أفضل. وتشير الدراسات إلى أن الذكاء الاصطناعي يفتقر إلى الذاكرة طويلة المدى، ولا يمكنه التعامل مع المهام المفتوحة. وتشهد ألعاب مثل ماينكرافت وستاركراфт الثانية نفس المشكلات. ولل الاستثمار على المدى الطويل، من المهم فهم هذه القيود لتقييم نسبة المخاطرة مقابل العائد في المشاريع التي تعتمد على الذكاء الاصطناعي.

المؤلف:غو شياو جين، تينسنت تك.

تحرير | Xu Qingyang

يمكن لأفضل نماذج الذكاء الاصطناعي في العالم أن تجتاز امتحانات الترخيص الطبي، ويمكنها أن تكتب أكوادًا معقدة، بل ويمكنها حتى أن تتفوق على خبراء البشر في المسابقات الرياضية، ولكنها تواجه صعوبات متكررة في لعبة الأطفال بوكيمون.

بدأت هذه المحاولة المثيرة في فبراير 2025، عندما قام باحث في شركة أنثروبيك ببث مباشر على منصة تويتش بعنوان "كلاود يلعب Pokémon Red"، وذلك بالتزامن مع إصدار Claude Sonnet 3.7.

تدفق 2000 مشاهد إلى البث المباشر. في منطقة المحادثة العامة، قدم المشاهدون نصائح واقتراحات لـ Claude ودعموه، مما حول هذا البث تدريجيًا إلى تجربة مراقبة عامة تدور حول قدرات الذكاء الاصطناعي.

يمكن القول إن Sonet3.7 "يعرف اللعب" في لعبة بوكيمون، ولكن "معرفة اللعب" لا تعني بالضرورة "الفوز". فإنه يتعثر في نقاط حاسمة لعشرات الساعات، كما أنه يرتكب أخطاء بدائية لا يرتكبها حتى اللاعبون الصغار.

هذا ليس محاولة Claude الأولى.

كانت أداء الإصدارات المبكرة كارثيًا أكثر: حيث كان بعضها يتجول بلا هدف في الخريطة، و البعض يعاني من حلقات لانهائية، و المزيد من ذلك لم يتجاوز حتى قرية البداية.

حتى مع تحسينات Claude Opus 4.5 الكبيرة في القدرات، لا يزال يرتكب أخطاءً مربكة. في أحد الأحيان، دار حول "الممر الخارجي" لمدة أربعة أيام كاملة دون أن يتمكن من الدخول، والسبب الوحيد هو أنه لم يدرك أنه يحتاج إلى قطع شجرة تسد المدخل.

لعبة أطفال، لماذا أصبحت هزيمة للذكاء الاصطناعي؟

لأن ما تطلبه لعبة بوكيمون بالضبط هو القدرة التي تفتقر إليها الذكاء الاصطناعي اليوم: الاستنتاج المستمر في عالم مفتوح دون تعليمات واضحة، والاحتفاظ بالقرارات التي اتخذت قبل ساعات عديدة، وفهم العلاقات السببية الضمنية، والقيام بخطط طويلة المدى من بين مئات الأفعال الممكنة.

إن هذه الأمور سهلة جداً على الأطفال البالغين من العمر 8 سنوات، لكنها تشكل فجوة لا يمكن تجاوزها بالنسبة للنماذج الذكية الاصطناعية التي تدّعي أنها "تتفوق على البشر".

هل فجوة مجموعة الأدوات تحدد النجاح أو الفشل؟

بالمقارنة، نجح Gemini 2.5 Pro من جوجل في تجاوز لعبة بوكيمون صعبة بنفس المستوى من الصعوبة في مايو 2025. حتى أن ساندار بيتشاي، الرئيس التنفيذي لجوجل، صرح بشكل نصف مزاحي في مناسبة عامة بأن الشركة خطوت خطوة في اتجاه بناء "ذكاء اصطناعي بوكيمون".

ومع ذلك، لا يمكن إرجاع هذا النتائج ببساطة إلى كون نموذج Gemini نفسه أكثر "ذكاءً".

تُعد الفرق الرئيسية تكمن في أدوات المجموعة التي يستخدمها النموذج. يشبه جوئيل تشانغ (Joel Zhang)، المطور المستقل المسؤول عن بث Gemini لألعاب بوكيمون، مجموعة الأدوات هذه بـ "درع طيار من حديد" من سلسلة أفلام "الرجل الحديدي": إن الذكاء الاصطناعي لا يدخل اللعبة باليدين فارغتين، بل يُوضع في نظام يمكنه من خلاله استدعاء قدرات خارجية متعددة.

تُوفِّر أدوات جمِيني مجموعةً أكبر من الدعم، مثل تحويل مشاهد الألعاب النصية إلى نصوص، مما يعوض عن ضعف النموذج في الفهم البصري، وتوفير أدوات مخصصة لحل الألغاز والتخطيط للمسارات. في المقابل، تُعتبر أدوات Claude المستخدمة أكثر بساطة، وتجربتها تعكس بشكلٍ أكثر مباشرةً القدرات الحقيقية للنموذج نفسه في الإدراك والتفكير والتنفيذ.

في المهام اليومية، لا تكون هذه الاختلافات ملحوظة.

عندما يطلب المستخدم من روبوت المحادثة إجراء استعلام يتطلب الاتصال بالإنترنت، يقوم النموذج تلقائيًا بتشغيل أداة البحث. ولكن في المهام طويلة المدى مثل لعبة بوكيمون، تصبح الاختلافات في مجموعة الأدوات كبيرة بدرجة كافية لتصبح حاسمة في النجاح أو الفشل.

02 نظام الأعوام يكشف عن عيوب الذكاء الاصطناعي في "الذاكرة طويلة المدى"

بما أن لعبة بوكيمون تعتمد على نظام الدورات الصارمة بصرامة ولا تتطلب استجابة فورية، فقد أصبحت "مختبر تدريب" مثاليًا لاختبار الذكاء الاصطناعي. يحتاج الذكاء الاصطناعي في كل خطوة إلى الجمع بين الصورة الحالية والتنبيهات الهدفية والعمليات الممكنة للوصول إلى استنتاج، ومن ثم إخراج أوامر واضحة مثل "اضغط على الزر A".

يبدو أن هذا هو بالضبط نوع التفاعل الذي يجيده النماذج اللغوية الكبيرة.

القضية تكمن بالضبط في "الانقطاع" في البُعد الزمني. بالرغم من تشغيل Claude Opus 4.5 لفترة تزيد عن 500 ساعة، وإجراءه حوالي 170 ألف خطوة، إلا أنه يُقيَّد بعملية إعادة التهيئة بعد كل خطوة واحدة، مما يسمح للموديل بالبحث عن المؤشرات فقط ضمن نافذة سياقية ضيقة للغاية. تشبه هذه الآلية شخصًا يعاني من فقدان الذاكرة يعتمد على ملاحظات ملصقات ملتصقة للحفاظ على ذاكرته، يدور في دوامة من المعلومات المجزأة، ولا يمكنه أبدًا تحقيق القفزة النوعية في الخبرة كما يفعل اللاعب البشري الحقيقي، الانتقال من التراكم الكمي إلى التحول النوعي.

في مجالات مثل الشطرنج والجوجو، تفوقت أنظمة الذكاء الاصطناعي على البشر منذ وقت طويل، لكن هذه الأنظمة مخصصة للغاية لمهام محددة. في المقابل، تُعتبر نماذج Gemini وClaude وGPT متعددة الاستخدامات، حيث تتفوق باستمرار على البشر في الاختبارات والمنافسات البرمجية، لكنها تواجه صعوبات متكررة في لعبة موجهة للأطفال.

إن هذا التباين بحد ذاته يحمل دلالة كبيرة.

من منظور جويل تشانغ، تكمن التحديات الأساسية التي تواجه الذكاء الاصطناعي في عدم القدرة على تنفيذ هدف واحد واضح على مدى فترة طويلة. أشار إلى أن "إذا كنت ترغب في أن يقوم الكيان الذكي بعمل حقيقي، فعليه ألا ينسى ما قام به منذ خمس دقائق."

وهي قدرة لا غنى عنها لتحقيق تلقائية العمل الذهني.

يقدم الباحث المستقل بيتر ويدن وصفًا أكثر وضوحًا. فقد قام بإنشاء خوارزمية مفتوحة المصدر لـ "بوكيمون" تعتمد على الذكاء الاصطناعي التقليدي. وقال: "يعرف الذكاء الاصطناعي تقريبًا كل شيء عن بوكيمون،" مضيفًا أنه "تم تدريبه على بيانات بشرية هائلة، ويعرف بالتأكيد الإجابة الصحيحة. لكنه يظهر ترددًا كبيرًا في مرحلة التنفيذ."

في اللعبة، تُضخم هذه الفجوة "التي تعرفها ولكنك لا تستطيع فعلها" باستمرار: قد تعرف النموذج أنه بحاجة للبحث عن عنصر معين، لكنه لا يستطيع تحديد موقعه بشكل مستقر على الخريطة ثنائية الأبعاد؛ وقد يدرك أنه يجب عليه التحدث مع شخصية غير لاعب (NPC)، لكنه يفشل مرارًا وتكرارًا في الحركة بدقة على مستوى البكسل.

التطور الخلفي للقدرات: الهوة "الانعكاسية" غير المقطوعة

ومع ذلك، فإن تقدم الذكاء الاصطناعي واضح. Claude Opus 4.5 يتفوق بشكل ملحوظ على نسخته السابقة في السجل الذاتي وفي الفهم البصري، مما يسمح له بالتقدم أبعد في الألعاب. أما Gemini 3 Pro، فقد أنهى لعبة "Pokémon Blue" ومن ثم أنهى لعبة "Pokémon Crystal" الأصعب، دون خسارة أي معركة طوال الوقت. وهذا ما لم يحققه Gemini 2.5 Pro من قبل.

في الوقت نفسه، أطلقت شركة أنثروبيك Claude Code، وهي مجموعة أدوات تسمح للموديل بكتابة تشغيل الأكواد الخاصة به، وقد تم استخدامها في ألعاب رetro مثل RollerCoaster Tycoon، وتشير التقارير إلى أنها نجحت في إدارة حديقة ترفيه افتراضية.

تُظهر هذه الحالات الواقع غير الواضح: أن الذكاء الاصطناعي المزود ب набور أدوات مناسب قد يُظهر كفاءة عالية جدًا في المهام المعرفية مثل تطوير البرمجيات والمحاسبة والتحليل القانوني، حتى وإن كان لا يزال يواجه صعوبة في المهام التي تتطلب استجابة فورية.

أظهرت تجارب "بوكيمون" ظاهرة أخرى مثيرة للاهتمام: النماذج التي تُدرب على بيانات بشرية تُظهر سلوكًا يشبه السلوكيات البشرية.

في تقريرها التقني حول Gemini 2.5 Pro، أشارت شركة جوجل إلى أن جودة الاستدلال الخاصة بالنموذج تنخفض بشكل ملحوظ عندما يحاكي النظام "حالة ذعر"، مثل عندما يقترب بوكيمون من الإغماء.

ومن ثم، عندما اجتاز جينمي 3 برو أخيرًا لعبة بوكيمون بلو، فقد ترك لنفسه ملاحظة غير ضرورية للمهمة: "لإنهاء الأمور بأسلوب شعري، سأعود إلى المنزل الأصلي، وأجري محادثة أخيرة مع والدتي، وأجعل الشخصية تقاعدًا."

من منظور جويل تشانغ، كان هذا الأداء مفاجئًا ويتضمن نوعًا من التفاعل العاطفي البشري.

04. رحلة "ال长征 الرقمية" الصعبة على الذكاء الاصطناعي، تتجاوز بكثير لعبة "بوكيمون"

ليست لعبة بوكيمون استثناءً من القاعدة. في طريق البحث عن الذكاء الاصطناعي العام (AGI)، وجد المطورون أن حتى وإن كان من الممكن على الذكاء الاصطناعي أن يحقق نتائج ممتازة في امتحانات القضاء، فإنه يواجه ما يشبه "滑铁卢" (أي هزيمة كبرى) لا يمكن تجاوزها عند مواجهته لأنواع معينة معقدة من الألعاب.

NetHack: عمق القواعد

إن لعبة المغامرات المظلمة من الثمانينيات هي "رعب" في مجتمع الأبحاث الذكاء الاصطناعي. إنها عشوائية للغاية وتحتوي على نظام "الموت الأبدي". وقد وجدت Facebook AI Research أنه حتى مع قدرة النماذج على كتابة الأكواد، فإن أداؤها أمام لعبة "NetHack" التي تتطلب المنطق العام والتخطيط على المدى الطويل يكون أسوأ بكثير من أدء المبتدئين البشر.

ماينكرافت: فقدان شعور الهدف

على الرغم من أن الذكاء الاصطناعي يستطيع الآن صنع سكين خشبي وحتى حفر الألماس، فإن الانتصار على تنين الإيندر بشكل مستقل لا يزال مجرد خيال. في العالم المفتوح، يميل الذكاء الاصطناعي بشكل متكرر إلى "نسيان" هدفه الأصلي خلال عمليات جمع الموارد التي تمتد لساعات عديدة، أو أن يفقد طريقه تمامًا في التنقل المعقد.

"StarCraft II": الانقسام بين الشمولية والاختصاصية

على الرغم من أن النماذج المخصصة قد تغلبت على اللاعبين المحترفين، إلا أن Claude أو Gemini سيتعرضان للتعطّل فور تولّيهما القيادة مباشرةً عبر الأوامر البصرية. لا تزال النماذج العامة عاجزةً عن التعامل مع عدم اليقين الناتج عن "الضبابية الحربية"، وكذلك عن تحقيق التوازن بين التحكم الدقيق والبناء على المدى الطويل.

"RollerCoaster Tycoon": عدم توازن المايكرو والماكرو

تتطلب إدارة حديقة الملاهي تتبع حالة آلاف الزوار. حتى Claude Code الذي يمتلك قدرات أولية لإدارة المهام، يُظهر سهولة في الإرهاق عند التعامل مع انهيارات مالية كبيرة أو حوادث طارئة. أي فجوة في الاستدلال ستقود الحديقة إلى الإفلاس.

"elden ring" و "soul slash" : فجوة في تغذية اللاعب بالردود الفعل الفيزيائية

مثل هذه الألعاب ذات الاستجابة الحركية القوية ليست ودية أبداً تجاه الذكاء الاصطناعي. تُعد التأخيرات الحالية في تحليل الرؤية البصرية سبباً في أن الشخصية تموت عادةً بينما لا يزال الذكاء الاصطناعي يفكر في حركة البوس. يتطلب هذا الاستجابة بدقة الملي ثانية، مما يشكل سقفاً طبيعياً لمنطق التفاعل النموذجي.

لماذا أصبحت لعبة بوكيمون معيارًا اختباريًا لذكاء الآلة؟

اليوم، أصبحت لعبة بوكيمون بمثابة معيار اختبار غير رسمي لكنه مقنع بشكل متزايد في مجال تقييم الذكاء الاصطناعي.

جذبت بثات الألعاب المباشرة على تويتش التي تضم نماذج شركات أنثروبيك وOpenAI وغوغل اهتمام ملايين التعليقات. وثقت غوغل تطورات نموذج جيميني في الألعاب بشكل مفصل في تقرير تقني، وذكر بيدرو بيشاي هذه الإنجازات بشكل علني في مؤتمر مطوري I/O. بل وقامت شركة أنثروبيك حتى بوضع مناطق عرض تفاعلية بعنوان "كلاود يلعب بوكيمون" في مؤتمراتها الصناعية.

"نحن مجموعة من عشاق التكنولوجيا بشكل مفرط"، أقر ديفيد هيرشي، المدير المسؤول عن الذكاء الاصطناعي في شركة أنثروبيك. لكنه أشار إلى أن الأمر لا يتعلق فقط بالترفيه.

على عكس المعايير التقليدية التي تعتمد على الإجابات الفورية، يمكن لـ "بوكيمون" تتبع عملية تفكير النموذج وتقريره وتحقيق أهدافه على مدى طويل جدًا، وهو ما يشبه المهام المعقدة التي يرغب البشر في تنفيذها باستخدام الذكاء الاصطناعي في العالم الحقيقي.

حتى الآن، ما زالت تحديات الذكاء الاصطناعي في لعبة بوكيمون مستمرة. ولكن هذه الصعوبات المتكررة تحدد بوضوح حدود القدرات التي لم يتجاوزها الذكاء الاصطناعي العام بعد.

كما ساهم المُحرر الخاص وو جي في إعداد هذا المقال.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.