
Автор:Го Сяодзин, Tencent Technologies
Редагування: Хю Цзинян
Найкращі у світі моделі штучного інтелекту можуть складати медичні іспити, писати складний код і навіть перемагати людських експертів у математичних змаганнях, але вони постійно зустрічають труднощі в дитячій грі "Покемони".
Ця захоплююча спроба розпочалася в лютому 2025 року, коли дослідник з Anthropic запустив трансляцію на Twitch під назвою «Claude грає в Pokémon Red», щоб супроводити випуск Claude Sonnet 3.7.
2000 глядачів потрапили в прямий ефір. У загальному чаті глядачі давали Claude поради та підтримували його, і цей прямий ефір поступово перетворився на відкритий експеримент з вивчення здатностей штучного інтелекту.
Sonet3.7 можна сказати, що "вміє грати" у "Покемон", але "вміння грати" не дорівнює "можливості перемогти". Він може застрягти на десятки годин на ключових етапах, а також вчинити дуже дрібні помилки, яких навіть дитинка-гравець не зробить.
Це не перший випробувальний запуск Claude.
Ранні версії демонстрували ще більш катастрофічну поведінку: деякі безцільно блукали по карті, інші потрапляли в нескінченні цикли, а ще більше з них взагалі не могли вийти з початкової зони.
Навіть Claude Opus 4.5, зі значно підвищеними здібностями, іноді припускає дивні помилки. Один раз він обіграв місце, яке не було "додатком", чотири дні поспіль, не змігши потрапити внутрішньо, просто тому, що не зрозумів, що йому потрібно зрубати дерево, яке перешкоджало шляху.
Дитяча гра, яка стала Бернглівським крижаним мостом для ІІ?
Тому, що Покемони вимагають саме тієї здатності, якої сьогоднішній штучній інтелігентності найбільше не вистачає: здатність до постійного міркування в відкритому світі без чітких інструкцій, згадування прийнятих рішень кілька годин тому, зрозуміння прихованих причинно-наслідкових зв'язків, довгострокового планування серед сотень можливих дій.
Те, що легко виконує восьмирічна дитина, є непереборною перешкодою для штучного інтелекту, який хвалиться, що "перевершує людство".
01 Наявність або відсутність інструментів визначає успіх чи невдачу?
У той же міру, Gemini 2.5 Pro від Google успішно пройшов гру Pokémon у травні 2025 року. Навіть генеральний директор Google Сунدار Пічай півжартома, півшкером заявив у публічному виступі, що компанія зробила крок у напрямку створення "штучного Pokémon-інтелекту".
Однак цей результат не можна просто приписати більш "розумному" моделю Gemini.
Основна відмінність полягає в наборі інструментів, які використовує модель. Саме це відмінність підкреслює незалежний розробник, який відповідальний за трансляцію Gemini (Pokémon), Джоель Чжан (Joel Zhang), порівнюючи набір інструментів з «бронежилетом залізного чоловіка»: штучний інтелект не входить у гру з порожніми руками, а потрапляє в систему, яка може викликати різноманітні зовнішні здібності.
Набір інструментів Gemini надає більше підтримки, наприклад, перетворення зображення гри в текст, щоб вирішити слабкі сторони моделі у візуальному сприйнятті, а також забезпечує інструменти для налаштування рішення головоломок і планування шляху. Навпаки, набір інструментів, який використовує Claude, є більш мінімалістичним, а його спроби більш прямо відображають справжні здібності моделі у сприйнятті, міркуванні та виконанні.
Такі відмінності не проявляються в повсякденних завданнях.
Коли користувач ставить запит до чат-бота, який вимагає доступу до мережі, модель автоматично викликає пошуковий інструмент. Проте в довгострокових завданнях, подібних до "Покемонів", різниця в інструментах настільки помітна, що може вирішувати успіх чи невдачу.
02. Система з чергуванням ходів виявила слабкість "довгострокової пам'яті" штучного інтелекту
Оскільки "Покемон" використовує строгий ходовий режим і не вимагає негайної реакції, він став чудовою "тренувальною майданчиком" для тестування штучного інтелекту. ШІ на кожному кроці повинен здійснювати міркування, поєднуючи поточне зображення, цільові підказки та доступні дії, щоб вивести чіткі команди, такі як "натисніть A".
Схоже, це саме та форма взаємодії, з якою найкраще справляються великі мовні моделі.
Проблема полягає саме в "розриві" часових розмірів. Незважаючи на те, що Claude Opus 4.5 вже накопичив більше 500 годин роботи та виконав приблизно 170 тисяч кроків, модель змушенна шукати підказки лише в дуже вузькому контекстному вікні через необхідність перезавантаження після кожного кроку. Цей механізм робить її схожою на людину з амнезією, яка підтримує пам'ять за допомогою зручних записок, що безперервно повторюється в фрагментованих даних, і ніколи не може досягти якісного зростання досвіду, як це може зробити справжній людський гравець.
У таких галузях, як шахи та го, системи штучного інтелекту давно перевершили людину, але ці системи є вкрай спеціалізованими. Натомість, універсальні моделі Gemini, Claude та GPT постійно перемагають людей у тестах та програмістських змаганнях, але постійно стикаються зі складнощами в дитячій грі.
Сама ця контрастність є дуже навчальною.
На думку Джоеля Чжан, головною проблемою штучного інтелекту є відсутність здатності тривалий час виконувати єдине чітке завдання. «Якщо ви хочете, щоб агент виконував справжню роботу, він не може забувати, що він зробив п'ять хвилин тому», - зазначає він.
А ця здатність є нерозривною умовою для автоматизації пізнавальної праці.
Самодопитний дослідник Петер Відден (Peter Whidden) давав більш наочний опис. Він колись відкрив алгоритм покемонів, заснований на традиційному штучному інтелекті. «Штучний інтелект практично не знає про покемонів нічого», – сказав він, «він навчався на величезному обсязі людських даних, і він точно знає правильні відповіді. Але як тільки настає час виконання, він виглядає нездатним».
У грі ця "розщелина, коли знаєш, але не можеш" постійно зростає: модель може знати, що має шукати певний предмет, але не може стабільно визначити його місцезнаходження на двовимірній карті; вона може знати, що має говорити з NPC, але постійно не вдається переміщатися на рівні пікселів.
03 Еволюція здібностей: немостована "інстинктивна" прірва
Незважаючи на це, прогрес у галузі штучного інтелекту очевидний. Claude Opus 4.5 значно краще від своїх попередників у самодокументуванні та візуальному сприйнятті, що дозволило йому просуватися далі в грі. Gemini 3 Pro, подолавши "Покемон: Синє", здатність до складнішої "Покемон: Хрусталь", не програвши жодного бою. Це було недосяжним для Gemini 2.5 Pro.
У той же міру, набір інструментів Claude Code, запущений компанією Anthropic, дозволяє моделі писати та виконувати власний код, який вже використовувався для таких ретро-ігор, як RollerCoaster Tycoon, і, як стверджується, успішно керував віртуальним тематичним парком.
Ці випадки розкривають нелогічну реальність: штучний інтелект, оснащений правильним інструментом, може виявляти високу ефективність у роботі з питань знань, такої як розробка програмного забезпечення, бухгалтерський облік, юридичний аналіз, навіть якщо вони все ще не можуть впоратися з завданнями, які вимагають негайної реакції.
Експерименти з Pokémon також відкрили цікаве явище: моделі, навчені на людських даних, демонструють поведінку, близьку до людської.
У технічному звіті про Gemini 2.5 Pro Google зазначає, що якість міркувань моделі суттєво погіршується, коли система імітує «паничний стан», наприклад, коли покемон збирається втратити свідомість.
Коли Gemini 3 Pro, нарешті, пройшов "Pokemon Blue", він залишив собі примітку, що не була обов'язковою для завдання: "Щоб завершити все поетично, я маю повернутися додому, з якого все почалося, і відправити персонажа у відставку, провівши останню розмову з матір'ю."
На думку Жоеля Чжанга, це було несподіваною дією, яка мала певне емоційне забарвлення, притаманне людям.
04. "Цифровий Лонг-марш", якого важко подолати штучному інтелекту, набагато більше, ніж "Покемони"
"Pokemon" не єдиний приклад. На шляху до досягнення загальної штучної інтелектуальності (AGI) розробники виявили, що навіть якщо штучний інтелект може посісти одне з перших місць на юридичному іспиті, він все одно стикається з непереборними "Ватерло" при вирішенні таких складних ігор.
NetHack: Глибина правил

Ця гра-підземелля з 80-х років є "кошмаром" для дослідників штучного інтелекту. Вона має високий рівень випадковості та механіку "постійної смерті". Facebook AI Research встановив, що навіть якщо модель може писати код, то її результати в грі NetHack, яка вимагає загального логічного мислення та довгострокового планування, значно поступаються результатам людських новачків.
Minecraft: Втрачений сенс цілі

Хоча штучний інтелект вже може виготовити дерев'яну кайданик і навіть видобути алмаз, самостійно "знищити Ендер-Дракона" залишається фантастикою. У відкритому світі штучний інтелект часто "забуває" початкову мету під час збору ресурсів, що триває десятки годин, або повністю загублюється у складних навігаційних завданнях.
StarCraft II: Розрив між універсальністю та професійністю

Хоча настійні моделі колись перемагали професійних гравців, якщо відразу віддати Claude або Gemini візуальні команди, вони миттєво зламаються. У вирішенні невизначеності "воєнної тумани" та балансуванні мікро- та макропланування загальні моделі все ще відчувають труднощі.
"RollerCoaster Tycoon": Недолік мікро- та макроекономіки

Керування парком розваг вимагає відстеження стану тисяч відвідувачів. Навіть Claude Code, який має початкові керівні здібності, легко втомлюється при вирішенні масштабних фінансових криз або раптових інцидентів. Будь-який розрив у міркуваннях призведе до банкрутства парку.
Серія "Елден Ринг" та "Сіннін": Прірва фізичного відгуку

Такі гри з сильними динамічними зворотними відгуками дуже неприємні для штучного інтелекту. Поточні затримки візуального аналізу означають, що, коли AI ще "думає" про дії боса, персонаж зазвичай вже мертв. Вимоги до реакції в мілісекундах створюють природний верхній поріг для логіки взаємодії моделі.
Чому "Покемон" став контрольною точкою для ІІ?
Наразі «Покемон» поступово стає неформальним, але переконливим тестовим стандартом у галузі оцінки штучного інтелекту.
Моделі від Anthropic, OpenAI та Google залучені до прямого ефіру на Twitch, який зібрав мільйони коментарів. Google детально описала прогрес Gemini в грах в технічному звіті, а Піцхай згадав цей досягнення на конференції розробників I/O. Навіть Anthropic створила відділ демонстрації "Claude грає в Покемонів" на промисловій конференції.
«Ми — це група супертехнічних ентузіастів», — визнав Девід Ерші, віце-президент з застосування AI в Anthropіc. Але він підкреслює, що це не просто розвага.
На відміну від традиційних бенчмарків, які вимірюють відповіді одноразово, покемони дозволяють тривалий час відстежувати процес міркувань, прийняття рішень та досягнення цілей моделі, що набагато ближче до складних завдань, які люди хочуть виконувати штучним інтелектом у реальному світі.
Наразі виклик AI в Pokémon триває. Але саме ці постійні труднощі чітко визначають межі здатностей, які загальний штучний інтелект ще не подолав.
У підготовці цієї статті також взяв участь спеціальний кореспондент Ван Цзюнь.
