Вершишние ИИ-модели сталкиваются с трудностями при прохождении игр Pokémon, что подчеркивает пробелы в долгосрочном логическом мышлении

iconPANews
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Самые популярные ИИ-модели, включая Claude и Gemini, сталкиваются с трудностями при прохождении игр Pokémon, несмотря на их высокую эффективность в программировании и сдаче экзаменов. В феврале 2025 года модель Claude Sonnet 3.7 не справилась с базовыми задачами в Pokémon Red на Twitch. Ранние версии моделей не могли пройти даже туториал, а Opus 4.5 несколько дней ходил кругами вокруг тренажерного зала. В мае 2025 года Google Gemini 2.5 Pro добился успеха благодаря улучшенным инструментам. Исследователи отмечают, что ИИ не обладает долгосрочной памятью и не справляется с открытыми задачами. Похожие проблемы наблюдаются в играх вроде Minecraft и StarCraft II. Для долгосрочных инвестиций понимание таких ограничений играет ключевую роль при оценке соотношения риска и прибыли в проектах, основанных на ИИ.

Автор:Го Сяоджин, Tencent Technology

Редакция|Хю Цинъян

Самые передовые в мире модели ИИ могут сдать экзамен на получение медицинской лицензии, написать сложный код и даже победить экспертов-людей на математических соревнованиях, но они неоднократно терпят неудачу в детской игре Покемоны.

Эта привлекающая внимание попытка началась в феврале 2025 года, когда исследователь Anthropic запустил трансляцию Twitch под названием «Claude играет в Pokémon Red», чтобы сопроводить выпуск Claude Sonnet 3.7.

2000 зрителей вошли в прямой эфир. В общей чат-зоне зрители давали Claude советы и поддерживали его, в результате чего трансляция постепенно превратилась в публичное наблюдение за возможностями ИИ.

Sonet3.7 можно сказать, что "умеет играть" в "Покемон", но "умение играть" не означает "победу". Он может застрять на ключевых этапах на десятки часов, а также совершать глупые ошибки, которых даже дети-игроки не совершают.

Это не первый раз, когда Клод пытается это сделать.

Ранние версии демонстрировали еще более катастрофические результаты: некоторые блуждали по карте без цели, другие попадали в бесконечные циклы, а еще большее количество вовсе не могло выйти из учебного лагеря.

Даже Claude Opus 4.5 с заметно улучшенными способностями всё ещё допускает непонятные ошибки. Однажды он бродил по окрестностям "Дворца тренировок" целых четыре дня, но так и не смог попасть внутрь, просто потому что не осознал, что ему нужно срубить дерево, блокирующее дорогу.

Почему игра для детей стала для ИИ Садом Иттлы?

Потому что Pokémon требует именно тех способностей, которых в современных ИИ не хватает больше всего: непрерывное рассуждение в открытом мире без явных инструкций, запоминание решений, принятых несколько часов назад, понимание подразумеваемых причинно-следственных связей, долгосрочное планирование среди сотен возможных действий.

Эти вещи кажутся простыми для восьмилетнего ребенка, но становятся непреодолимой пропастью для ИИ-моделей, которые хвастаются, что "превосходят человеческий интеллект".

Разрыв в наборе инструментов определяет победу или поражение?

В сравнении с этим, Gemini 2.5 Pro от Google успешно прошла игру в стиле Pokémon соответствующего уровня сложности в мае 2025 года. Даже гендиректор Google Сундар Пичай полувысказался в публичном выступлении, что компания сделала шаг в направлении создания «искусственного интеллекта покемонов».

Однако этот результат нельзя просто объяснить тем, что модель Gemini сама по себе «умнее».

Основное различие заключается в наборе инструментов, используемых моделью. Джоэл Чжан (Joel Zhang), независимый разработчик, отвечающий за трансляцию Gemini в Pokémon, сравнил набор инструментов с «костюмом Железного Человека»: ИИ не входит в игру голыми руками, а находится в системе, которая может использовать различные внешние возможности.

Инструменты Gemini обеспечивают дополнительную поддержку, например, преобразование игровой графики в текст, что компенсирует слабые стороны модели в визуальном восприятии, а также предоставляют инструменты для решения головоломок и планирования маршрутов. В то же время, набор инструментов, используемых Claude, более минималистичен, а его попытки напрямую отражают реальные способности модели в восприятии, рассуждении и выполнении задач.

В повседневных задачах эти различия не так заметны.

Когда пользователь обращается к чат-боту с запросом, требующим поиска в интернете, модель автоматически вызывает инструмент поиска. Однако в таких долгосрочных задачах, как "Покемоны", различия в наборе инструментов настолько велики, что могут определить успех или неудачу.

02. Система смены ходов раскрывает недостатки "долговременной памяти" ИИ

Покемоны используют строгую систему ходов, и не требуют мгновенной реакции, поэтому они стали отличной "тренировочной площадкой" для тестирования ИИ. В каждой операции ИИ должен просто объединить текущий экран, подсказки целей и доступные операции для рассуждений, чтобы выдать четкие инструкции, такие как "нажать кнопку A".

Похоже, именно такой способ взаимодействия самый сильный у крупных языковых моделей.

Проблема заключается именно в "разрыве" временного измерения. Хотя Claude Opus 4.5 уже накопил более 500 часов работы и выполнил около 170 000 шагов, из-за необходимости повторной инициализации после каждого шага модель может искать подсказки только в очень узком контекстном окне. Такой механизм делает её похожей на человека с амнезией, который полагается на липкие заметки, повторяясь в фрагментированных данных и не способный, в отличие от настоящего человека, достичь качественного скачка за счёт накопленного опыта.

В таких областях, как шахматы и го, системы ИИ давно превзошли людей, но эти системы были чрезвычайно тщательно настроены под конкретные задачи. В сравнении с этим, такие универсальные модели, как Gemini, Claude и GPT, часто побеждают людей на экзаменах, в программировании и соревнованиях, но сталкиваются с неудачами в детской видеоигре.

Это противоречие само по себе очень поучительно.

По мнению Джоэла Чжан, основной проблемой ИИ является его неспособность в течение длительного времени последовательно выполнять одну конкретную цель. «Если вы хотите, чтобы агент выполнял реальную работу, оно не должно забывать, что делало пять минут назад», — отметил он.

Именно такое умение является неотъемлемым условием автоматизации когнитивного труда.

Исследователь Peter Whidden дал более ясное описание. Он опубликовал исходный код алгоритма покемонов, основанного на традиционном ИИ. «ИИ почти знает всё о покемонах», - сказал он, «он обучался на огромных данных, собранных людьми, и знает правильные ответы. Но как только дело доходит до исполнения, он выглядит неуклюже».

В игре этот разрыв между "знанием, но неспособностью действовать" постоянно усиливается: модель может знать, что ей нужно найти какой-то предмет, но не может надежно определить его положение на двумерной карте; она может знать, что ей следует поговорить с NPC, но снова и снова терпит неудачу при перемещении на пиксельном уровне.

03 Эволюция способностей: непреодоленный "инстинктный" разрыв

Несмотря на это, прогресс ИИ очевиден. Claude Opus 4.5 значительно превосходит предыдущую версию по самоанализу и визуальному восприятию, что позволило продвинуться в игре дальше. Gemini 3 Pro, завершив «Покемон Синий», справился с более сложной «Покемон Кристалл» без единого поражения в бою, чего Gemini 2.5 Pro никогда не достигал.

Во-вторых, набор инструментов Claude Code, выпущенный Anthropic, позволяет модели писать и запускать собственный код, который использовался для ретро-игр, таких как «RollerCoaster Tycoon», и, как утверждается, успешно управляет виртуальным парком развлечений.

Эти кейсы раскрывают непростую реальность: ИИ, оснащенный подходящим набором инструментов, может проявить очень высокую эффективность в интеллектуальных задачах, таких как разработка программного обеспечения, бухгалтерский учет, юридический анализ, даже если они все еще испытывают трудности с задачами, требующими мгновенной реакции.

Эксперименты с покемонами также выявили любопытное явление: модели, обученные на человеческих данных, демонстрируют поведение, похожее на человеческое.

В техническом отчёте по Gemini 2.5 Pro Google отмечает, что при моделировании «состояния паники», например, когда покемону грозит обморок, качество рассуждений модели значительно падает.

Когда Gemini 3 Pro в конечном итоге прошел «Покемон Синий», он оставил для себя примечание, не связанное с выполнением задания: «Чтобы закончить поэтично, я вернусь домой, к началу, и в последний раз поговорю с матерью, чтобы уволить персонажа».

Джоэлю Чжангу это поведение показалось неожиданным и сопровождающимся определенной проекцией человеческих эмоций.

04. Цифровой Лонг-марш, который трудно преодолеть ИИ, гораздо больше, чем "Покемоны"

«Покемоны» не единственный пример. В процессе поиска искусственного общего интеллекта (AGI) разработчики обнаружили, что даже если ИИ будет занимать лидирующие позиции на юридических экзаменах, при столкновении с несколькими сложными играми он всё ещё сталкивается с непреодолимыми «Ватерлоо».

NetHack: Пучина правил

Эта игра в подземелья 80-х годов стала "кошмаром" для исследований ИИ. Она обладает сильной случайностью и механизмом "постоянной смерти". Facebook AI Research обнаружил, что даже если модель может писать код, то при столкновении с «NetHack», требующим общей логики и долгосрочного планирования, её результаты значительно уступают даже новичкам-людям.

Minecraft: Исчезающее чувство цели

Хотя ИИ уже может создавать деревянные кирки и даже добывать алмазы, независимо "победить Эндер-Дракона" всё ещё остаётся фантастикой. В открытом мире ИИ часто "забывает" свою первоначальную цель в процессе сбора ресурсов, который может длиться десятки часов, или же полностью заблудится в сложной навигации.

StarCraft II: Пробел между универсальностью и профессионализмом

Хотя настраиваемые модели одерживали победы над профессиональными игроками, если позволить Claude или Gemini взять управление напрямую по визуальным инструкциям, они мгновенно рухнут. Общие модели всё ещё не справляются с неопределённостью "военной туманности", а также с балансированием микроуправления и макроэкономического строительства.

RollerCoaster Tycoon: Несбалансированность микро- и макроэкономики

Для управления развлекательным центром необходимо отслеживать состояние десятков тысяч посетителей. Даже Claude Code со средними управленческими навыками легко устает при обработке крупномасштабных финансовых крахов или внезапных инцидентов. Любое нарушение логики рассуждений приведет к банкротству парка.

Elden Ring и Sekiro: Пропасть физической обратной связи

Такие игры с сильной динамикой действий неблагоприятны для ИИ. В настоящее время задержка визуального анализа означает, что, пока ИИ "размышляет" над действиями босса, персонаж уже, скорее всего, будет убит. Требования к реакции в миллисекундах создают естественный предел для логики взаимодействия модели.

Почему Pokémon стал эталоном для ИИ?

Сегодня «Покемоны» постепенно превращаются в неофициальный, но очень убедительный тестовый эталон в области оценки ИИ.

Модели компаний Anthropic, OpenAI и Google собрали миллионы комментариев в прямых трансляциях на Twitch. Google подробно описала игровые достижения Gemini в техническом отчете, а Пичаи упомянул этот результат на конференции для разработчиков I/O. Даже Anthropic создала зону демонстрации "Claude играет в Покемонов" на отраслевой конференции.

«Мы — группа энтузиастов, увлеченных технологиями», — признает Дэвид Херш, вице-президент по прикладному ИИ в Anthropic. Но он подчеркивает, что это не только развлечение.

В отличие от традиционных эталонных тестов, основанных на одноразовых вопросах и ответах, «Покемоны» в течение очень длительного времени отслеживают процесс рассуждений, принятия решений и продвижения целей модели, что ближе к сложным задачам, которые люди хотят выполнять с помощью ИИ в реальном мире.

На сегодняшний день ИИ продолжает сталкиваться с трудностями в покемон-играх. Но именно эти повторяющиеся трудности ясно обозначают границы возможностей, которые все еще не преодолены обобщенным искусственным интеллектом.

В подготовке этой статьи также принял участие специальный корреспондент.

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.