
著者:郭曉静、騰訊科技
編集| Xu Qingyang
世界トップクラスのAIモデルは医学の資格試験に合格でき、複雑なコードを書くことができ、数学のコンテストで人間の専門家を打ち勝つことができるが、子供向けのゲーム『ポケットモンスター』では度々苦戦している。
この注目を集めた試みは、2025年2月にAnthropicの研究者が「Claudeが『ポケットモンスター レッド』をプレイする」をテーマにTwitchでライブ配信を開始したことに始まります。これはClaude Sonnet 3.7のリリースに合わせて行われました。
2,000人の視聴者がライブ配信に殺到しました。公開チャット欄では、視聴者が Claude に対してアドバイスを送る一方で、応援の声も寄せられ、このライブ配信は徐々にAIの能力を巡る公開観察の場へと変わっていきました。
Sonet3.7は『ポケットモンスター』を「遊べる」段階に達しているが、「遊べる」と「勝てる」は別問題である。重要なポイントで数十時間も進まなくなったり、子供のプレイヤーですら犯さないような基本的なミスをしたりする。
これは Claude の初めての試みではありません。
初期のバージョンの挙動はさらにひどく、地図上で目的もなくうろついたり、無限ループに陥ったり、あるいは序盤の村からすら出られなかった例も多数あった。
能力が大幅に向上した Claude Opus 4.5 であっても、まだ理解に苦しむようなミスが起こることがある。あるとき、それは「道館の外」で丸4日間ぐるぐると徘徊し続け、結局中に入ることができなかった。その理由は、単に道をふさぐ木を切り倒す必要があることに気づかなかっただけだった。
なぜ子供向けのゲームがAIの滑鉄盧になったのか?
『ポケットモンスター』が要求しているのは、まさしく現代のAIが最も欠いている能力だ。それは、明確な指示のないオープンワールド内で継続的に推論し、数時間前の決定を記憶し、暗黙の了解に基づく因果関係を理解し、数百ある可能性の中から長期的な計画を立てて行動を選ぶことである。
これらのことは8歳の子どもにとっては簡単なことだが、「人間を超えている」と謳われるAIモデルにとっては越えがたい溝である。
01 ツールキットのギャップが勝敗を決定する?
対照的に、GoogleのGemini 2.5 Proは2025年5月に、同程度の難易度を持つ『ポケットモンスター』のゲームを成功裏にクリアしました。GoogleのCEOであるサンダー・ピチャイ氏は、公の場で半分冗談まじりに、会社が「人工ポケモン知能」の開発に一歩前進したと述べました。
しかし、この結果は、ジェミニモデル自体が単に「賢い」という理由だけで簡単に説明できるものではありません。
主な違いは、モデルが使用するツールセットにあります。ジェミニ社の「ポケットモンスター」生放送を担当する独立開発者であるジョエル・チャン(Joel Zhang)氏は、このツールセットを「アイアンマンのアーマー」と例えました。つまり、AIがゲームに「手袋も拳銃もない状態」で挑むのではなく、さまざまな外部機能を呼び出すことができるシステムの中に配置されているということです。
Geminiが提供するツールセットは、視覚理解の弱さを補うために、ゲーム画面をテキストに変換するなどのサポートを含んでおり、カスタマイズ可能なパズル解決や経路計画のツールも提供しています。これに対して、Claudeが使用するツールセットはよりシンプルであり、その試みはより直接的に、モデルの認識、推論、および実行能力の現実的なレベルを反映しています。
日常のタスクにおいては、このような違いは顕著ではありません。
ユーザーがチャットボットにインターネット接続が必要なリクエストを送信する際、モデルは自動的に検索ツールを呼び出します。しかし、「ポケットモンスター(ポケモン)」のような長期にわたるタスクでは、ツールセットの違いが成功か失敗かを分けるほどの大きな影響を及ぼします。
第2回:ターン制AIの「長期記憶」の欠点を暴露
『ポケットモンスター』は厳格なターン制を採用しており、即時反応が不要なため、AIのテストに最適な「演習場」となっています。AIは各操作において、現在の画面や目的のヒント、選択可能な操作を組み合わせて推論を行うだけで、「Aボタンを押す」といった明確な指示を出力できます。
これはまさしく、大規模言語モデルが最も得意とするインタラクション形式です。
問題の本質は、時間軸における「断層」にあります。 Claude Opus 4.5 はすでに500時間以上稼働し、約17万ステップの操作を経ていますが、各ステップごとの再初期化によって、モデルは非常に狭いコンテキストウィンドウの中でしか手がかりを掴むことができません。このメカニズムにより、まるでメモ用の便利なメモで記憶を補完する失憶症の人物のように、断片的な情報の中で繰り返し徘徊し続け、本物のヒューマンプレイヤーのように、量的変化から質的飛躍への経験の蓄積を実現することができません。
チェスや囲碁などの分野では、AIシステムがすでに人間をはるかに上回る能力を発揮していますが、これらのシステムは特定のタスクに高度に特化されています。一方で、ジェミニやクロード、GPTといった汎用モデルは、試験やプログラミングコンテストなどにおいて頻繁に人間を打ち勝ちますが、ある子供向けのゲームでは繰り返し困難に直面しています。
この対照自体が非常に示唆的である。
ジョエル・チャンによれば、AIが直面する中心的な課題は、長期間にわたって単一の明確な目標を継続して実行できない点にある。彼は「もしエージェントに本当に仕事を遂行させたいのなら、5分前に行ったことさえ忘れてしまってはいけない」と指摘している。
そして、この能力こそが、認知的労働の自動化を実現するために不可欠な前提条件です。
独立研究者であるピーター・ウィーデン氏は、より直感的な説明を示した。彼は伝統的なAIに基づく「ポケットモンスター」用のアルゴリズムをオープンソース化した経験を持つ。「AIは『ポケットモンスター』についてほぼすべてを知っている」と彼は述べ、「それは膨大な人間のデータで訓練されており、正しい答えを把握している。しかし、実行フェーズになると、非常にぎこちなくなってしまうのだ」。
ゲーム中では、この「理解しているが実行できない」という断層が次第に強調されていく。モデルは、あるアイテムを入手すべきことを理解しているかもしれないが、2次元の地図上で安定してその位置を特定することができなかったり、NPCと話すべきことを理解していても、ピクセル単位での移動において繰り返し失敗したりするのだ。
03 能力進化の裏側:越えられない「無意識」の溝
その一方で、AIの進化は明確に見て取れます。Claude Opus 4.5は、自己記録や視覚理解において前世代モデルよりも明らかに優れており、ゲーム内でより遠くまで進むことが可能となっています。Gemini 3 Proは『ポケットモンスター ブルー』をクリアした後、さらに難易度の高い『ポケットモンスター クリスタル』も、1度も戦闘で敗北することなく完成させました。これは、Gemini 2.5 Proでは決して達成できなかったことです。
同時に、AnthropicがリリースしたClaude Codeというツールキットにより、モデルが独自のコードを生成・実行できるようになり、『ローラーコースター・ティクエット』などのレトロゲームにおいて、バーチャルテーマパークを成功裏に管理できると報告されています。
これらの事例は、直感に反する現実を明らかにしている。それは、適切なツールキットを備えたAIは、ソフトウェア開発や会計、法的分析などの知識作業において非常に高い効率を発揮する可能性がある一方で、リアルタイムでの対応を必要とするタスクにはまだ対処するのが難しいということである。
『ポケットモンスター』の実験は、もう一つ興味深い現象を明らかにした。それは、人間のデータで訓練されたモデルが、人間らしい行動を示す傾向にあるということである。
Gemini 2.5 Proの技術報告書において、Googleは、システムが「パニック状態」をシミュレートする際(例えば、ポケモンが気絶寸前になるような状況)に、モデルの推論品質が著しく低下することを指摘しています。
そしてジェミニ3 プロが『ポケットモンスター ブルー』を最終的にクリアした際、自身のために不要なミッションではないという注釈を残した。「詩的に終わりをつけるために、最初の家に戻り、母親との最後の会話をし、キャラクターを引退させる。」
ジョエル・チャンにとって、この行動は予想外であり、ある種の人間らしい感情の投影を伴っていた。
04. AIが乗り越えがたい「デジタルの長征(ちょうせいい)」――『ポケットモンスター』にとどまらない
「ポケモン」は一例に過ぎない。AGI(汎用人工知能)の開発において、開発者たちはAIが司法試験で上位を記録しても、以下の複雑なゲームに直面したときには、依然として乗り越えがたい「滑鉄盧(滑石ロ)」に遭遇していることを発見している。
『ネッティーハック』:ルールの深淵

この1980年代に登場したダンジョン探索ゲームは、AI研究界隈における「悪夢」となっている。このゲームは非常にランダム性が高く、「パーマデス(永久死亡)」という仕組みを持つ。Facebook AI Researchが発見したように、モデルがコードを書ける能力を持っていても、常識的な論理や長期的な計画を必要とする『NetHack』においては、人間の初心者よりもはるかに性能が劣ることが分かった。
『マイクラフト』:消失した目標意識

AIはすでに木のピッケルを作成し、さらにはダイヤモンドの採掘も可能だが、「エンドドラゴンを倒す」ような独立した行動はまだ幻想である。オープンワールドでは、AIは数十時間にわたる資源収集の過程で当初の目的を「忘れてしまう」ことがよくあり、複雑なナビゲーションで完全に迷子になってしまうこともある。
『StarCraft II』:汎用性と専門性の断層

カスタマイズされたモデルがプロゲーマーを打ち勝った例は過去にあるが、ClaudeやGeminiが直接視覚的な指示を元に操作を引き継いだ場合、たちまち機能不能になる。不確実性を含む「戦争の霧」を扱い、微細な操作とマクロ的な構築のバランスを取るという点において、汎用的なモデルは依然として苦手である。
『ローラーコースター・シム』:マイクロとマクロのアンバランス

テーマパークの運営には、数千人の来園者の状態を追跡する必要があります。初期の管理能力を備えたClaude Codeでも、大規模な財政危機や予期せぬ事故を処理する際には疲労を伴いやすくなります。一度の推論の欠陥が、パークの破産をもたらす可能性があります。
『エルデンリング』と『只狼』:物理演算の溝

このような強力なアクションフィードバックを伴うゲームはAIには非常に不向きです。現在の視覚解析の遅延により、AIが「ボスの行動を思考」している間に、キャラクターはすでに倒されていることがよくあります。ミリ秒単位での反応が求められることによって、モデルのインタラクションロジックには自然な上限が生じています。
なぜ「ポケットモンスター」はAIの試金石になったのか?
現在、『ポケットモンスター』は、AI評価分野において非公式ながらも説得力のあるテストベンチマークとして徐々に注目を集めています。
Anthropic、OpenAIおよびグーグルのモデルによるTwitchでの関連生放送は、累計で何十万ものコメントを獲得しています。グーグルは技術報告書でジェミニのゲーム開発の進捗を詳細に記録し、ピチャイ氏はI/O開発者会議でこの成果について公に言及しました。Anthropicは、業界会議で「 Claudeがポケモンを遊ぶ」デモセッションを設けるなど、積極的に取り組んでいます。
「我々は超技術愛好家たちの集まりです」と、アントロピック(Anthropic)のアプリケーションAI責任者であるデイビッド・ハーシー(David Hershey)氏は率直に認めました。しかし、彼はこれは単なる娯楽以上のものであると強調しています。
1回限りの質問と回答形式の従来のベンチマークとは異なり、「ポケットモンスター(Pokémon)」は、非常に長い期間にわたりモデルの推論、意思決定および目標達成のプロセスを継続的に追跡することができます。これは、現実世界で人間がAIに実行してほしい複雑なタスクに近いものです。
現在までに、AIによる『ポケットモンスター』における挑戦は続いています。しかし、こうした繰り返される困難は、汎用的人工知能がまだ越えられていない能力の限界を明確に描き出しています。
本記事には、特約編集者の無忌も貢献しています。
