頂尖 AI 模型難以戰勝寶可夢遊戲，凸顯長期推理能力的差距

作者：郭曉靜，騰訊科技

編輯｜徐青陽

世界上最頂尖的AI模型可以通過醫學資格考試，可以編寫複雜的程式碼，甚至可以在數學競賽中擊敗人類專家，但卻在一款兒童遊戲《寶可夢》中屢戰屢敗。

這項引人注目的嘗試始於2025年2月，當時Anthropic的一位研究人員在Twitch上進行了「Claude玩寶可夢紅」的直播，以配合Claude Sonnet 3.7的發布。

2000名觀眾湧入直播間。在公共聊天區，觀眾們為Claude出謀劃策、打氣加油，使這場直播逐漸演變成一場關於AI能力的公開觀察。

Sonet3.7只能說是「懂得玩」《寶可夢》而已，但「懂得玩」不等於「能贏」。它會在關鍵節點卡住數十小時，還會做出連兒童玩家都不會犯的低級錯誤。

這不是Claude第一次嘗試。

早期版本的表現更加災難：有的在地圖中毫無目標地遊蕩，有的陷入無限循環，更多的甚至無法走出新手村。

即使是能力大幅提升的Claude Opus 4.5，仍然會出現令人費解的錯誤。有一次，它在「道館外」繞圈整整四天，始終未能進入，原因只是沒有意識到需要砍倒擋在路口的一棵樹。

一款兒童遊戲，為何成了AI的滑鐵盧？

《寶可夢》所要求的，正是現今人工智慧最缺乏的能力：在沒有明確指令的開放世界中持續推理、記住數小時前的決定、理解隱含的因果關係，以及在數百種可能行動中作出長期規劃。

對8歲孩子來說是輕而易舉的事，對標榜「超越人類」的AI模型卻是不可逾越的鴻溝。

01 工具集差距決定成敗？

相比之下，谷歌的Gemini 2.5 Pro於2025年5月成功完成了一款難度相近的《寶可夢》遊戲。谷歌行政總裁桑達爾·皮查伊（Sundar Pichai）甚至在公開場合半開玩笑地表示，公司在打造「人工寶可夢智能」方面邁出了第一步。

然而，這個結果並不能簡單歸因於Gemini模型本身更「聰明」。

關鍵差異在於模型所使用的工具組。負責營運 Gemini《寶可夢》直播的獨立開發者 Joel Zhang 將工具組比喻為一套「鋼鐵俠裝甲」：AI 並非空手進入遊戲，而是被置於一個可調用多種外部能力的系統中。

Gemini 的工具集提供了更多支援，例如將遊戲畫面轉寫為文字，從而彌補模型在視覺理解上的弱點，並提供客製化的解謎與路徑規劃工具。相比之下，Claude 所使用的工具集則更為簡約，它的嘗試也更直接地反映出模型自身在感知、推理與執行上的真實能力。

在日常任務中，這類差異並不明顯。

當用戶向聊天機械人提出需要上網查詢的請求時，模型同樣會自動調用搜索工具。但在《寶可夢》這類長期任務中，工具集的差異被放大至足以決定成敗的程度。

02回合制揭發AI的「長期記憶」短板

由於《寶可夢》採用嚴謹的回合制，而且無需即時反應，因此成為測試人工智能（AI）的絕佳「訓練場」。AI 在每一步操作中，只需結合當前畫面、目標提示與可選操作進行推理，即可輸出「按下 A 鍵」這類明確的指令。

這似乎正是大語言模型最擅長的互動形式。

問題的核心在於時間維度上的「斷層」。儘管 Claude Opus 4.5 已累計運行超過 500 小時、執行約 17 萬步，但受限於每一步操作後的重新初始化，模型只能在極窄的上下文窗口中尋找線索。這種機制讓它更像是靠便利貼維持認知的失憶者，在碎片化的資訊中反覆循環，始終無法像真正的人類玩家那樣，實現由量變到質變的經驗跨越。

在國際象棋和圍棋等領域，AI系統早已超越人類，但這些系統是為特定任務高度定制的。相比之下，Gemini、Claude和GPT作為通用模型，雖然在考試、程式設計比賽中屢屢戰勝人類，卻在一款兒童遊戲中屢遭挫敗。

這種對比本身就極具啟發性。

在張喬爾看來，人工智能面臨的核心挑戰在於無法在一段長時間內持續執行單一明確的目標。「如果你希望智能體完成真正的工作，它不能忘記五分鐘前自己做了什麼，」他指出。

而這種能力，正是實現認知勞動自動化不可或缺的先決條件。

獨立研究者彼得·惠登（Peter Whidden）提供了更直觀的描述。他曾開發了一個基於傳統人工智慧的《寶可夢》演算法，並公開其原始碼。「人工智慧對《寶可夢》幾乎無所不知，」他表示，「它在大量人類數據上進行訓練，清楚正確答案。但一到執行階段，就顯得笨拙不堪。」

在遊戲中，這種「知道卻做不到」的斷層被不斷放大：模型可能知道需要尋找某道具，卻無法在二維地圖中穩定定位；知道應該與NPC對話，卻在像素級移動中反覆失敗。

03 能力演進背後：未跨越的「本能」鴻溝

儘管如此，人工智慧的進步仍然清晰可見。Claude Opus 4.5 在自我記錄和視覺理解方面明顯優於上一代，因此能在遊戲中走得更遠。Gemini 3 Pro 在打通《寶可夢藍》後，又完成了難度更高的《寶可夢水晶》，而且全程沒有輸掉一場戰鬥。這一點是 Gemini 2.5 Pro 始終未能做到的。

同時，Anthropic 推出的 Claude Code 工具集允許模型撰寫及運行自己的程式碼，已被用於《過山車大亨》等懷舊遊戲，據稱能成功管理虛擬主題公園。

這些案例揭示了一個不太直觀的現實：配備合適工具的AI，可能在軟件開發、會計、法律分析等知識型工作中展現極高的效率，即使它們仍然難以應對需要即時反應的任務。

《寶可夢》實驗還揭示另一個耐人尋味的現象：在人類數據上訓練的模型，會表現出近似人類的行為特徵。

在Gemini 2.5 Pro的技術報告中，谷歌指出，當系統模擬「恐慌狀態」，例如寶可夢即將昏厥時，模型的推理質量會明顯下降。

而當Gemini 3 Pro最終通過《寶可夢藍》時，它為自己留下了一段非任務必需的備註：「為了詩意地結束，我要回到最初的家，與母親進行最後一次對話，讓角色退休。」

在喬爾·張看來，這個行為令人意外，還帶有某種人類情感的投射。

04、AI難以跨越的「數字長征」，遠不止《寶可夢》

《寶可夢》並非孤例。在追求通用人工智慧（AGI）的道路上，開發者發現，即使AI能在司法考試中名列前茅，但在面對以下幾類複雜遊戲時，仍然面臨著難以跨越的「滑鐵盧」。

《NetHack》：規則的深淵

這款80年代的地牢遊戲對AI研究界來說簡直是「惡夢」。遊戲具有極高的隨機性，並採用「永久死亡」機制。Facebook AI Research發現，即使模型能寫程式碼，在需要常識邏輯和長期規劃的《NetHack》面前，表現甚至遠不如人類初學者。

《我的世界》：消失的目標感

雖然AI已經能製作木頭鈍器，甚至挖掘鑽石，但單獨「擊敗末影龍」仍然是幻想。在開放世界中，AI經常在長達數十小時的資源收集過程中「忘記」原本的目標，或在複雜的導航中完全迷路。

《星海爭霸 II》：通用性與專業性的斷層

儘管定制化模型曾經擊敗職業選手，但如果讓 Claude 或 Gemini 直接透過視覺指令接管，它們便會立即崩潰。在處理「戰爭迷霧」的不確定性，以及平衡微操與宏觀建設方面，通用模型始終力不從心。

《過山車大亨》：微觀與宏觀的失衡

管理樂園需要追蹤數以千計遊客的狀態。即使擁有初步管理能力的Claude Code，在處理大規模財務危機或突發事故時也很容易顯得疲憊。任何一次推理中斷，都會導致樂園破產。

《艾爾登法環》與《只狼》：物理反饋的鴻溝

這類強動作反饋遊戲對AI極不友好。目前的視覺解析延遲意味著，當AI仍在「思考」Boss動作時，角色往往已經陣亡。毫秒級的反應要求，構成了模型互動邏輯的天然上限。

05 為何《寶可夢》成為AI試金石？

現時，《寶可夢》正逐漸成為AI評估領域中一種非正式卻極具說服力的測試基準。

Anthropic、OpenAI和Google的模型在Twitch上的相關直播累計吸引數十萬條評論。Google在技術報告中詳細記錄Gemini在遊戲方面的進展，Pichai在I/O開發者大會上公開提及這項成果。Anthropic甚至在業界會議中設立「Claude玩寶可夢」展示區。

「我們是一群超級技術愛好者，」Anthropic 應用 AI 負責人大衛·赫爾希（David Hershey）坦言。但他強調，這不僅僅是娛樂。

與一次性問答式的傳統基準不同，《寶可夢》能在極長時間內持續追蹤模型的推理、決策與目標推進過程，這更接近現實世界中人類希望AI執行的複雜任務。

截至目前，AI在《寶可夢》中的挑戰仍在繼續。但正是這些反覆出現的困境，清晰勾勒出通用人工智能尚未跨越的能力邊界。

本文章亦有特約編譯無忌的貢獻