
Tác giả:Guo Xiaojing, Tencent Technology
Biên tập | Xu Qinyang
Một số mô hình AI hàng đầu thế giới có thể vượt qua kỳ thi hành nghề y, viết được mã nguồn phức tạp, thậm chí đánh bại các chuyên gia con người trong các cuộc thi toán học, nhưng lại liên tục thất bại trong trò chơi trẻ em Pokémon.
Nỗ lực đáng chú ý này bắt đầu vào tháng 2 năm 2025, khi một nhà nghiên cứu của Anthropic đã phát trực tiếp trên Twitch tiêu đề "Claude chơi Pokémon Red", nhằm đi kèm với việc ra mắt Claude Sonnet 3.7.
2000 người xem đã tràn vào phòng phát trực tiếp. Trong khu trò chuyện công cộng, các khán giả đưa ra ý kiến và động viên Claude, khiến buổi phát trực tiếp này dần trở thành một buổi quan sát công khai về khả năng của AI.
Sonet3.7 chỉ có thể nói là "biết chơi" Pokémon, nhưng "biết chơi" không đồng nghĩa với "có thể thắng". Nó có thể bị kẹt ở các nút then chốt trong hàng chục giờ, đồng thời còn mắc những sai lầm sơ đẳng mà ngay cả những người chơi trẻ em cũng không bao giờ mắc phải.
Đây không phải là lần đầu tiên Claude thử.
Hiệu suất của các phiên bản trước còn tồi tệ hơn nữa: một số lang thang vô mục đích trên bản đồ, một số rơi vào vòng lặp vô hạn, và nhiều hơn nữa thậm chí không thể rời khỏi làng mới.
Ngay cả Claude Opus 4.5 với khả năng được nâng cao đáng kể, vẫn có thể mắc những sai lầm khó hiểu. Một lần, nó đã quay vòng ngoài "đấu trường" suốt bốn ngày mà vẫn không thể vào được, chỉ đơn giản vì không nhận ra rằng cần phải chặt cây cản đường ở lối vào.
Một trò chơi dành cho trẻ em, sao lại trở thành thử thách lớn với AI?
Bởi vì "Pokémon" yêu cầu chính xác những khả năng mà AI hiện đại đang thiếu nhất: suy luận liên tục trong một thế giới mở không có hướng dẫn rõ ràng, ghi nhớ các quyết định được đưa ra vài giờ trước, hiểu được các mối quan hệ nhân quả ẩn chứa, và lên kế hoạch dài hạn trong hàng trăm hành động có thể thực hiện.
Những việc này với một đứa trẻ 8 tuổi thì dễ như ăn kẹo, nhưng lại là rào cản không thể vượt qua đối với các mô hình AI được tự hào là "vượt trội hơn con người".
01 Bộ công cụ khác nhau quyết định thành công hay thất bại?
Trái lại, Gemini 2.5 Pro của Google đã vượt qua thành công một trò chơi Pokémon có độ khó tương đương vào tháng 5 năm 2025. Thậm chí, Sundar Pichai, Giám đốc điều hành của Google, còn nửa đùa nửa thật trong một buổi công khai rằng công ty đã tiến một bước trong việc xây dựng "trí tuệ nhân tạo Pokémon".
Tuy nhiên, kết quả này không thể đơn giản quy cho việc mô hình Gemini "thông minh" hơn.
Sự khác biệt chính nằm ở bộ công cụ mà mô hình sử dụng. Joel Zhang, nhà phát triển độc lập chịu trách nhiệm vận hành buổi phát sóng trực tiếp trò chơi Pokémon của Gemini, ví bộ công cụ này như một bộ "vũ khí Iron Man": AI không đơn thuần bước vào trò chơi bằng tay không, mà được đặt trong một hệ thống có thể gọi nhiều khả năng bên ngoài khác nhau.
Bộ công cụ của Gemini cung cấp thêm sự hỗ trợ, ví dụ như chuyển đổi hình ảnh trò chơi thành văn bản, qua đó khắc phục điểm yếu của mô hình trong việc hiểu hình ảnh, đồng thời cung cấp các công cụ giải đố và lập kế hoạch đường đi được cá nhân hóa. Trong khi đó, bộ công cụ được Claude sử dụng đơn giản hơn, những nỗ lực của nó phản ánh trực tiếp hơn khả năng thực sự của mô hình trong nhận thức, suy luận và thực thi.
Trong các nhiệm vụ hàng ngày, sự khác biệt này không rõ ràng.
Khi người dùng gửi yêu cầu cần tra cứu thông tin trực tuyến đến chatbot, mô hình sẽ tự động gọi công cụ tìm kiếm. Tuy nhiên, trong các nhiệm vụ dài hạn như trò chơi Pokémon, sự khác biệt giữa các bộ công cụ có thể bị phóng đại đến mức đủ để quyết định thành công hay thất bại.
02. Hệ thống lượt đánh phơi bày điểm yếu "trí nhớ dài hạn" của AI
Vì Pokémon sử dụng hệ thống đấu tranh theo lượt nghiêm ngặt và không yêu cầu phản ứng tức thì, nó trở thành "sân tập" lý tưởng để kiểm tra AI. AI chỉ cần kết hợp hình ảnh hiện tại, các gợi ý mục tiêu và các thao tác có thể chọn để suy luận, sau đó có thể đưa ra các lệnh rõ ràng như "nhấn nút A".
Đây dường như chính là hình thức tương tác mà các mô hình ngôn ngữ lớn giỏi nhất.
Vấn đề cốt lõi nằm chính xác ở "khoảng trống" về mặt thời gian. Dù rằng Claude Opus 4.5 đã vận hành tích lũy hơn 500 giờ và thực hiện khoảng 170 nghìn bước, nhưng do bị giới hạn bởi việc khởi tạo lại sau mỗi bước thao tác, mô hình chỉ có thể tìm kiếm các manh mối trong một cửa sổ ngữ cảnh cực kỳ hẹp. Cơ chế này khiến nó giống như một người mất trí nhớ phải dựa vào các mảnh giấy ghi chú để duy trì nhận thức, lặp đi lặp lại trong những mảnh thông tin rời rạc, mãi không thể đạt được bước nhảy vọt về chất như người chơi thực sự, chuyển từ tích lũy số lượng thành thay đổi chất lượng.
Trong các lĩnh vực như cờ vua và cờ vây, các hệ thống AI đã sớm vượt qua con người, nhưng các hệ thống này đều được thiết kế đặc biệt cho các nhiệm vụ cụ thể. Trái lại, các mô hình tổng quát như Gemini, Claude và GPT thường xuyên đánh bại con người trong các kỳ thi và cuộc thi lập trình, nhưng lại liên tục gặp khó khăn trong một trò chơi dành cho trẻ em.
Sự tương phản này tự bản thân nó đã rất có ý nghĩa.
Theo Joel Zhang, thách thức cốt lõi mà AI đối mặt nằm ở việc không thể duy trì thực hiện một mục tiêu rõ ràng duy nhất trong một khoảng thời gian dài. "Nếu bạn muốn các thể thông minh thực hiện công việc thực sự, chúng không thể quên những gì đã làm cách đây năm phút," ông chỉ rõ.
Và khả năng này chính là điều kiện tiên quyết không thể thiếu được để tự động hóa lao động nhận thức.
Nhà nghiên cứu độc lập Peter Whidden đã đưa ra một mô tả trực quan hơn. Ông từng công khai mã nguồn của một thuật toán Pokémon dựa trên AI truyền thống. "AI gần như biết tất cả về Pokémon," ông nói, "nó được huấn luyện trên lượng dữ liệu con người khổng lồ và biết rõ câu trả lời đúng. Nhưng khi đến giai đoạn thực thi, nó lại tỏ ra vụng về một cách đáng ngạc nhiên."
Trong trò chơi, khe hở "biết nhưng không làm được" này liên tục bị phóng đại: mô hình có thể biết cần phải tìm một vật phẩm nào đó, nhưng không thể xác định vị trí ổn định trên bản đồ hai chiều; biết rằng nên trò chuyện với NPC, nhưng lại liên tục thất bại trong di chuyển ở cấp độ pixel.
03. Dưới bề mặt tiến hóa năng lực: Khoảng cách "bản năng" chưa thể vượt qua
Tuy nhiên, sự tiến bộ của AI vẫn rõ rệt. Claude Opus 4.5 có khả năng tự ghi chép và hiểu hình ảnh tốt hơn rõ rệt so với phiên bản trước, cho phép nó tiến xa hơn trong trò chơi. Gemini 3 Pro sau khi hoàn thành trò chơi Pokémon Blue, đã tiếp tục vượt qua trò chơi khó hơn là Pokémon Crystal mà không thua bất kỳ trận chiến nào. Đây là điều mà Gemini 2.5 Pro chưa từng đạt được.
Trong khi đó, bộ công cụ Claude Code do Anthropic giới thiệu cho phép mô hình viết và chạy mã nguồn riêng, đã được sử dụng để chơi các trò chơi cổ điển như RollerCoaster Tycoon, và được cho là có thể thành công trong việc quản lý công viên giải trí ảo.
Những ví dụ này tiết lộ một thực tế không trực quan: AI được trang bị bộ công cụ phù hợp có thể đạt hiệu suất rất cao trong các công việc trí tuệ như phát triển phần mềm, kế toán, phân tích pháp lý, ngay cả khi chúng vẫn còn khó khăn trong các nhiệm vụ yêu cầu phản ứng theo thời gian thực.
Thí nghiệm Pokémon còn tiết lộ một hiện tượng đáng chú ý khác: các mô hình được huấn luyện trên dữ liệu của con người sẽ thể hiện các đặc điểm hành vi gần giống con người.
Trong báo cáo kỹ thuật của Gemini 2.5 Pro, Google cho biết chất lượng suy luận của mô hình sẽ giảm rõ rệt khi hệ thống mô phỏng "trạng thái hoảng loạn", ví dụ như khi một Pokémon sắp bất tỉnh.
Và khi Gemini 3 Pro cuối cùng vượt qua được Pokémon Blue, nó đã tự ghi chú lại một điều không bắt buộc trong nhiệm vụ: "Để kết thúc một cách đầy thi vị, tôi sẽ trở lại ngôi nhà ban đầu, lần cuối cùng trò chuyện với mẹ và cho nhân vật nghỉ hưu."
Đối với Joel Zhang, hành động này thật bất ngờ, còn mang theo một hình thức cảm xúc nhân cách hóa nào đó.
04. Hành trình số kỹ thuật mà AI khó có thể vượt qua, còn xa mới chỉ là "Pokémon"
"Pokemon" không phải là trường hợp duy nhất. Trên con đường hướng tới trí tuệ nhân tạo tổng quát (AGI), các nhà phát triển nhận ra rằng, ngay cả khi AI có thể đạt thành tích cao trong kỳ thi luật, chúng vẫn đối mặt với những "Waterloo" khó vượt qua khi phải đối đầu với một số loại trò chơi phức tạp sau đây.
NetHack: Vực sâu quy tắc

Trò chơi hang động thập niên 80 này là "ác mộng" của nghiên cứu AI. Trò chơi có tính ngẫu nhiên rất cao và cơ chế "chết là hết". Facebook AI Research phát hiện ra rằng, ngay cả khi mô hình có thể viết mã, thì trước trò chơi NetHack yêu cầu suy luận thông thường và lập kế hoạch dài hạn, hiệu suất của chúng thậm chí còn kém xa so với người chơi mới bắt đầu.
Minecraft: Cảm giác mục tiêu biến mất

Dù AI đã có thể chế tạo búa gỗ và thậm chí đào kim cương, thì việc tự mình "thắng rồng Ender" vẫn còn là điều viển vông. Trong thế giới mở, AI thường xuyên "quên" mục tiêu ban đầu trong quá trình thu thập tài nguyên kéo dài hàng chục giờ, hoặc bị lạc hoàn toàn trong quá trình điều hướng phức tạp.
StarCraft II: Khoảng cách giữa tính phổ dụng và chuyên môn

Mặc dù các mô hình được tùy chỉnh từng đánh bại các game thủ chuyên nghiệp, nhưng nếu để Claude hoặc Gemini trực tiếp tiếp quản bằng các lệnh trực quan, chúng sẽ lập tức sụp đổ. Trong việc xử lý sự không chắc chắn của "sương mù chiến tranh" và cân bằng giữa micro (chiến thuật nhỏ) và macro (xây dựng tổng thể), các mô hình tổng quát vẫn còn rất nhiều hạn chế.
RollerCoaster Tycoon: Cân bằng vi mô và vĩ mô không ổn định

Việc quản lý một khu vui chơi cần phải theo dõi tình trạng của hàng nghìn du khách. Dù có khả năng quản lý ban đầu của Claude Code, thì cũng dễ dàng mệt mỏi khi phải xử lý các sự kiện như khủng hoảng tài chính quy mô lớn hoặc các tai nạn bất ngờ. Mỗi lần suy luận bị gián đoạn đều có thể dẫn đến phá sản của khu vui chơi.
"Đạo Tràng Elden" và "Sói Một Mắt": Khoảng cách trong phản hồi vật lý

Loại trò chơi phản hồi hành động mạnh này cực kỳ không thuận lợi cho AI. Độ trễ phân tích hình ảnh hiện tại có nghĩa là khi AI vẫn còn đang "suy nghĩ" về động tác của Boss, nhân vật thường đã bị tiêu diệt. Yêu cầu phản ứng ở cấp độ miligiây tạo thành giới hạn tự nhiên cho logic tương tác của mô hình.
05. Tại sao Pokémon trở thành thử thách cho AI?
Hiện nay, "Pokémon" đang dần trở thành một tiêu chuẩn kiểm tra phi chính thức nhưng lại rất thuyết phục trong lĩnh vực đánh giá AI.
Các mô hình của Anthropic, OpenAI và Google đã thu hút hàng trăm nghìn bình luận trong các buổi phát trực tiếp liên quan trên Twitch. Google đã ghi chép chi tiết về tiến bộ của Gemini trong trò chơi trong báo cáo kỹ thuật, và Sundar Pichai đã công khai đề cập đến thành tựu này tại hội nghị dành cho nhà phát triển I/O. Ngay cả Anthropic cũng đã thiết lập khu vực trưng bày "Claude chơi Pokémon" tại các hội nghị ngành công nghiệp.
"Chúng tôi là một nhóm những người đam mê công nghệ siêu đẳng," David Hershey, người phụ trách AI ứng dụng tại Anthropic, thẳng thắn thừa nhận. Tuy nhiên, ông nhấn mạnh rằng điều này không chỉ đơn thuần là giải trí.
Khác với các tiêu chuẩn đánh giá truyền thống theo kiểu hỏi đáp một lần, trò chơi Pokémon có thể theo dõi liên tục quá trình suy luận, ra quyết định và thực hiện mục tiêu của mô hình trong một khoảng thời gian rất dài, điều này gần gũi hơn với các nhiệm vụ phức tạp mà con người mong muốn AI thực hiện trong thế giới thực.
Tính đến nay, thách thức của AI trong "Pokémon" vẫn đang tiếp diễn. Tuy nhiên, chính những khó khăn lặp đi lặp lại này đã rõ ràng phác họa ra giới hạn năng lực mà trí tuệ nhân tạo tổng quát (AGI) vẫn chưa thể vượt qua.
Biên dịch viên đặc biệt Vô Cấm cũng có đóng góp cho bài viết này.
