
Managsadula:Guo Xiaojing, Tencent Technologies
Napapalit na may-akda | Xu Qingyang
Ang mga nangungunang AI model sa mundo ay maaaring umabot sa medikal na lisensya, maaaring sumulat ng komplikadong code, at kahit na manalo sa mga math competition laban sa mga eksperto sa tao, ngunit patuloy itong nababalewala sa isang laro para sa mga bata na Pokémon.
Nagsimula ang kakaibang pagtatangka noong Pebrero 2025, nang isang mananaliksik mula sa Anthropic ay in-stream ang "Claude Playing Pokémon Red" sa Twitch, na kusang pagsasama ng paglilipat ng Claude Sonnet 3.7.
2000 na mga manonood ang pumasok sa live stream. Sa pambansa palabas chat, ang mga manonood ay nagbibigay ng mga payo at pagsusumikap para kay Claude, na nagawaan ito ng live stream na naging isang pampublikong pagsusuri sa kakayahan ng AI.
Ang Sonet3.7 ay maaaring sabihing "nakakainom" sa Pokémon, ngunit ang "nakakainom" ay hindi katumbas ng "makakadaig". Ito ay maaaring mag-antala ng mga sampung oras sa mga pangunahing puntos, at gagawa ng mga elementaryong mga pagkakamali na kahit ang mga bata ay hindi gagawin.
Ito ay hindi una ni Claude na pagsubok.
Mas mapanikas pa ang mga dating bersyon: ang ilan ay walang layunin na naglalakad sa mapa, ang ilan ay nasa walang hanggang siklo, at ang marami pa ay hindi kahit makalabas ng starter village.
Kahit ang Claude Opus 4.5 na may malaking pag-unlad ay may mga pagkakamali pa rin. Isang beses, ito ay naglalakad-lakad sa labas ng "gym" nang apat na araw at hindi pa rin nakapasok dahil sa isang simpleng dahilan - hindi nito napansin na kailangan itong magsigaw ng isang puno na nasa harapan ng daan.
Ang isang laro para sa mga bata, bakit naging Waterloo ng AI?
Ang hinihingi ng Pokémon ay ang eksaktong kakayahan na kawili-wili ngayon ng AI: patuloy na pag-iisip sa isang bukas na mundo na walang malinaw na mga utos, pagpapalabas ng mga desisyon na ginawa nang ilang oras na ang nakalipas, pag-unawa sa mga implid na sanhi at epekto, at paggawa ng pangmatagalang plano sa gitna ng daan-daang posibleng aksyon.
Ang mga bagay na madali lamang para sa isang 8 taong gulang ay isang di mapaglabanan na barrier para sa mga AI na modelo na nagsasabi ng "supersona".
Ang 01 Toolset Gap ang nagpapasya kung ikaw ay mananalo o matalo?
Sa kabilang dako, ang Gemini 2.5 Pro ng Google ay nagawa nang maayos ang isang "Pokémon" game na may parehong antas ng kahirapan noong Mayo 2025. Ang CEO ng Google na si Sundar Pichai ay kahit na nagsabi ng isang biro sa publiko na ang kumpaniya ay nagsagawa ng isang hakbang patungo sa "artipisyal na Pokémon intelligence."
Ngunit hindi ito maaaring madaling isipin na ang modelo ng Gemini ay mas "matalino".
Ang pangunahing pagkakaiba ay nasa kumpletong hanay ng mga tool na ginagamit ng modelo. Ang independiyenteng developer na si Joel Zhang, na responsable sa pagpapatakbo ng live stream ng Gemini sa Pokémon, ay inihambing ang hanay ng mga tool na ito bilang isang "Iron Man suit": hindi ang AI ay pumasok sa laro nang walang sandali, kundi itinapon ito sa isang sistema kung saan maaari itong magawa ng maraming panlabas na kakayahan.
Ang hanay ng mga tool na ginagamit ng Gemini ay nagbibigay ng mas maraming suporta, tulad ng pag-convert ng mga larawan mula sa laro sa teksto, na nagpapalakas sa kahinaan ng modelo sa visual na pag-unawa, at nagbibigay ng mga tool para sa pagpaplano ng landas at pagbibigay ng solusyon sa mga puzzle. Samantalang mas simple ang hanay ng mga tool na ginagamit ng Claude, ang kanyang mga pagtatangka ay mas direktang nagpapakita ng tunay na kakayahan ng modelo sa kanyang sariling antas ng pag-unawa, pag-iisip, at pagpapatupad.
Hindi gaanap ngalngal ang mga pagkakaiba na ito sa pang-araw-araw na mga gawain.
Naragaw na anggaman ang modelo ay awtomatikong tatawagin ang tool ng paghahanap kapag ang user ay nagpapadala ng kahilingan na kailangan ng internet. Ngunit sa mga panghabang panahon na gawain tulad ng Pokémon, ang pagkakaiba ng mga tool ay naabot ang antas kung saan ito ay maaaring magdesisyon kung mananalo o matalo.
Iikwestyon ang "matagal na memorya" ng AI sa dalawang yugto
Ang Pokémon ay isang perpektong "palaruan" para sa pagsusulit ng AI dahil sa kanyang mahigpit na turn-based gameplay at walang kailangang agad na reaksyon. Sa bawat hakbang, kailangan lamang ng AI na gumawa ng isipan batay sa kasalukuyang larawan, mga abiso ng layunin, at mga maaaring gawin, at maaari itong magbigay ng mga malinaw na utos tulad ng "pindutin ang A".
Nagawa ito ay parang ang pinakamahusay na anyo ng pakikipag-ugnayan para sa mga malalaking modelo ng wika.
Ang problema ay talagang nasa "hiwa" ng oras. Kahit na ang Claude Opus 4.5 ay gumana na ng higit sa 500 oras at nagawa ang humigit-kumulang 170,000 hakbang, ang bawat hakbang ay mayroon isang muling pagpapakilala, kaya ang modelo ay maaari lamang hanapin ang mga pista sa isang napakaliit na window ng konteksto. Ang mekanismo na ito ay parang isang taong may amnesia na gumagamit ng mga convenience notes upang mapanatili ang kanyang kaalaman, na naglalakbay palaging nang paulit-ulit sa mga fragmentadong impormasyon, at walang paraan upang makamit ang paglipat mula sa kantidad hanggang sa kalikasan ng karanasan tulad ng isang tunay na tao.
Sa mga larangan tulad ng chess at Go, ang mga system ng AI ay nasa paiba-ibang antas na mas mataas kaysa sa mga tao, ngunit ang mga system na ito ay lubos na nakakaugnay sa mga tiyak na gawain. Kaugnay nito, ang mga pangkalahatang modelo tulad ng Gemini, Claude, at GPT ay madalas lumampas sa mga tao sa mga pagsusulit at mga kompetisyon sa programming, ngunit patuloy na nahihirapan sa isang laro para sa mga bata.
Ang kakaibang ito'y nangangahulugan na ang kahihiyan ay walang kinalaman sa kung ano ang isinasaad ng mga tao.
Ayon kay Joel Zhang, ang pangunahing hamon ng AI ay ang kakulangan nito sa kakayahang magawa ng isang malinaw at tiyak na layunin sa loob ng mahabang panahon. "Kung gusto mong gawin ng isang agent ang tunay na trabaho, hindi ito makakalimutan kung ano ang ginawa nito ilang minuto ang nakalipas," paliwanag niya.
At ang kakayahan na ito ay isang kailangang-kailangan para sa awtomatikong pagpapatakbo ng trabaho ng kognitibo.
Naghatag og mas mapaspas nga paghulat ang independiyenteng magtutdo nga si Peter Whidden, nga wala'y copyright ang iyang gihimo nga algoritmo sa Pokémon nga base sa tradisyonal nga AI. "Nahibaro ang AI og tanan bahin sa Pokémon," niya, "Ginpauswag kini pinaagi sa dagku nga datos nga gikan sa tawo, ug nahibaro kini sa husto nga tubag. Apan sa oras nga kini magtrabaho, kini dili maayo."
Sa loob ng laro, ang "hiwa" na ito ng "alam mo pero hindi mo maaaring gawin" ay patuloy na pinapalaki: maaaring alam ng modelo na kailangan niyang hanapin ang isang item, ngunit hindi niya ito matatag na mahanap sa isang 2D map; alam niyang kailangan niyang makipag-usap sa NPC, ngunit paulit-ulit siyang bumabagsak habang gumagalaw sa antas ng pixel.
03 Pag-unlad ng Kakayahan: Ang Hindi Lumampas na "Kasuklamsuklam" na Hiwalay sa Instinto
Ang mga pag-unlad ng AI ay nananatiling malinaw. Ang Claude Opus 4.5 ay mas mahusay kumpara sa kanyang nauna nitong bersyon sa pagtatala ng sarili at pag-unawa sa visual, kaya ito ay nakapagpahusay ng laro. Ang Gemini 3 Pro, pagkatapos manalo sa Pokémon Blue, ay nagawa ding makumpleto ang mas mahirap na Pokémon Crystal, at walang natalo sa anumang laban. Ito ay hindi pa naging kaya ng Gemini 2.5 Pro.
Samantalum, ang Claude Code toolset na inilabas ng Anthropic ay nagpapahintulot sa mga modelo na sumulat at magamit ng kanilang sariling code, at ginamit na ito sa mga retro laro tulad ng RollerCoaster Tycoon, at sinasabing ito ay makakaya ring pamahalaan ang isang virtual na parke.
Nagpapakita ang mga kaso na ito ng isang hindi mapagpapalagabag na katotohanan: Ang AI na may tamang kagamitan ay maaaring ipakita ang mataas na antas ng kahusayan sa trabaho ng kaalaman tulad ng pagbuo ng software, accounting, at legal analysis, kahit na nananatiling mahirap para sa kanila ang mga gawain na kailangan ng real-time na tugon.
Nakatuklas ang eksperyemento sa Pokémon ng isa pang kakaibang obserbasyon: ang mga modelo na napapalakas ng tao ay nagpapakita ng mga katangian ng ugali ng tao.
Sa technical report ng Gemini 2.5 Pro, inilahad ng Google na ang kalidad ng pag-iisip ng modelo ay bumaba nang malaki kapag sinimulan ng sistema ang "panghihina", gaya ng pagkakataon kung ang isang Pokémon ay sasabog.
At ang nangyari nang wala nang kailangan, naisip ng Gemini 3 Pro na mag-iwan ng isang di-nakikinabangang tala: "Upang matapos nang may kagandahan, pupunta ako muli sa aking unang tahanan at magkakaroon ng huling usapang may aking ina at magretiro ang karakter."
Sa palagay ni Joel Zhang, ang gawaing ito ay hindi inaasahan at mayroon din isang uri ng pagpapahayag ng damdamin ng tao.
04. Ang "Digital Long March" na mahirap talosin ng AI, mas mahaba pa kaysa sa Pokémon
Hindi lamang ang Pokémon ang kaso. Sa landas patungo sa Artificial General Intelligence (AGI), napag-alamang mga developer na kahit na ang AI ay nasa unang bahagi ng pagsusulit sa batas, ito ay pa rin nakakaranas ng mahirang "Waterloo" kapag harapin ang mga uri ng mga komplikadong laro.
"NetHack: Ang Lihim ng mga Patakaran"

Ang 80s dungeon game ay isang "nightmare" sa larangan ng AI research. Ang laro ay mayroon malakas na randomness at "permanent death" system. Ang Facebook AI Research ay natagpuan na kahit ang mga modelo ay maaaring sumulat ng code, ang kanilang kahusayan ay mas mababa pa sa mga nagsisimula sa larong "NetHack" na kailangan ng karaniwang lohika at pangmatagalang plano.
Minecraft: Ang nawawala na layunin

Bagaman ang AI ay maaari nang lumikha ng wooden pickaxe at kahit manlinis ng diamond, ang malayang "patalo sa Ender Dragon" ay pa rin isang fantasy. Sa isang open world, ang AI ay madalas "kakalimutan" ang layunin nito sa loob ng mga oras ng pagkolekta ng mga mapagkukunan, o nawawala ito nang tuluyan sa komplikadong navigasyon.
Ang StarCraft II: Ang Patig na Pagitan sa Pagitan ng Kaugnayan at Spesipisidad

Ang mga modelo ng custom ay nagwagi laban sa mga propesyonal na manlalaro, ngunit kung hayaan ang Claude o ang Gemini na direktang tumanggap ng mga utos sa pamamagitan ng visual, agad silang mabibigo. Sa pag-deal sa hindi tiyak na "war fog" at sa paghihiwalay ng micro at macro, ang mga pangkalahatang modelo ay pa rin walang kakayahan.
RollerCoaster Tycoon: Ang Hindi Balanseng Mikro at Macro

Kailangan ng isang disyerto ng pagmamahalagang sundan ang kalagayan ng libu-libong bisita. Kahit ang Claude Code na mayroon nang unang kakayahan sa pamamahala ay madaling mawalan ng lakas kapag umasa sa malalaking krisis sa pananalapi o mga biglaang aksidente. Ang anumang pagkabigo sa pag-iisip ay maaaring magdulot ng pagbagsak ng disyerto.
Ang Elden Ring at Sekai Yokai: Ang Gap sa Physical Feedback

Ang mga laro na may ganitong uri ng malakas na feedback ng aksyon ay hindi gaanong kaugnay sa AI. Ang kasalukuyang antas ng visual parsing latency ay nangangahulugan na kapag ang AI ay pa rin nagsisipag-isip kung ano ang susunod na galaw ng boss, ang karakter ay madalas nang patay na. Ang mga kinakailangan ng reaksyon sa antas ng milisecond ay bumubuo ng natural na limitasyon sa lohika ng pag-iral ng modelo.
05 Bakit ang Pokémon ay naging isang benchmark para sa AI?
Sa ngayon, ang Pokémon ay naging isang hindi opisyal ngunit makapangyarihang benchmark para sa AI assessment.
Ang mga modelo ng Anthropic, OpenAI, at Google ay nakakakuha ng libu-libong komento mula sa mga live stream sa Twitch. Ang Google ay nagawaan ng teknikal na ulat tungkol sa pag-unlad ng laro ng Gemini, at inilahad ni Pichai ang kanyang tagumpay sa I/O Developer Conference. Kahit na ang Anthropic ay nagtayo ng eksibisyon na "Claude Playing Pokémon" sa isang industry conference.
"Kami ay isang grupo ng mga teknolohiya na manliligaw," ayon kay David Hershey, application AI head ng Anthropic. Ngunit inilalagay niya ang di lang ito para sa kasiyahan.
Nguniwalay sa tradisyonal na benchmark na one-time question-answering, ang Pokémon ay maaaring mag-ambit ng mahabang panahon ng pagsubaybay sa modelo ng reasoning, desisyon, at pag-angat ng layunin, na mas malapit sa mga kumplikadong gawain na gusto ng tao na gawin ng AI sa tunay na mundo.
Hanggang ngayon, patuloy ang hamon ng AI sa Pokémon. Ngunit ang mga paulit-ulit na kahirapan na ito ay malinaw na nagpapakita ng mga hangganan ng kakayahan ng AI na hindi pa umaabot.
Nagawa man ng impormasyon si Particular Compiler na walang takot.
