
Penulis:Guo Xiaojing, Tencent Technology
Editor | Xu Qingyang
Model AI terbaik di dunia boleh lulus ujian lesen perubatan, menulis kod yang kompleks, dan malah mengatasi pakar manusia dalam pertandingan matematik, tetapi mengalami kegagalan berulang dalam permainan kanak-kanak, Pokémon.
Percubaan menarik ini bermula pada Februari 2025 apabila seorang penyelidik dari Anthropic memulakan siaran langsung Twitch "Claude Bermain Pokémon Merah", sebagai sokongan kepada pelancaran Claude Sonnet 3.7.
2000 penonton membanjiri bilik siaran langsung. Dalam kawasan perbualan awam, penonton memberi nasihat dan sokongan kepada Claude, menjadikan siaran langsung ini secara beransur-ansur menjadi satu pemerhatian awam tentang keupayaan AI.
Sonet3.7 hanya boleh dikatakan "boleh main" Pokémon, tetapi "boleh main" tidak bermaksud "boleh menang". Ia akan terkunci selama puluhan jam pada titik kritikal, dan juga membuat kesalahan yang sangat rendah tahapnya sehingga tidak akan dilakukan oleh pemain kanak-kanak.
Ini bukanlah cubaan pertama Claude.
Versi sebelumnya mempamerkan prestasi yang lebih mengerikan lagi: sesetengah daripadanya melangkah tanpa tujuan di peta, sesetengah jatuh ke dalam kitaran tanpa henti, manakala yang lebih ramai lagi sebenarnya tidak mampu untuk keluar dari kampung baru.
Walaupun Claude Opus 4.5 menunjukkan peningkatan keupayaan yang ketara, ia masih membuat kesilapan yang membingungkan. Pada suatu ketika, ia berpusing-pusing di luar "Gym" selama empat hari berturut-turut tanpa berjaya memasukinya, hanya disebabkan ia tidak sedar bahawa ia perlu menebang pokok yang menghalang jalan di persimpangan itu.
Mengapa satu permainan kanak-kanak menjadi Waterloo bagi AI?
Kerana itu Pokémon memerlukan sesuatu yang kekurangan dalam AI hari ini: berfikir secara berterusan dalam dunia terbuka tanpa arahan jelas, mengingati keputusan yang dibuat beberapa jam sebelumnya, memahami hubungan sebab dan akibat yang tersirat, dan merancang jangka panjang di antara ratusan tindakan yang mungkin.
Kepada kanak-kanak berusia 8 tahun, perkara ini adalah perkara biasa, tetapi kepada model AI yang mengaku "melebihi manusia", ianya merupakan jurang yang mustahil untuk dilangkau.
01 Set alat yang mencerminkan jurang antara kejayaan dan kegagalan?
Dalam pada itu, Gemini Pro 2.5 Google berjaya menamatkan permainan Pokémon yang mempunyai tahap kesukaran serupa pada Mei 2025. Presiden Eksekutif Google, Sundar Pichai, malah secara setengah bergurau menyatakan di khalayak awam bahawa syarikat telah membuat satu langkah ke arah "kecerdasan buatan Pokémon".
Namun, keputusan ini tidak boleh dilihat secara langsung sebagai akibat daripada model Gemini yang lebih "pandai".
Perbezaan utama terletak pada set alat yang digunakan oleh model. Joel Zhang, seorang pengembang bebas yang bertanggung jawab atas siaran langsung Pokémon Gemini, membandingkan set alat ini sebagai "baju besi Iron Man": AI bukan masuk ke dalam permainan secara kosong tangan, tetapi ditempatkan dalam sistem yang membolehkan memanggil pelbagai keupayaan luar.
Set alat yang disediakan oleh Gemini menawarkan sokongan tambahan, seperti menyalin semula paparan permainan ke dalam teks, yang dapat mengatasi kelemahan model dalam memahami visual, serta menyediakan alat penyelesaian teka-teki dan perancangan laluan yang disesuaikan. Berbanding dengan itu, set alat yang digunakan oleh Claude lebih sederhana, dan cubaan mereka lebih secara langsung mencerminkan keupayaan sebenar model dalam aspek persepsi, penaakulan dan pelaksanaan.
Perbezaan ini tidak ketara dalam tugas harian.
Apabila pengguna membuat permintaan kepada bot sembang yang memerlukan sambungan internet, model juga akan secara automatik memanggil alat carian. Namun, dalam tugas jangka panjang seperti dalam Pokémon, perbezaan set alat diperbesar sehingga mencukupi untuk menentukan kejayaan atau kegagalan.
02 Sistem Giliran Menzahirkan Kekurangan "Ingatan Jangka Panjang" AI
Kerana Pokémon menggunakan sistem giliran yang ketat dan tidak memerlukan tindak balas segera, ia menjadi medan uji yang hebat untuk AI. Dalam setiap langkah, AI hanya perlu menggabungkan maklumat semasa, arahan sasaran, dan pilihan tindakan untuk membuat keputusan, dan kemudian mengeluarkan arahan yang jelas seperti "tekan butang A".
Nampaknya ini adalah bentuk interaksi yang paling sesuai dengan kelebihan model bahasa besar.
Masalah utamanya terletak pada "lapisan" dimensi masa. Walaupun Claude Opus 4.5 telah berjalan lebih 500 jam dan melaksanakan kira-kira 170,000 langkah, model ini hanya boleh mencari petunjuk dalam tetingkap konteks yang sangat sempit disebabkan oleh pemulihan semula (re-initialization) selepas setiap langkah. Mekanisme ini menjadikannya lebih seperti pesakit amnesia yang bergantung pada nota-nota kecil untuk mempertahankan ingatannya, berulang-ulang dalam maklumat yang terpecah belah, dan tidak pernah dapat mencapai peningkatan pengalaman dari kuantiti kepada kualiti seperti yang dilakukan oleh pemain manusia sebenar.
Dalam bidang seperti catur dan Weiqi, sistem AI sudah lama melampaui manusia, tetapi sistem-sistem ini adalah khusus dikekalkan untuk tugas tertentu. Sebaliknya, sebagai model-model umum, Gemini, Claude dan GPT sering menewaskan manusia dalam peperiksaan, pertandingan pemrograman, tetapi sering mengalami kegagalan dalam satu permainan kanak-kanak.
Perbezaan ini sahaja sudah cukup memberi inspirasi.
Menurut Joel Zhang, cabaran utama yang dihadapi AI ialah ketidakupayaannya untuk terus memenuhi satu matlamat yang jelas dalam jangka masa yang panjang. "Jika anda ingin agen cerdas itu melakukan kerja yang sebenar, ia tidak boleh lupa apa yang telah dilakukannya lima minit yang lalu," katanya.
Dan keupayaan ini adalah prasyarat yang tidak dapat dipisahkan untuk automasi tenaga kerja kognitif.
Ahli kajian bebas Peter Whidden memberi penerangan yang lebih jelas. Beliau pernah memeteraikan sumber terbuka untuk satu algoritma Pokémon berpandu AI tradisional. "AI hampir tahu segalanya tentang Pokémon," katanya, "Ia dilatih menggunakan data manusia yang melimpah, dan ia tahu jawapan yang betul. Tetapi apabila sampai kepada fasa melaksanakan, ianya kelihatan sangat janggal."
Dalam permainan, celah "mengetahui tetapi tidak dapat melaksanakan" ini diperbesar terus menerus: model mungkin tahu bahawa sesuatu item perlu dicari, tetapi tidak dapat menentukan lokasi yang stabil dalam peta dua dimensi; tahu bahawa dialog dengan NPC perlu diadakan, tetapi berulang kali gagal dalam pergerakan berpiksel.
03 Di Sebalik Kemajuan Kemampuan: Jurang "Instinct" Yang Belum Ditempuh
Walaupun begitu, kemajuan AI tetap jelas kelihatan. Claude Opus 4.5 jelas lebih unggul daripada generasi sebelumnya dalam aspek merekodkan diri sendiri dan memahami visual, membolehkannya bermain lebih jauh dalam permainan. Gemini 3 Pro, setelah menamatkan Pokémon Blue, berjaya menamatkan Pokémon Crystal yang lebih sukar, tanpa kalah dalam sebarang pertandingan sepanjang permainan. Ini adalah sesuatu yang tidak pernah berjaya dilakukan oleh Gemini 2.5 Pro.
Pada masa yang sama, Claude Code, set alat yang dikeluarkan oleh Anthropic, membenarkan model menulis dan menjalankan kodnya sendiri, telah digunakan dalam permainan retro seperti RollerCoaster Tycoon, dan dikatakan berjaya menguruskan taman tema maya.
Kes-kes ini mendedahkan realiti yang tidak jelas: AI yang dilengkapi dengan set alat yang sesuai mungkin menunjukkan kecekapan yang tinggi dalam kerja-kerja berkala seperti pembangunan perisian, akaun, dan analisis undang-undang, walaupun mereka masih menghadapi kesukaran untuk mengatasi tugas-tugas yang memerlukan tindak balas secara masa nyata.
Kajian Pokémon juga menunjukkan fenomena yang menarik: model yang dilatih menggunakan data manusia akan menunjukkan ciri-ciri kelakuan yang hampir menyerupai manusia.
Dalam laporan teknikal Gemini 2.5 Pro, Google menyatakan kualiti inferens model akan menurun secara ketara apabila sistem mensimulasikan "keadaan kecemasan", seperti apabila Pokémon hampir pengsan.
Apabila Gemini 3 Pro akhirnya menamatkan Pokémon Blue, ianya meninggalkan nota yang tidak diperlukan untuk tugas: "Untuk mengakhiri secara puitis, saya akan kembali ke rumah asal, berbual dengan ibu untuk kali terakhir, dan memasukkan watak ini ke dalam persaraan."
Menurut Joel Zhang, tindakan ini mengejutkan dan membawa sesuatu yang menyerupai emosi manusia.
04. "Perjalanan Digital" yang Mustahil Dilangkau oleh AI, Jauh Lebih Daripada Pokémon saja
Pokémon bukanlah kes tunggal. Dalam perjalanan mencari Artificial General Intelligence (AGI), pereka telah menemui bahawa walaupun AI boleh mendapat keputusan cemerlang dalam peperiksaan undang-undang, ia masih menghadapi "Waterloo" yang sukar dilangkau apabila menghadapi beberapa jenis permainan yang kompleks berikut.
NetHack: Kedalaman Peraturan

Permainan dungeon 80-an ini adalah "lamah" dalam kajian AI. Ia mempunyai tahap keacakan yang tinggi dan mempunyai mekanisme "kematian kekal". Facebook AI Research mendapati bahawa walaupun model boleh menulis kod, prestasinya jauh kalah berbanding pelajar awal manusia dalam permainan "NetHack" yang memerlukan logik常识 dan perancangan jangka panjang.
Minecraft: Rasa Tujuan Yang Hilang

Walaupun AI sudah boleh membuat kapak kayu dan malah menambang berlian, mencapai kemenangan secara bebas "membunuh Ender Dragon" tetap lagi menjadi khayalan. Dalam dunia terbuka, AI seringkali akan "lupa" tujuan asal mereka dalam proses pengumpulan sumber daya yang memakan masa puluhan jam, atau hilang sepenuhnya dalam navigasi yang kompleks.
StarCraft II: Kekosongan Antara Kepakaran Umum dan Kepakaran Khusus

Walaupun model-model yang disesuaikan pernah mengalahkan pemain profesional, Claude atau Gemini akan terus menerus gagal jika diberi arahan visual secara langsung. Dalam menangani ketidakpastian "perang gelap" dan menyeimbangkan antara pengendalian mikro dan pembangunan makro, model-model umum masih belum mampu mengatasinya.
RollerCoaster Tycoon: Keseimbangan Mikro dan Makro yang Tidak Seimbang

Menguruskan taman hiburan memerlukan pemantauan status ribuan tetamu. Walaupun Claude Code yang mempunyai keupayaan pengurusan permulaan, mudah menunjukkan tanda keletihan apabila menangani krisis kewangan besar-besaran atau kecemasan tiba-tiba. Setiap kegagalan logik akan menyebabkan taman hiburan itu bankrap.
Elden Ring dan Sekai Yokan: Jurang Respons Fizik

Jenis permainan dengan maklum balas aksi yang kuat ini tidak mesra kepada AI. Lag visual semasa ini bermakna apabila AI masih "berfikir" tentang tindakan bos, watak biasanya sudah mati. Keperluan sambutan pada tahap mili saat membentuk had semula jadi kepada logik interaksi model.
05 Mengapakah Pokémon Menjadi Ujian Kecerdasan Buatan?
Kini, Pokémon sedang perlahan menjadi satu garis panduan ujian yang tidak rasmi tetapi sangat meyakinkan dalam bidang penilaian AI.
Model-model daripada Anthropic, OpenAI, dan Google telah menarik berpuluh-puluh ribu komen dalam siaran langsung berkaitan di Twitch. Google telah merakamkan perkembangan permainan Gemini secara terperinci dalam laporan teknikal mereka, manakala Pichai menyebut keputusan ini secara terbuka dalam konferens pembangun I/O. Malah, Anthropic telah menubuhkan kawasan pameran "Claude Mainkan Pokémon" dalam mesyuarat perindustrian.
"Kami adalah kumpulan peminat teknologi yang sangat bersemangat," akui David Hershey, pengurus aplikasi AI Anthropic. Tetapi beliau menekankan, ini bukan hanya kesenangan semata.
Berbeza dengan ujian kepatuhan tradisional yang bersifat soal-jawab satu masa, Pokémon boleh mengesan secara berterusan proses inferens, keputusan, dan kemajuan objektif model dalam jangka masa yang sangat panjang, yang lebih hampir kepada tugas kompleks yang diharapkan oleh manusia dilaksanakan oleh AI dalam dunia nyata.
Sehingga kini, cabaran AI dalam Pokémon masih berterusan. Namun, kesusahan berulang ini dengan jelas menunjukkan sempadan keupayaan AI am yang belum dapat dilangkaui.
Penterjemah khas Wuji juga memberi sumbangan kepada artikel ini.
