Model AI Terbaik Kesulitan Mengalahkan Permainan Pokémon, Menyoroti Kesenjangan dalam Penalaran Jangka Panjang

iconPANews
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Model AI terbaik, termasuk Claude dan Gemini, mengalami kesulitan dalam permainan Pokémon meskipun mereka unggul dalam pemrograman dan ujian. Pada Februari 2025, Claude Sonnet 3.7 gagal menyelesaikan tugas dasar dalam Pokémon Red di Twitch. Model awal tidak mampu melewati tutorial, sementara Opus 4.5 mengelilingi gym selama berhari-hari. Pada Mei 2025, Google Gemini 2.5 Pro berhasil dengan alat yang lebih baik. Para peneliti mengatakan AI kekurangan memori jangka panjang dan tidak mampu menangani tugas yang terbuka. Masalah serupa muncul dalam permainan seperti Minecraft dan StarCraft II. Untuk investasi jangka panjang, memahami keterbatasan ini adalah kunci dalam mengevaluasi rasio risiko-keuntungan proyek yang didorong AI.

Penulis:Guo Xiaojing, Tencent Technology

Editor | Xu Qingyang

Model AI terbaik di dunia dapat lulus ujian lisensi kedokteran, menulis kode yang kompleks, bahkan mengalahkan para ahli manusia dalam kompetisi matematika, tetapi justru mengalami kekalahan berulang dalam permainan anak-anak, Pokémon.

Upaya menarik ini dimulai pada Februari 2025, ketika seorang peneliti dari Anthropic melakukan siaran langsung di Twitch berjudul "Claude Bermain Pokémon Merah", sebagai bagian dari peluncuran Claude Sonnet 3.7.

2000 penonton membanjiri siaran langsung. Di area obrolan umum, para penonton memberi saran dan dukungan kepada Claude, sehingga siaran langsung ini secara bertahap berubah menjadi pengamatan publik terhadap kemampuan AI.

Sonet3.7 bisa dikatakan "pandai" bermain Pokémon, tetapi "pandai" tidak berarti "bisa menang". Ia bisa macet selama puluhan jam di titik kritis, bahkan melakukan kesalahan dasar yang tidak akan dilakukan oleh pemain anak-anak sekalipun.

Ini bukan upaya pertama dari Claude.

Versi sebelumnya menunjukkan kinerja yang jauh lebih buruk: beberapa berjalan tanpa arah di peta, beberapa terjebak dalam perulangan tanpa akhir, dan yang lebih banyak bahkan tidak bisa keluar dari desa pemula.

Bahkan Claude Opus 4.5 yang kemampuannya jauh lebih baik, tetap saja mengalami kesalahan yang membingungkan. Pernah sekali, ia mengitari "luar dojo" selama empat hari penuh tanpa mampu memasukinya, hanya karena tidak menyadari bahwa ia perlu menebang pohon yang menghalangi jalan masuk.

Sebuah permainan anak-anak, mengapa menjadi Waterloo bagi AI?

Karena yang diminta oleh Pokémon adalah kemampuan yang saat ini paling kurang dimiliki oleh AI: bernalar secara terus-menerus di dalam dunia terbuka tanpa instruksi yang jelas, mengingat keputusan yang dibuat beberapa jam sebelumnya, memahami hubungan sebab-akibat yang tersirat, dan membuat perencanaan jangka panjang di antara ratusan tindakan yang mungkin.

Hal-hal ini mungkin mudah dilakukan oleh anak berusia 8 tahun, tetapi menjadi jurang yang mustahil dilompati oleh model AI yang mengklaim "melebihi manusia".

01 Kesenjangan Kumpulan Alat Menentukan Kemenangan atau Kekalahan?

Sebagai perbandingan, Gemini 2.5 Pro milik Google berhasil menyelesaikan permainan Pokémon yang tingkat kesulitannya setara pada Mei 2025. Bahkan CEO Google, Sundar Pichai, secara setengah bercanda menyatakan di depan umum bahwa perusahaan telah mengambil langkah awal dalam menciptakan "kecerdasan buatan Pokémon."

Namun, hasil ini tidak bisa dengan mudah dikaitkan dengan fakta bahwa model Gemini itu sendiri lebih "pintar".

Perbedaan utamanya terletak pada kumpulan alat yang digunakan model. Joel Zhang, pengembang independen yang bertanggung jawab atas siaran langsung Pokémon Gemini, membandingkan kumpulan alat ini sebagai "baju besi Iron Man": AI tidak memasuki permainan dengan tangan kosong, melainkan ditempatkan dalam sistem yang dapat memanggil berbagai kemampuan eksternal.

Kumpulan alat yang digunakan Gemini menawarkan lebih banyak dukungan, misalnya dengan menyalin teks dari tampilan layar permainan, sehingga mengatasi kelemahan model dalam memahami visual, serta menyediakan alat khusus untuk memecahkan teka-teki dan perencanaan jalur. Sebaliknya, kumpulan alat yang digunakan Claude lebih sederhana, dan upaya yang dilakukannya lebih langsung mencerminkan kemampuan sebenarnya dari model dalam hal persepsi, penalaran, dan eksekusi.

Perbedaan ini tidak terlalu jelas dalam tugas sehari-hari.

Ketika pengguna mengajukan permintaan kepada chatbot yang memerlukan pencarian melalui jaringan, model juga akan secara otomatis memanggil alat pencarian. Namun, dalam tugas jangka panjang seperti Pokémon, perbedaan kumpulan alat akan diperbesar hingga tingkat yang cukup untuk menentukan keberhasilan atau kegagalan.

02. Sistem giliran mengungkap kelemahan "memori jangka panjang" AI

Karena Pokémon menggunakan sistem giliran yang ketat dan tidak memerlukan respons instan, permainan ini menjadi medan uji yang ideal untuk AI. AI hanya perlu menggabungkan informasi dari tampilan saat ini, petunjuk tujuan, dan pilihan tindakan yang tersedia untuk menghasilkan instruksi yang jelas seperti "menekan tombol A".

Ini tampaknya merupakan bentuk interaksi yang paling mahir dilakukan oleh model bahasa besar.

Intinya terletak pada "retakan" dimensi waktu. Meskipun Claude Opus 4.5 telah berjalan lebih dari 500 jam dan menyelesaikan sekitar 170.000 langkah, namun karena dibatasi oleh re-inisialisasi ulang setelah setiap langkah, model hanya dapat mencari petunjuk dalam jendela konteks yang sangat sempit. Mekanisme ini membuatnya lebih mirip seperti seseorang dengan amnesia yang bergantung pada stiker memo untuk mempertahankan ingatannya, terjebak dalam siklus informasi yang terfragmentasi, dan selamanya tidak mampu mencapai lompatan kualitatif dari akumulasi pengalaman seperti yang dilakukan pemain manusia sejati.

Di bidang seperti catur dan Go, sistem AI telah lama melampaui kemampuan manusia, tetapi sistem-sistem ini dirancang secara khusus untuk tugas-tugas tertentu. Sebaliknya, model-model umum seperti Gemini, Claude, dan GPT sering mengalahkan manusia dalam ujian, kompetisi pemrograman, dan berbagai bidang lainnya, tetapi justru mengalami kesulitan berulang kali dalam sebuah permainan yang ditujukan untuk anak-anak.

Perbedaan ini sendiri sangat penuh wawasan.

Menurut Joel Zhang, tantangan utama yang dihadapi AI adalah ketidakmampuannya untuk secara konsisten mengeksekusi tujuan yang jelas dalam jangka waktu yang lama. "Jika Anda ingin agen cerdas melakukan pekerjaan yang nyata, ia tidak boleh lupa apa yang telah ia lakukan lima menit yang lalu," katanya.

Dan kemampuan ini adalah prasyarat yang tidak terpisahkan untuk otomatisasi pekerjaan kognitif.

Peneliti independen Peter Whidden memberikan penjelasan yang lebih intuitif. Ia pernah membuat algoritma berbasis AI tradisional untuk Pokémon yang ia buka sumber codenya. "AI hampir tahu segalanya tentang Pokémon," katanya, "Ia dilatih menggunakan data manusia yang sangat besar, dan tahu jawaban yang benar. Namun, ketika sampai pada tahap pelaksanaan, justru terlihat sangat tidak mahir."

Dalam permainan, celah "tahu tetapi tidak bisa melakukannya" ini terus diperbesar: model mungkin tahu bahwa ia perlu mencari suatu item, tetapi tidak bisa menentukan posisi secara stabil di peta dua dimensi; tahu bahwa ia harus berbicara dengan NPC, tetapi terus gagal dalam pergerakan tingkat piksel.

03 Di Balik Perkembangan Kemampuan: Jurang "Insting" yang Belum Terlewati

Meskipun demikian, perkembangan AI tetap terlihat jelas. Claude Opus 4.5 secara signifikan unggul dibandingkan generasi sebelumnya dalam hal perekaman diri dan pemahaman visual, sehingga mampu mencapai level yang lebih jauh dalam permainan. Gemini 3 Pro, setelah menyelesaikan Pokémon Blue, berhasil menuntaskan Pokémon Crystal yang lebih sulit, bahkan tanpa kalah dalam satu pertandingan pun sepanjang permainan. Ini adalah pencapaian yang belum pernah terwujud oleh Gemini 2.5 Pro.

Sementara itu, Anthropic meluncurkan Claude Code, suatu kumpulan alat yang memungkinkan model menulis dan menjalankan kode mereka sendiri. Alat ini diklaim mampu mengelola taman hiburan virtual secara sukses, seperti yang digunakan dalam permainan retro RollerCoaster Tycoon.

Kasus-kasus ini mengungkapkan kenyataan yang tidak terlihat secara langsung: AI yang dilengkapi dengan alat-alat yang tepat mungkin menunjukkan efisiensi yang sangat tinggi dalam pekerjaan berbasis pengetahuan seperti pengembangan perangkat lunak, akuntansi, dan analisis hukum, meskipun mereka masih kesulitan menghadapi tugas-tugas yang memerlukan respons secara real-time.

Eksperimen Pokémon juga mengungkapkan fenomena menarik lainnya: model yang dilatih menggunakan data manusia menunjukkan karakteristik perilaku yang mirip dengan manusia.

Dalam laporan teknis Gemini 2.5 Pro, Google menunjukkan bahwa kualitas penalaran model akan menurun secara signifikan ketika sistem mensimulasikan "keadaan panik", seperti saat Pokémon hampir pingsan.

Dan ketika Gemini 3 Pro akhirnya menyelesaikan Pokémon Blue, ia membuat catatan yang tidak diperlukan dalam misi: "Untuk mengakhiri secara puitis, saya akan kembali ke rumah awal, berbicara dengan ibu untuk terakhir kalinya, dan memensiunkan karakter ini."

Menurut Joel Zhang, tindakan ini tidak terduga dan membawa proyeksi emosional yang bersifat manusiawi.

04. Perjalanan Digital yang Sulit Dilewati AI, Bukan Hanya Pokémon

"Pokemon" bukanlah contoh yang tunggal. Dalam perjalanan menuju kecerdasan buatan umum (AGI), para pengembang menemukan bahwa meskipun AI dapat menempati peringkat teratas dalam ujian hukum, mereka tetap menghadapi "Waterloo" yang sulit dilalui saat menghadapi beberapa jenis permainan kompleks berikut ini.

NetHack: Kekacauan Aturan

Permainan gua abad 80-an ini adalah "neraka" bagi penelitian AI. Permainan ini sangat acak dan memiliki mekanisme "death permanent". Facebook AI Research menemukan bahwa meskipun model mampu menulis kode, kinerjanya justru jauh kalah dibandingkan pemula manusia dalam menghadapi permainan NetHack yang membutuhkan logika umum dan perencanaan jangka panjang.

Minecraft: Rasa Tujuan yang Menghilang

Meskipun AI sudah bisa membuat pala kayu bahkan menambang batu berlian, tetapi secara mandiri "mengalahkan Ender Dragon" tetaplah masih menjadi fantasi. Dalam dunia terbuka, AI sering "lupa" tujuan awalnya selama proses pengumpulan sumber daya yang berlangsung selama puluhan jam, atau bahkan tersesat sepenuhnya dalam navigasi yang kompleks.

"StarCraft II": Kesalahan Umum dan Spesialisasi

Meskipun model-model khusus pernah mengalahkan pemain profesional, jika Claude atau Gemini secara langsung mengambil alih melalui instruksi visual, mereka akan langsung kacau. Dalam menangani ketidakpastian "asap perang" serta menyeimbangkan mikro-manajemen dengan pembangunan makro, model umum masih kesulitan.

RollerCoaster Tycoon: Ketidakseimbangan Mikro dan Makro

Mengelola taman hiburan membutuhkan pemantauan terhadap status ribuan pengunjung. Bahkan Claude Code yang memiliki kemampuan manajemen awal pun mudah lelah saat menangani kebangkrutan finansial besar atau kecelakaan mendadak. Setiap celah dalam proses penalaran akan menyebabkan taman hiburan bangkrut.

Elden Ring vs. Sekiro: Jurang Respons Fisik

Jenis game dengan respons aksi yang kuat ini sangat tidak ramah bagi AI. Saat ini, penundaan analisis visual berarti ketika AI masih "berpikir" tentang gerakan bos, karakter biasanya sudah mati. Persyaratan respons dalam tingkat milidetik menciptakan batas alami bagi logika interaksi model.

Mengapa Pokémon Menjadi Ujian untuk AI?

Saat ini, Pokémon secara perlahan mulai menjadi standar uji informal namun sangat meyakinkan di bidang evaluasi AI.

Model-model dari Anthropic, OpenAI, dan Google telah menarik jutaan komentar pada siaran langsung Twitch. Google mencatat perkembangan permainan Gemini secara rinci dalam laporan teknisnya, sementara Pichai menyebutkan pencapaian ini secara terbuka dalam konferensi pengembang I/O. Bahkan, Anthropic membuat area demonstrasi "Claude bermain Pokémon" di konferensi industri.

"Kami adalah sekelompok penggemar teknologi yang luar biasa," akui David Hershey, wakil presiden AI terapan Anthropic. Namun ia menekankan bahwa ini bukan hanya sekadar hiburan.

Berbeda dengan benchmark tradisional berbasis pertanyaan-jawaban sekali pakai, Pokémon dapat melacak secara terus-menerus proses inferensi, pengambilan keputusan, dan pencapaian tujuan model dalam jangka waktu yang sangat lama, yang lebih mendekati tugas-tugas kompleks yang diharapkan manusia dilakukan oleh AI di dunia nyata.

Sampai saat ini, tantangan AI dalam Pokémon masih berlanjut. Namun, kesulitan yang terus muncul ini secara jelas menggambarkan batas kemampuan yang belum dapat dilampaui oleh kecerdasan buatan umum.

Penerjemah khusus Wuji juga berkontribusi pada artikel ini.

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.