Önemli AI Modelleri, Pokémon Oyunlarını Yenmekte Zorlanıyor ve Uzun Vadeli Akıl Yürütme Açıklarını Gösteriyor

iconPANews
Paylaş
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconÖzet

expand icon
Claude ve Gemini dahil olmak üzere önde gelen AI modelleri, kodlama ve sınavlarda başarılı olsalar da Pokémon oyunlarıyla başa çıkmakta zorlanmaktadır. 2025 Şubat'ında Claude Sonnet 3.7, Twitch'te Pokémon Red'de temel görevleri tamamlayamadı. Erken modeller, öğreticiyi geçemiyordu, Opus 4.5 ise bir stadyum etrafında günlerce dolaştı. Google'ın Gemini 2.5 Pro'su, 2025 Mayıs'ta daha iyi araçlarla başarılı oldu. Araştırmacılar, AI'nin uzun vadeli hafızasının olmadığını ve açık uçlu görevleri yönetemeyeceğini söylüyor. Benzer sorunlar, Minecraft ve StarCraft II gibi oyunlarda da görülüyor. Uzun vadeli yatırımlar için, bu tür sınırlılıkları anlayabilmek, AI destekli projelerde risk-ödül oranını değerlendirmenin anahtar adımıdır.

Yazar:Guo Xiaojing, Tencent Teknoloji

Düzenleme | Xu Qingyang

Dünyanın en iyi yapay zeka modelleri tıbbi lisans sınavlarını geçebilir, karmaşık kodlar yazabilir ve matematik yarışmalarında insan uzmanları yenebilir, ancak çocuk oyunu olan Pokémon'ta sürekli başarısız olurlar.

Bu dikkat çeken girişim, Anthropic'ten bir araştırmacının 2025 Şubat'ında "Claude, Pokémon Kızılı Oynar" Twitch yayınıyla Claude Sonnet 3.7'in piyasaya sürülmesiyle başladı.

2000 izleyici canlı yayın odasına doldu. Ortak sohbet alanında, izleyiciler Claude'a fikirler sundu ve onu teşvik etti. Canlı yayın, yavaş yavaş bir yapay zeka yeteneklerine dair açık bir gözlem haline geldi.

Sonet3.7 sadece "Pokémon" oyununu oynayabildiğini söyleyebiliriz, ancak "oyun oynamayı bilmek", "oyunu kazanmak" anlamına gelmez. Kritik noktalarda onlarca saate takılıp kalabilir ve hatta çocuk oyuncuların bile yapmayacağı temel hatalara düşebilir.

Bu Claude'nun ilk denemesi değil.

Daha önceki sürümlerdeki davranışları daha da trajikti: bazıları haritada hedefsizce dolaşıyor, bazıları sonsuz döngüye giriyor ve çoğu ise köyden bile çıkamıyorlardı.

Claude Opus 4.5 dahi olsa, yeteneklerinin büyük ölçüde arttığı halde hâlâ anlaşılmaz hatalar yapabiliyor. Bir kez, "Eğitimhane Dışında" dört gün boyunca dolaşmış, ancak giriş yapamamış. Sebep ise yolun önünde duran bir ağacın kesilmesi gerektiğini fark edememiş olmasından kaynaklanmıştı.

Bir çocuk oyunu, neden yapay zekânın Waterloo'su oldu?

Çünkü Pokémon, bugünün yapay zekâsının en çok eksik olduğu yetenekleri gerektirir: açık dünyalarda açık talimatlar olmadan sürekli akıl yürütmek, birkaç saat önceki kararları hatırlamak, gizli neden-sonuç ilişkilerini anlamak ve yüzlerce olası eylem arasında uzun vadeli planlama yapmak.

8 yaşındaki bir çocuk için kolayca yapılabilir olan bu tür şeyler, "insandan üstün" olduğunu iddia eden AI modelleri için aşılması imkânsız bir uçurumdur.

01 Araç Seti Farkı Başarıyı Belirler mi?

Karşılaştırıldığında, Google'ın Gemini 2.5 Pro modeli, 2025 Mayıs'ında benzer zorlukta bir Pokémon oyununu başarıyla tamamladı. Google CEO'su Sundar Pichai hatta açık bir şekilde yarım yamalak bir şekilde, şirketin "yapay Pokémon zekası" geliştirmeye başladığını söyledi.

Ancak bu sonuç, Gemini modelinin kendisinin daha "akıllı" olduğuna basitçe bağlanamaz.

Ana fark, modelin kullandığı araç takımlarında. Gemini Pokémon yayınlarını yürüten bağımsız geliştirici Joel Zhang, araç takımını "Iron Man zırhı"na benzetmiştir: AI, oyun içine eli boş girmek yerine, çeşitli dış kaynaklardan yararlanabilen bir sistemde yer alır.

Gemini'in araç seti, modelin görsel anlama zafiyetlerini telafi etmek ve özel bulmaca çözme ile yol planlama araçları sunmak için oyun ekran görüntülerini metne dönüştürme gibi daha fazla destek sağlar. Karşılaştırıldığında, Claude tarafından kullanılan araç seti daha sade olup, denemeleri modelin kendi algılama, akıl yürütme ve yürütme kapasitelerinin gerçek yeteneklerini daha doğrudan yansıtır.

Günlük görevlerde bu tür farklar belirgin değildir.

Kullanıcı, sohbet botuna internet bağlantısı gerektiren bir istekte bulunursa, model otomatik olarak arama aracını çağırır. Ancak, Pokémon gibi uzun vadeli görevlerde araç setleri arasındaki farklar başarıyı belirleyecek kadar büyük olur.

02: Sıra tabanlı oyunlarda AI'nin "uzun süreli bellek" eksikliklerini ortaya koyar.

Pokémon'un, anlık tepkiler gerektirmeyen ve katı bir sıra sistemi olan yapısı sayesinde yapay zekânın test edilmesi için harika bir "alana" dönüştü. Yapay zekâ, her adımda sadece mevcut ekran görüntüsünü, hedef ipucunu ve mevcut seçenekleri birleştirerek, "A tuşuna bas" gibi net komutlar verebilecek şekilde çıkarımlarda bulunabilir.

Bu büyük dil modellerinin en iyi olduğu etkileşim türü gibi görünüyor.

Sorunun özü tam da zaman boyutundaki "kayma"dır. Claude Opus 4.5, 500 saatten fazla çalışmış ve yaklaşık 170.000 adım gerçekleştirmiş olsa da, her adımdan sonraki yeniden başlatma işlemleri nedeniyle model sadece çok dar bir bağlam penceresinde ipuçları arayabilir. Bu mekanizma, modelin aslında unutkan bir birey gibi, notlarla bilgiyi sürdürerek parçalı bilgiler arasında döngüye girmesine yol açar. Böylece model, gerçek bir insan oyuncunun deneyimlerini nicelikten niteliğe dönüştürmesi gibi bir geçişe ulaşamaz.

Satranç ve Go gibi alanlarda, AI sistemleri uzun zamandır insanlardan çok daha iyi performans göstermektedir, ancak bu sistemler çok özel görevler için yüksek oranda özelleştirilmiştir. Karşılaştırıldığında, Gemini, Claude ve GPT gibi genel modeller, sınavlarda ve programlama yarışmalarında sık sık insanları yenerken, çocuklara yönelik bir oyunda ise sık sık başarısız olmaktadır.

Bu kontrast kendi içinde oldukça aydınlatıcıdır.

Joel Zhang'ın görüşüne göre, yapay zekânın karşılaştığı temel zorluk, uzun bir zaman dilimi boyunca tek bir net hedefi sürdürmesidir. "Eğer ajanın gerçekten iş yapmasını istiyorsan, beş dakika önce ne yaptığını unutamaz," diyor.

Ve bu yetenek, bilişsel işgücü otomasyonunun elde edilmesi için gereken temeldir.

Bağımsız araştırmacı Peter Whidden, daha sezgisel bir açıklama yaptı. Geleneksel yapay zekâ tabanlı bir "Pokémon" algoritmasını kaynak kodunu açıklayan Whidden, "Yapay zekâ, Pokémon hakkında neredeyse her şeyi biliyor," dedi. "İnsani verilerin devasa bir havuzunda eğitildi ve doğru cevabı biliyor. Ancak uygulama anında çok utanç verici şekilde başarısız oluyor."

Oyun içinde, bu tür "bilmek ama yapamamak" arasındaki kırılma sürekli büyür: Model belirli bir nesneyi bulmaya ihtiyacı olduğunu bile bile iki boyutlu haritada kararlı bir şekilde konumlanamayabilir; NPC ile konuşmaya ihtiyacı olduğunu bile bile piksel düzeyinde hareket ederken tekrar tekrar başarısız olabilir.

03 Yeteneklerin İlerlemesi Arka Planında: Aşılamayan "İkinci Doğa" Boşluğu

Yine de, yapay zekânın ilerlemesi açıktır. Claude Opus 4.5, önceki versiyonuna kıyasla özellikle otonom kayıtlar ve görsel anlayış konularında daha iyi performans göstererek oyun içinde daha ileri ilerleyebilmiştir. Gemini 3 Pro ise "Pokémon Blue"yu tamamladıktan sonra daha zor olan "Pokémon Crystal"i bitirmeyi başarmış ve bu süreçte hiçbir savaşı kaybetmemiştir. Bu, Gemini 2.5 Pro'nun asla başarısız olduğu bir şeydir.

Aynı anda Anthropic, Claude Code araç takımı ile Claude'un kendi kodunu yazmasına ve çalıştırmasına olanak tanımakta ve bu, "RollerCoaster Tycoon" gibi eski oyunlarda sanal tematik parkları başarıyla yönetebildiğine dair iddialar doğrultusunda kullanılmıştır.

Bu örnekler, sezgisel olmayan bir gerçekliği ortaya koyar: Uygun araç takımları ile donatılmış yapay zekâlar, yazılım geliştirme, muhasebe, hukuki analiz gibi bilgi işlerinde yüksek verimlilik gösterebilir. Bununla birlikte, anlık tepki gerektiren görevleri hâlâ zorlukla ele alırlar.

Pokémon deneyi ayrıca ilginç bir fenomeni daha ortaya koydu: İnsan verileri üzerinde eğitilen modeller, insan benzeri davranış özelliklerini sergilemektedir.

Gemini 2.5 Pro teknik raporunda, Google, sistem "korku durumu" gibi senaryoları simüle ederken (örneğin bir Pokémon baygın olmaya başlarken) modelin akıl yürütmü kalitesinin önemli ölçüde düştüğünü belirtti.

Gemini 3 Pro, nihayet Pokémon Mavi'yi geçtiğinde, görevi tamamlamak zorunda olmayan bir not bıraktı kendine: "Şiirli bir şekilde sona erdirmek için, başlangıç evime dönmeli ve annemle son bir kez konuşmalı, karakterimi emekli etmeliyim."

Joel Zhang'ın görüşüne göre bu davranış, beklenmedik ve aynı zamanda belirli bir insan duygusu yansıtmaktaydı.

04. Yapay zekânın aşması zor olan "Sayısal Uzun Yol", sadece "Pokémon" değil

Pokémon, bu tür örneklerden sadece biridir. Genel yapay zeka (AGI) hedefine ulaşmak isteyen geliştiriciler, yapay zekanın hukuk sınavlarında öne geçebilmesine rağmen, aşağıda belirtilen karmaşık oyun türlerini karşılaştıklarında hâlâ aşılamadığı "Waterloo" gibi engellerle karşılaştıklarını fark ettiler.

NetHack: Kuralların Derinliği

1980'lerde geliştirilen bu zindan oyunu, yapay zeka araştırmaları dünyasında "kabus" olarak biliniyor. Oyun, çok yüksek rastgelelik ve "öldü mü, kalmadı mı?" mekanizmasıyla öne çıkıyor. Facebook AI Araştırmaları, modellerin kod yazabildiğini fark etti ama常识逻辑 ve uzun vadeli planlama gerektiren NetHack karşısında, modelin hatta insan yeni başlayanlardan bile çok daha kötü performans gösterdiğini buldular.

Minecraft: Kaybolan Hedef Algısı

AI, kereste küreği yapmak ve hatta elmas çıkarmakta başarılı olsa da, bağımsız olarak "Ender Dragon'u yenebilme" hâlâ bir hayaldir. Açık dünyada, AI, kaynak toplama süreci boyunca saatlerce "amaçlarını unutabilir" veya karmaşık navigasyon sırasında tamamen kaybolabilir.

StarCraft II: Genel Kullanım ve Uzmanlık Arasındaki Boşluk

Özel modeller profesyonel oyuncuları yenebilse de, Claude veya Gemini'yi doğrudan görsel talimatlarla devralmaya kalkarsanız, anında çökerler. "Savaş bulutu" belirsizliklerini işlemek ve mikro yönetim ile makro yapı arasında denge kurmak konusunda, genel modeller hâlâ yetersizdir.

RollerCoaster Tycoon: Mikro ve Makro Dengeyi Kaybetmek

Bir eğlence parkını yönetmek, binlerce ziyaretlinin durumunu takip etmeyi gerektirir. Hatta Claude Code'un temel yönetim kapasitesine sahip olması, büyük ölçekteki finansal çöküşleri veya ani kazaları ele alırken yorgunluk göstermesini önleyemez. Her mantık hatası, parkın iflasına neden olur.

Elden Ring ve Sekiro: Fiziksel Geri Bildirimdeki Çukur

Bu tür güçlü eylem geri bildirimi oyunları, yapay zekâ için oldukça zordur. Şu anki görsel analiz gecikmeleri, AI'nin "düşünmesi" gereken boss hareketleri sırasında karakterin genellikle zaten ölüvermesine neden olur. Milisaniyeler cinsinden tepki süresi gereksinimi, model etkileşim mantığının doğal bir üst sınırını oluşturur.

05 Neden Pokémon, yapay zeka için bir test taşına dönüştü?

Şu anda Pokémon, yapay zeka değerlendirme alanında resmi olmayan ancak ikna edici bir test基准i olarak kabul edilmeye başlanmaktadır.

Anthropic, OpenAI ve Google'ın modellerinin Twitch'te yapılan ilgili canlı yayınına binlerce yorum gelmiştir. Google, teknik bir raporda Gemini'in oyun ilerlemesini detaylıca belgelerken, Pichai bu başarıyı I/O geliştirici konferansında açıkça belirtti. Anthropic hatta Claude'un Pokémon oynadığı bir gösterim alanı oluşturmak için endüstri konferanslarında bir alan ayırdı.

"Yüksek teknoloji tutkunları bir topluluğuyuz," diyor Anthropic Uygulamalı AI Sorumlusu David Hershey. Ancak bunun sadece eğlence olmadığını vurguluyor.

Geleneksel tek seferlik ve soru-cevap temelli testlerden farklı olarak, Pokémon, modelin uzun bir süre boyunca akıl yürütmeyi, karar vermeyi ve hedeflere ulaşmayı takip etmesine olanak tanır. Bu da insanlar AI'ye gerçek dünyada yapmaları için vermek istediği karmaşık görevlere daha yakındır.

Şu ana kadar yapay zeka, Pokémon oyunlarında hâlâ zorlanmaya devam etmektedir. Ancak bu tekrar eden zorluklar, genel yapay zekânın henüz aşamadığı yetenek sınırlarını net bir şekilde ortaya koymaktadır.

Bu makaleye özel derleme yapan Wuji de katkıda bulunmuştur.

Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.