GPT-5.4 Bellek Sıkıştırma Deneyi, Doğruluk Oranının %54'e Düşmesini Gösteriyor

Dylan Zhang, Illinois Üniversitesi Bilgisayar Bilimi doktora öğrencisi, Agent bellek deneyleri gerçekleştirdi ve sonuçlar şaşırtıcı bir sonuca işaret etti: Modelin deneyimlerini tekrar tekrar özetlemesi, belleğinin daha da bozulmasına neden olabilir. En dikkat çekici sonuçlar ARC-AGI'den geldi: Araştırmacılar, GPT-5.4'ün belleksiz durumda tamamen doğru çözebildiği 19 soruyu seçti ve bu soruların gerçek çözümlerini modele vererek, "deneyim özetleri" yazmasını istedi. Bu, açık kitapla çalışmak gibi görünmeliydi; ancak çok sayıda bellek sıkıştırma döngüsünden sonra aynı modelin doğruluk oranı %100'den %54'e düştü. Orijinal izler hatalı değildi, sorun modelin doğru izleri genel deneyimlere dönüştürme adımındaydı. Daha kötüsü, bu bellek bozulması tekil bir durum değil. WebShop online alışveriş görevinde, AWM bellek yöntemi 8 uzman iziyle 0,64 puan alırken, iz sayısı 128'e çıktığında 0,20'ye düştü ve tam olarak belleksiz temel seviyeye geri döndü. Yani, bellek ne kadar artarsa, kazanç o kadar kendini yok ediyor. Sorun "deneyim azlığı" değil, "aşırı özetleme". Büyük modellerin yazdığı deneyimler nesnel günlükler değil, her özetleme bir yeniden üretmedir. Sonunda, spesifik önkoşullar silinir, farklı görevlerin kuralları birbirine karışır ve operasyonları yönlendiren detaylar, "en doğrudan eylemi tercih et", "doğru aracı kullan" gibi görünüşte doğru ama aslında kullanışsız boşluklara dönüşür. Metinde gösterilen uç bir örnek, 50 yapılandırılmış belleğin bir kez tek bir genel prosedüre sıkıştırılmasıdır; bu da çoklu görev farklılıklarını tek bir genel akışa basar ve bir sonraki değerlendirme sırasında 6 ila 13 başarılı örnek tamamen kaybedilir. Yazarlar çok sakin bir öneri sunuyor: Agent'in her döngüde "hatalı sorular defteri" yazmasını beklemeyin. Daha güvenli yaklaşım, seçilmiş orijinal operasyon izlerini korumak ve yalnızca gerçekten gerekli olduğunda soyutlamayı yapmaktır. Deneylerde, sadece orijinal epizodları koruyup soyut özetlemeyi kapatma yöntemi, birçok Agent benchmark'ında test edilen sıkıştırma tabanlı bellek yöntemlerini eşitledi veya aştı. Geliştiriciler için bu sonuç çok açık: Modelin gerçek olarak ne yaptığını görmesi, ona soyut kuralların yığınından daha faydalı olur.