GPT-5.4 Bellek Sıkıştırma Deneyi, Doğruluk Oranının %54'e Düşmesini Gösteriyor

icon MarsBit
Paylaş
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconÖzet

expand icon
MarsBit’in yaptığı son bir çalışma, tekrarlı bellek sıkıştırmanın AI modeli performansını nasıl olumsuz etkilediğini vurguluyor. Illinois Üniversitesi’nden Ph.D. öğrencisi Dylan Zhang, GPT-5.4’ün ARC-AGI benchmarkundaki doğruluk oranının çok sayıda sıkıştırma sonrası %100’den %54’e düştüğünü tespit etti. Sorun, modellerin doğru çözümleri genelleştirilmiş kurallara dönüştürerek anahtar detayları kaybetmesinden kaynaklanıyor. WebShop görevinde de benzer sonuçlar ortaya çıktı; daha fazla uzman trajektorisi, daha kötü performansa yol açtı. Bulgular, ham işlem verilerinin korunmasını ve soyut özetlerin sınırlı tutulmasını öneriyor. İzlenecek altcoin’leri takip eden trader’lar, AI tabanlı araçları değerlendirmek için artan şekilde zincir üstü verilerden yararlanabilir.

Dylan Zhang, Illinois Üniversitesi Bilgisayar Bilimi doktora öğrencisi, Agent bellek deneyleri gerçekleştirdi ve sonuçlar şaşırtıcı bir sonuca işaret etti: Modelin deneyimlerini tekrar tekrar özetlemesi, belleğinin daha da bozulmasına neden olabilir. En dikkat çekici sonuçlar ARC-AGI'den geldi: Araştırmacılar, GPT-5.4'ün belleksiz durumda tamamen doğru çözebildiği 19 soruyu seçti ve bu soruların gerçek çözümlerini modele vererek, "deneyim özetleri" yazmasını istedi. Bu, açık kitapla çalışmak gibi görünmeliydi; ancak çok sayıda bellek sıkıştırma döngüsünden sonra aynı modelin doğruluk oranı %100'den %54'e düştü. Orijinal izler hatalı değildi, sorun modelin doğru izleri genel deneyimlere dönüştürme adımındaydı. Daha kötüsü, bu bellek bozulması tekil bir durum değil. WebShop online alışveriş görevinde, AWM bellek yöntemi 8 uzman iziyle 0,64 puan alırken, iz sayısı 128'e çıktığında 0,20'ye düştü ve tam olarak belleksiz temel seviyeye geri döndü. Yani, bellek ne kadar artarsa, kazanç o kadar kendini yok ediyor. Sorun "deneyim azlığı" değil, "aşırı özetleme". Büyük modellerin yazdığı deneyimler nesnel günlükler değil, her özetleme bir yeniden üretmedir. Sonunda, spesifik önkoşullar silinir, farklı görevlerin kuralları birbirine karışır ve operasyonları yönlendiren detaylar, "en doğrudan eylemi tercih et", "doğru aracı kullan" gibi görünüşte doğru ama aslında kullanışsız boşluklara dönüşür. Metinde gösterilen uç bir örnek, 50 yapılandırılmış belleğin bir kez tek bir genel prosedüre sıkıştırılmasıdır; bu da çoklu görev farklılıklarını tek bir genel akışa basar ve bir sonraki değerlendirme sırasında 6 ila 13 başarılı örnek tamamen kaybedilir. Yazarlar çok sakin bir öneri sunuyor: Agent'in her döngüde "hatalı sorular defteri" yazmasını beklemeyin. Daha güvenli yaklaşım, seçilmiş orijinal operasyon izlerini korumak ve yalnızca gerçekten gerekli olduğunda soyutlamayı yapmaktır. Deneylerde, sadece orijinal epizodları koruyup soyut özetlemeyi kapatma yöntemi, birçok Agent benchmark'ında test edilen sıkıştırma tabanlı bellek yöntemlerini eşitledi veya aştı. Geliştiriciler için bu sonuç çok açık: Modelin gerçek olarak ne yaptığını görmesi, ona soyut kuralların yığınından daha faydalı olur.

Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.