Eksperimen Kompresi Memori GPT-5.4 Menunjukkan Akurasi Turun Menjadi 54%

Berdasarkan pemantauan Beating, mahasiswa doktoral ilmu komputer di Universitas Illinois, Dylan Zhang, melakukan serangkaian eksperimen memori agen, yang menghasilkan kesimpulan yang tidak biasa: meminta model untuk terus-menerus merangkum pengalaman justru dapat membuatnya semakin buruk dalam mengingat. Hasil yang paling mencolok berasal dari ARC-AGI: para peneliti memilih 19 soal yang dapat dijawab benar seluruhnya oleh GPT-5.4 tanpa memori, lalu memberikan solusi sebenarnya dari soal-soal tersebut kepada model agar ia menulis "ringkasan pengalaman" sambil melihatnya. Secara teori, ini setara dengan belajar dengan buka buku; namun setelah beberapa siklus kompresi memori, akurasi model yang sama turun dari 100% menjadi 54%. Jejak asli tidak salah—masalah sebenarnya terjadi pada tahap di mana model menulis ulang jejak yang benar menjadi pengalaman umum. Lebih buruk lagi, degradasi memori ini bukan kasus isolasi. Dalam tugas belanja online WebShop, metode memori AWM mendapat skor 0,64 saat memproses 8 jejak ahli, tetapi turun menjadi 0,20 ketika jumlah jejak meningkat menjadi 128—tepat kembali ke baseline tanpa memori. Artinya, semakin banyak memori yang ditumpuk, semakin besar manfaatnya yang dihapus sendiri. Masalahnya bukan pada "terlalu sedikit pengalaman", melainkan pada "terlalu sering merangkum". Ringkasan pengalaman yang ditulis model bukanlah log objektif; setiap rangkuman adalah proses generasi ulang. Pada akhirnya, premis spesifik dihapus, aturan dari berbagai tugas dicampur menjadi satu, dan detail yang sebelumnya bisa membimbing tindakan berubah menjadi kalimat-kalimat seperti "prioritaskan tindakan paling langsung" atau "gunakan alat yang benar"—yang tampak benar tetapi sebenarnya tidak berguna. Salah satu contoh ekstrem yang ditunjukkan dalam artikel asli adalah: 50 memori terstruktur digabungkan menjadi satu, perbedaan antar tugas dipadatkan menjadi satu proses umum, sehingga pada evaluasi berikutnya, 6 hingga 13 sampel sukses langsung hilang. Saran yang diberikan penulis sangat hati-hati: jangan terburu-buru meminta agen menulis "buku kesalahan" setiap siklus. Pendekatan yang lebih stabil adalah menyimpan jejak operasi asli yang telah disaring, dan hanya merangkum secara abstrak bila benar-benar diperlukan. Dalam eksperimen, pendekatan yang hanya menyimpan episode asli dan menonaktifkan rangkuman abstrak mencapai atau bahkan melampaui metode memori kompresi yang diuji di berbagai benchmark agen. Bagi pengembang, kesimpulan ini sangat jelas: menunjukkan kepada model apa yang benar-benar pernah dilakukan biasanya lebih bermanfaat daripada memintanya menghafal sejumlah aturan abstrak.