Eksperimen Kompresi Memori GPT-5.4 Menunjukkan Kejituan Menurun kepada 54%

Berdasarkan pemantauan Beating, seorang pelajar PhD ilmu komputer dari Universiti Illinois, Dylan Zhang, menjalankan serangkaian eksperimen memori Agen, dan hasilnya menunjukkan kesimpulan yang tidak biasa: membiarkan model merumuskan pengalaman secara berulang-ulang mungkin justru membuatnya semakin buruk dalam mengingat. Hasil yang paling mencolok datang dari ARC-AGI: para penyelidik memilih 19 soal yang GPT-5.4 dapat selesaikan sepenuhnya tanpa memori, kemudian memberikan penyelesaian sebenar soal-soal tersebut kepada model, memintanya menulis "ringkasan pengalaman" sambil melihatnya. Secara teori, ini setara dengan belajar dengan buku terbuka; tetapi selepas beberapa putaran pemampatan memori, ketepatan model yang sama jatuh dari 100% ke 54%. Jejak asli tidak salah—masalah sebenarnya berlaku pada langkah di mana model menulis semula jejak yang betul sebagai pengalaman umum. Lebih buruk lagi, penurunan memori ini bukan kes terasing. Dalam tugas perbelanjaan web WebShop, kaedah memori AWM mendapat skor 0.64 apabila menyerap 8 jejak pakar, tetapi skor turun ke 0.20 apabila jumlah jejak meningkat menjadi 128—tepat kembali ke garis dasar tanpa memori. Dengan kata lain, semakin banyak memori yang ditimbun, semakin banyak keuntungan yang dihapuskan sendiri. Masalahnya bukan pada "pengalaman terlalu sedikit", tetapi pada "terlalu kerap merumuskan". Ringkasan pengalaman yang ditulis oleh model besar bukanlah log objektif; setiap rumusan adalah proses penghasilan semula. Pada akhirnya, prasyarat spesifik akan dihapus, peraturan dari tugas berbeza akan dicampurkan, dan butiran yang sepatutnya membimbing tindakan berubah menjadi pernyataan umum seperti "utamakan tindakan paling langsung" atau "guna alat yang betul"—yang kelihatan betul tetapi sebenarnya tidak berguna. Satu contoh ekstrem yang ditunjukkan dalam teks asal ialah: 50 memori terstruktur digabungkan menjadi satu, perbezaan antara pelbagai tugas ditekan menjadi satu proses umum, dan dalam penilaian seterusnya, 6 hingga 13 sampel berjaya terlepas. Cadangan penulis sangat berhati-hati: jangan tergesa-gesa meminta Agen menulis "buku kesilapan" setiap putaran. Pendekatan yang lebih stabil ialah mengekalkan jejak tindakan asli yang telah dipilih, dan hanya merumuskan secara abstrak apabila benar-benar diperlukan. Dalam eksperimen, pendekatan yang hanya mengekalkan episode asli dan mematikan rumusan abstrak mencapai atau melampaui kaedah memori berpemampat yang diuji dalam pelbagai tolok ukur Agen. Untuk pembangun, kesimpulan ini sangat jelas: memberi model melihat apa yang benar-benar dilakukan biasanya lebih berguna daripada memintanya menghafal sekumpulan peraturan abstrak.