Eksperimen Kompresi Memori GPT-5.4 Menunjukkan Akurasi Turun Menjadi 54%

icon MarsBit
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Sebuah studi terbaru dari MarsBit menyoroti bagaimana kompresi memori berulang dapat merugikan kinerja model AI. Dylan Zhang, seorang mahasiswa Ph.D. di University of Illinois, menemukan bahwa akurasi GPT-5.4 pada benchmark ARC-AGI turun dari 100% menjadi 54% setelah beberapa putaran kompresi. Masalah ini berasal dari model yang menulis ulang solusi yang benar menjadi aturan yang lebih umum, sehingga kehilangan detail penting. Hasil serupa muncul dalam tugas WebShop, di mana trajektori yang lebih ahli justru menghasilkan kinerja yang lebih buruk. Temuan ini menyarankan untuk menjaga data operasi mentah dan membatasi ringkasan abstrak. Pedagang yang memantau altcoin untuk diwaspadai mungkin akan menemukan data on-chain semakin berguna untuk mengevaluasi alat yang didorong oleh AI.

Berdasarkan pemantauan Beating, mahasiswa doktoral ilmu komputer di Universitas Illinois, Dylan Zhang, melakukan serangkaian eksperimen memori agen, yang menghasilkan kesimpulan yang tidak biasa: meminta model untuk terus-menerus merangkum pengalaman justru dapat membuatnya semakin buruk dalam mengingat. Hasil yang paling mencolok berasal dari ARC-AGI: para peneliti memilih 19 soal yang dapat dijawab benar seluruhnya oleh GPT-5.4 tanpa memori, lalu memberikan solusi sebenarnya dari soal-soal tersebut kepada model agar ia menulis "ringkasan pengalaman" sambil melihatnya. Secara teori, ini setara dengan belajar dengan buka buku; namun setelah beberapa siklus kompresi memori, akurasi model yang sama turun dari 100% menjadi 54%. Jejak asli tidak salah—masalah sebenarnya terjadi pada tahap di mana model menulis ulang jejak yang benar menjadi pengalaman umum. Lebih buruk lagi, degradasi memori ini bukan kasus isolasi. Dalam tugas belanja online WebShop, metode memori AWM mendapat skor 0,64 saat memproses 8 jejak ahli, tetapi turun menjadi 0,20 ketika jumlah jejak meningkat menjadi 128—tepat kembali ke baseline tanpa memori. Artinya, semakin banyak memori yang ditumpuk, semakin besar manfaatnya yang dihapus sendiri. Masalahnya bukan pada "terlalu sedikit pengalaman", melainkan pada "terlalu sering merangkum". Ringkasan pengalaman yang ditulis model bukanlah log objektif; setiap rangkuman adalah proses generasi ulang. Pada akhirnya, premis spesifik dihapus, aturan dari berbagai tugas dicampur menjadi satu, dan detail yang sebelumnya bisa membimbing tindakan berubah menjadi kalimat-kalimat seperti "prioritaskan tindakan paling langsung" atau "gunakan alat yang benar"—yang tampak benar tetapi sebenarnya tidak berguna. Salah satu contoh ekstrem yang ditunjukkan dalam artikel asli adalah: 50 memori terstruktur digabungkan menjadi satu, perbedaan antar tugas dipadatkan menjadi satu proses umum, sehingga pada evaluasi berikutnya, 6 hingga 13 sampel sukses langsung hilang. Saran yang diberikan penulis sangat hati-hati: jangan terburu-buru meminta agen menulis "buku kesalahan" setiap siklus. Pendekatan yang lebih stabil adalah menyimpan jejak operasi asli yang telah disaring, dan hanya merangkum secara abstrak bila benar-benar diperlukan. Dalam eksperimen, pendekatan yang hanya menyimpan episode asli dan menonaktifkan rangkuman abstrak mencapai atau bahkan melampaui metode memori kompresi yang diuji di berbagai benchmark agen. Bagi pengembang, kesimpulan ini sangat jelas: menunjukkan kepada model apa yang benar-benar pernah dilakukan biasanya lebih bermanfaat daripada memintanya menghafal sejumlah aturan abstrak.

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.