Berdasarkan pemantauan Beating, seorang pelajar PhD ilmu komputer dari Universiti Illinois, Dylan Zhang, menjalankan serangkaian eksperimen memori Agen, dan hasilnya menunjukkan kesimpulan yang tidak biasa: membiarkan model merumuskan pengalaman secara berulang-ulang mungkin justru membuatnya semakin buruk dalam mengingat. Hasil yang paling mencolok datang dari ARC-AGI: para penyelidik memilih 19 soal yang GPT-5.4 dapat selesaikan sepenuhnya tanpa memori, kemudian memberikan penyelesaian sebenar soal-soal tersebut kepada model, memintanya menulis "ringkasan pengalaman" sambil melihatnya. Secara teori, ini setara dengan belajar dengan buku terbuka; tetapi selepas beberapa putaran pemampatan memori, ketepatan model yang sama jatuh dari 100% ke 54%. Jejak asli tidak salah—masalah sebenarnya berlaku pada langkah di mana model menulis semula jejak yang betul sebagai pengalaman umum. Lebih buruk lagi, penurunan memori ini bukan kes terasing. Dalam tugas perbelanjaan web WebShop, kaedah memori AWM mendapat skor 0.64 apabila menyerap 8 jejak pakar, tetapi skor turun ke 0.20 apabila jumlah jejak meningkat menjadi 128—tepat kembali ke garis dasar tanpa memori. Dengan kata lain, semakin banyak memori yang ditimbun, semakin banyak keuntungan yang dihapuskan sendiri. Masalahnya bukan pada "pengalaman terlalu sedikit", tetapi pada "terlalu kerap merumuskan". Ringkasan pengalaman yang ditulis oleh model besar bukanlah log objektif; setiap rumusan adalah proses penghasilan semula. Pada akhirnya, prasyarat spesifik akan dihapus, peraturan dari tugas berbeza akan dicampurkan, dan butiran yang sepatutnya membimbing tindakan berubah menjadi pernyataan umum seperti "utamakan tindakan paling langsung" atau "guna alat yang betul"—yang kelihatan betul tetapi sebenarnya tidak berguna. Satu contoh ekstrem yang ditunjukkan dalam teks asal ialah: 50 memori terstruktur digabungkan menjadi satu, perbezaan antara pelbagai tugas ditekan menjadi satu proses umum, dan dalam penilaian seterusnya, 6 hingga 13 sampel berjaya terlepas. Cadangan penulis sangat berhati-hati: jangan tergesa-gesa meminta Agen menulis "buku kesilapan" setiap putaran. Pendekatan yang lebih stabil ialah mengekalkan jejak tindakan asli yang telah dipilih, dan hanya merumuskan secara abstrak apabila benar-benar diperlukan. Dalam eksperimen, pendekatan yang hanya mengekalkan episode asli dan mematikan rumusan abstrak mencapai atau melampaui kaedah memori berpemampat yang diuji dalam pelbagai tolok ukur Agen. Untuk pembangun, kesimpulan ini sangat jelas: memberi model melihat apa yang benar-benar dilakukan biasanya lebih berguna daripada memintanya menghafal sekumpulan peraturan abstrak.
Eksperimen Kompresi Memori GPT-5.4 Menunjukkan Kejituan Menurun kepada 54%
MarsBitKongsi






Sebuah kajian terkini dari MarsBit menonjolkan bagaimana pemampatan memori yang berulang boleh merosakkan prestasi model AI. Dylan Zhang, seorang pelajar Ph.D. di Universiti Illinois, mendapati ketepatan GPT-5.4 pada tolok ARC-AGI turun daripada 100% kepada 54% selepas beberapa putaran pemampatan. Masalah ini berpunca daripada model menulis semula penyelesaian yang betul menjadi peraturan yang digeneralisasi, kehilangan butiran penting. Keputusan serupa muncul dalam tugas WebShop, di mana trajektori pakar yang lebih banyak mengakibatkan prestasi yang lebih buruk. Temuan ini mencadangkan untuk mengekalkan data operasi mentah dan membatasi ringkasan abstrak. Pedagang yang memantau altcoin untuk diperhatikan mungkin mendapati data atas rantai semakin berguna untuk menilai alat yang digerakkan oleh AI.
Sumber:Tunjukkan artikel asal
Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini.
Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.