Ang Eksperimento sa Pag-compress ng Memorya ng GPT-5.4 ay Nagpakita ng Pagbaba ng Akurasyo hanggang sa 54%

Ayon sa pagmamasid ng Beating, ang doktorandong si Dylan Zhang mula sa University of Illinois sa Computer Science ay nag-isagawa ng isang serye ng eksperimento sa memorya ng Agent, at ang mga resulta ay nagtuturo sa isang kabaligtarang konklusyon: ang pag-uulit-ulit na pagsasummary ng karanasan ay maaaring gawing mas masama ang pagtanda ng modelo. Ang pinakamakapangyarihang set ng resulta ay galing sa ARC-AGI: ang mga mananaliksik ay pumili ng 19 tanong na kaya ng GPT-5.4 na sagutin nang tama nang walang memorya, at pagkatapos ay isinunod sa modelo ang totoong solusyon nito upang ito ay magsulat ng “mga pagsasaliksik sa karanasan” habang sinusubaybayan. Dapat na ito ay katumbas ng pag-aaral na may bukas na libro; ngunit pagkatapos ng maraming pagsasama-sama ng memorya, bumaba ang accuracy ng parehong modelo mula sa 100% patungo sa 54%. Walang mali sa orihinal na track—ang tunay na problema ay nasa hakbang kung saan binago ng modelo ang tamang track sa isang pangkalahatang karanasan. Mas masama pa, ang pagkabawas ng memorya na ito ay hindi isang kakaibang kaso. Sa WebShop na gawain sa online shopping, ang AWM memory method ay may marka na 0.64 nang may 8 expert trajectories, ngunit bumaba ito sa 0.20 nang tumabas sa 128 trajectories—tumpak na bumalik sa baseline na walang memorya. Ibig sabihin, habang lalo at lalo pang tumataas ang dami ng memorya, ang benepisyo ay pinapawi mismo nito. Ang problema ay hindi “masyadong kaunting karanasan,” kundi “masyadong madalas na pagsasummary.” Ang mga karanasan na isinusulat ng malaking modelo ay hindi objektibong log—bawat pagsasummary ay isang bagong pagbuo. Sa huli, ang mga partikular na kondisyon ay tinanggal, ang mga patakaran para sa iba’t ibang gawain ay pinagsama-sama, at ang mga detalye na nagdidikta sa aksyon ay naging “gawin agad ang pinakadirektang aksyon” o “gamitin ang tamang kasangkapan”—mga pariralang tila tama pero walang halaga. Isang ekstremong halimbawa na ipinakita sa orihinal na artikulo ay ang pagpagsasama ng 50 structured memory sa isang tanging entry, kung saan ang mga pagkakaiba sa iba’t ibang gawain ay pinipigil upang maging iisang pangkalahatang proseso, at sa susunod na pagsubok, nawala agad ang 6 hanggang 13 successful samples. Ang payo ng mga may-akda ay maingat: huwag agad bigyan ng “notebook ng mga maling tanong” ang Agent bawat round. Mas matatag na paraan ay panatilihin ang orihinal na mga operasyon na pinili, at mag-summarize lamang kapag talagang kinakailangan. Sa eksperimento, ang solusyong nagpapanatili lamang ng orihinal na episode at nagpapahinto sa abstraktsiyon ay nakamit o lumampas sa mga kompresyon-based memory method sa maraming Agent benchmark. Para sa mga developer, direktang konklusyon ito: mas kapaki-pakinabang ang pagpapakita sa modelo kung ano ang totoong ginawa nito kaysa pagpapabasa sa maraming abstraktong patakaran.