Ayon sa pagmamasid ng Beating, ang doktorandong si Dylan Zhang mula sa University of Illinois sa Computer Science ay nag-isagawa ng isang serye ng eksperimento sa memorya ng Agent, at ang mga resulta ay nagtuturo sa isang kabaligtarang konklusyon: ang pag-uulit-ulit na pagsasummary ng karanasan ay maaaring gawing mas masama ang pagtanda ng modelo. Ang pinakamakapangyarihang set ng resulta ay galing sa ARC-AGI: ang mga mananaliksik ay pumili ng 19 tanong na kaya ng GPT-5.4 na sagutin nang tama nang walang memorya, at pagkatapos ay isinunod sa modelo ang totoong solusyon nito upang ito ay magsulat ng “mga pagsasaliksik sa karanasan” habang sinusubaybayan. Dapat na ito ay katumbas ng pag-aaral na may bukas na libro; ngunit pagkatapos ng maraming pagsasama-sama ng memorya, bumaba ang accuracy ng parehong modelo mula sa 100% patungo sa 54%. Walang mali sa orihinal na track—ang tunay na problema ay nasa hakbang kung saan binago ng modelo ang tamang track sa isang pangkalahatang karanasan. Mas masama pa, ang pagkabawas ng memorya na ito ay hindi isang kakaibang kaso. Sa WebShop na gawain sa online shopping, ang AWM memory method ay may marka na 0.64 nang may 8 expert trajectories, ngunit bumaba ito sa 0.20 nang tumabas sa 128 trajectories—tumpak na bumalik sa baseline na walang memorya. Ibig sabihin, habang lalo at lalo pang tumataas ang dami ng memorya, ang benepisyo ay pinapawi mismo nito. Ang problema ay hindi “masyadong kaunting karanasan,” kundi “masyadong madalas na pagsasummary.” Ang mga karanasan na isinusulat ng malaking modelo ay hindi objektibong log—bawat pagsasummary ay isang bagong pagbuo. Sa huli, ang mga partikular na kondisyon ay tinanggal, ang mga patakaran para sa iba’t ibang gawain ay pinagsama-sama, at ang mga detalye na nagdidikta sa aksyon ay naging “gawin agad ang pinakadirektang aksyon” o “gamitin ang tamang kasangkapan”—mga pariralang tila tama pero walang halaga. Isang ekstremong halimbawa na ipinakita sa orihinal na artikulo ay ang pagpagsasama ng 50 structured memory sa isang tanging entry, kung saan ang mga pagkakaiba sa iba’t ibang gawain ay pinipigil upang maging iisang pangkalahatang proseso, at sa susunod na pagsubok, nawala agad ang 6 hanggang 13 successful samples. Ang payo ng mga may-akda ay maingat: huwag agad bigyan ng “notebook ng mga maling tanong” ang Agent bawat round. Mas matatag na paraan ay panatilihin ang orihinal na mga operasyon na pinili, at mag-summarize lamang kapag talagang kinakailangan. Sa eksperimento, ang solusyong nagpapanatili lamang ng orihinal na episode at nagpapahinto sa abstraktsiyon ay nakamit o lumampas sa mga kompresyon-based memory method sa maraming Agent benchmark. Para sa mga developer, direktang konklusyon ito: mas kapaki-pakinabang ang pagpapakita sa modelo kung ano ang totoong ginawa nito kaysa pagpapabasa sa maraming abstraktong patakaran.
Ang Eksperimento sa Pag-compress ng Memorya ng GPT-5.4 ay Nagpakita ng Pagbaba ng Akurasyo hanggang sa 54%
MarsBitI-share






Isang kamakailang pag-aaral mula sa MarsBit ay nagpapakita kung paano nakakasira ang paulit-ulit na memorya compression sa performance ng AI model. Si Dylan Zhang, isang Ph.D. student sa University of Illinois, ay natuklasan na bumaba ang accuracy ng GPT-5.4 sa ARC-AGI benchmark mula sa 100% patungo sa 54% pagkatapos ng maraming round ng compression. Ang problema ay nagmumula sa pagbabago ng mga model ng tamang solusyon sa mga pangkalahatang patakaran, na nagtatanggal ng mahahalagang detalye. Katulad na resulta ang nakita sa WebShop task, kung saan ang mas maraming expert trajectories ay nagresulta sa mas masamang performance. Ang mga natuklasan ay nagmumungkahi na panatilihin ang raw operation data at limitahan ang abstract summaries. Ang mga trader na sinusubaybayan ang mga altcoin na dapat pansinin ay maaaring makakita ng lalong kapaki-pakinabang ang on-chain data para sa pag-evaluate ng mga AI-driven na tool.
Source:Ipakita ang original
Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito.
Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.