GPT-5.4 記憶壓縮實驗顯示準確率降至 54%

根據動察 Beating 監測，伊利諾伊大學電腦科學博士生 Dylan Zhang 進行了一組 Agent 記憶實驗，結果指向一個反常結論：讓模型反覆總結經驗，可能會讓它越記越差。最刺眼的一組結果來自 ARC-AGI：研究者挑出 19 道 GPT-5.4 在無記憶狀態下能全部做對的題，再將這些題目的真實解法輸入模型，讓它邊看邊寫「經驗總結」。按理說，這等同於開卷複習；但經過多輪記憶壓縮後，同一模型的準確率從 100% 跌至 54%。原始軌跡並無錯誤，真正出問題的是模型將正確軌跡改寫成通用經驗的那一步。更糟糕的是，這種記憶退化並非個例。在 WebShop 網購任務中，AWM 記憶方法在吸收 8 條專家軌跡時得分為 0.64，當軌跡增加至 128 條後，得分跌至 0.20，剛好回到無記憶基線。換句話說，記憶越堆越厚，收益反而被自身抹平。問題不在「經驗太少」，而在「總結太勤」。大模型寫下的經驗並非客觀日誌，每次總結都是一次重新生成。寫到最後，具體前提會被刪除，不同任務的規則會被揉在一起，原本能指導操作的細節會變成「優先採取最直接行動」「使用正確工具」之類看似正確、實際無用的廢話。原文展示的一個極端例子是，50 條結構化記憶被一次合併成 1 條，多個任務的差異被壓縮成同一個通用流程，下輪評測直接丟失 6 到 13 個成功樣本。作者提出的建議非常克制：別急著讓 Agent 每輪都寫「錯題本」。更穩妥的做法是保留經過篩選的原始操作軌跡，僅在確實需要時才進行抽象總結。實驗中，僅保留原始 episode、關閉抽象總結的方案，在多個 Agent 基準上追平甚至超越了測試過的壓縮式記憶方法。對開發者而言，這項結論很直接：讓模型看見真實做過什麼，通常比讓它背誦一堆抽象規則更有用。