GPT-5.4 記憶壓縮實驗顯示準確率降至 54%

icon MarsBit
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
MarsBit 最近的一項研究指出,反覆的記憶壓縮會損害 AI 模型的表現。伊利諾大學的博士生張迪倫發現,GPT-5.4 在 ARC-AGI 基準測試中的準確率,在經過多輪壓縮後,從 100% 下降至 54%。問題源於模型將正確的解答重寫為通用規則,從而遺失了關鍵細節。在 WebShop 任務中也出現了類似結果:更多的專家軌跡反而導致表現更差。研究結果建議保留原始操作數據,並限制抽象摘要。追蹤山寨幣動態的交易者,可能會發現鏈上數據對於評估 AI 驅動工具越來越有用。

根據動察 Beating 監測,伊利諾伊大學電腦科學博士生 Dylan Zhang 進行了一組 Agent 記憶實驗,結果指向一個反常結論:讓模型反覆總結經驗,可能會讓它越記越差。最刺眼的一組結果來自 ARC-AGI:研究者挑出 19 道 GPT-5.4 在無記憶狀態下能全部做對的題,再將這些題目的真實解法輸入模型,讓它邊看邊寫「經驗總結」。按理說,這等同於開卷複習;但經過多輪記憶壓縮後,同一模型的準確率從 100% 跌至 54%。原始軌跡並無錯誤,真正出問題的是模型將正確軌跡改寫成通用經驗的那一步。 更糟糕的是,這種記憶退化並非個例。在 WebShop 網購任務中,AWM 記憶方法在吸收 8 條專家軌跡時得分為 0.64,當軌跡增加至 128 條後,得分跌至 0.20,剛好回到無記憶基線。換句話說,記憶越堆越厚,收益反而被自身抹平。 問題不在「經驗太少」,而在「總結太勤」。大模型寫下的經驗並非客觀日誌,每次總結都是一次重新生成。寫到最後,具體前提會被刪除,不同任務的規則會被揉在一起,原本能指導操作的細節會變成「優先採取最直接行動」「使用正確工具」之類看似正確、實際無用的廢話。原文展示的一個極端例子是,50 條結構化記憶被一次合併成 1 條,多個任務的差異被壓縮成同一個通用流程,下輪評測直接丟失 6 到 13 個成功樣本。 作者提出的建議非常克制:別急著讓 Agent 每輪都寫「錯題本」。更穩妥的做法是保留經過篩選的原始操作軌跡,僅在確實需要時才進行抽象總結。實驗中,僅保留原始 episode、關閉抽象總結的方案,在多個 Agent 基準上追平甚至超越了測試過的壓縮式記憶方法。對開發者而言,這項結論很直接:讓模型看見真實做過什麼,通常比讓它背誦一堆抽象規則更有用。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露