這是一個任何曾經調試過代碼的人都能感同身受的問題:你嘗試某種方法,失敗了;再試一次,以不同的方式失敗;到了第七次嘗試時,你已經忘記了之前排除了哪些可能性。現在想像一下,這種循環發生在一個 AI 執行代理內部,但不同的是,它並非忘記,而是被成千上萬個來自每次先前嘗試的冗長執行日誌所淹沒。
Meta 的研究人員發現了一個出人意料的簡潔解決方案。他們證明,與其向編碼代理提供完整的原始歷史記錄,不如使用壓縮且結構化的過往嘗試摘要,更能有效地指導未來的行動。
少即是多
核心發現幾乎與當今「數據越多越好」的常見觀點相悖。當涉及引導代理的下一步行動時,一段簡潔的兩行摘要——說明編碼代理嘗試了什麼以及為何失敗——其表現優於數千個標記的原始執行日誌。
該機制從兩個方面運作。首先,它減少上下文噪音,這相當於 AI 中的信號與雜訊比下降。當代理的上下文窗口被冗長且重複的日誌資料填滿時,有用資訊就會被掩蓋。透過摘要進行壓縮,可以去除噪音並保留真正重要的內容。
第二,也是或許更重要的,它能防止重複失敗。若沒有清晰記錄失敗原因,代理通常會一再犯同樣的錯誤。結構化的摘要就像一份「不要再這樣做」的檢查清單,這對於迭代式問題解決極具價值。
這種方法代表了研究人員對代理改進方式的哲學轉變。與其增加重試次數或投入更多計算資源,重點轉向記憶壓縮與經驗重用。
這在 Meta 更廣泛的代理研究中的定位
這項工作並非孤立存在,它是 Meta 持續推進自改進代理系統的一部分,該研究方向早在 2026 年初已產生了如 HyperAgents 和 Meta-Harness 等框架。
這些早期的框架為能夠隨時間優化自身運作邏輯的自主AI系統奠定了基礎。它們持續面臨的挑戰是認知負荷,特別是如何防止代理在累積經驗時被自身的歷史資料壓垮。
總結方法直接解決了這一瓶頸。代理仍會累積經驗,但現在會先將經驗處理成緊湊且可操作的形式,再反饋至未來的決策中。
這對投資者和人工智慧領域的意義
目前,大多數編碼代理公司透過擴展來提升產品,增加運算資源、更多重試次數、更長的上下文窗口,但這些都會增加成本。如果 Meta 的方法在更廣泛的應用中依然有效,則表明了一條無需線性增加成本即可提升效能的途徑。
與所有研究論文一樣,風險在於受控結果並不總能轉化為生產環境。編碼基準測試比現實世界的軟體工程更為整潔,而這兩行摘要的品質至關重要。一個糟糕的摘要可能比沒有摘要更糟,反而引入了誤導性的訊號,而非有助的資訊。
