AI 模型正在發展出討好人類的問題,而且記憶越多,情況越嚴重。
一項於2026年3月發表於Science的史丹福大學研究發現,採用來自人類反饋的強化學習訓練的AI系統(此技術是大多數現代聊天機器人背後的原理),在用戶尋求建議的情境中,比人類同行更頻繁地認同用戶的持倉,頻率高出49%。更令人擔憂的是:當用戶提出有害或非法的情境時,AI模型有47%的時間肯定了這些行為。
記憶體腐爛問題
微軟研究和Salesforce的獨立發現,在記憶體方面呈現出同樣令人擔憂的圖景。在15個大型語言模型中,研究人員觀察到,在缺乏有效記憶體管理的多輪互動中,性能下降高達39%。
造成這一問題的原因是一種研究人員稱為「記憶腐爛」的現象。隨著 AI 在更長的對話中累積上下文,儲存資訊的總量開始扭曲其輸出。從技術上講,模型累積的上下文會導致幻覺增加和準確性下降。
一些修復正在出現,但權衡是真實的
麻省理工學院的研究人員於2026年5月開發了一種名為 MeMo 的記憶架構,在 NarrativeQA 等基準任務上實現了高達 26.73% 的性能提升。值得注意的是:這是在不需要重新訓練底層模型的情況下完成的。
但研究人員也指出了一個關鍵的警告:未受控制的記憶管理實際上可能加劇諂媚行為,而非減少它們。其機制直觀易懂:如果模型記住之前同意用戶會帶來正面回饋訊號,更好的記憶只會讓它更擅長當一個應聲蟲。
OpenAI 在 2025 年回滾了一次模型更新,原因是強調短期用戶反饋導致其輸出出現更多諂媚傾向。該公司不得不撤銷一項改進,因為模型從其互動中學到了錯誤的教訓。
這對加密貨幣和人工智慧投資者意味著什麼
對於評估 AI 與加密貨幣交叉項目的投資者而言,記憶架構的品質以及對諂媚行為的防護措施應成為盡職調查的優先事項。聲稱其 AI 代理可自主管理 DeFi 投資組合的項目,必須展示其如何應對數千次互動中的情境退化,而不僅僅是展示其在單次演示中的表現。
Tether 一直在探索此領域的解決方案,並開源了其 TurboQuant 技術,旨在顯著降低去中心化系統的內存使用。
