OpenAI 錯誤地評估了 AI 模型的推理能力，發現無監控性損失

OpenAI 表示，其多個 AI 模型，包括 GPT-5.4 Thinking 及多個 GPT-5.4 版本，在強化學習訓練期間意外出現了鏈式思維評分。內部分析顯示，這些模型展示其工作過程的能力並未顯著下降。

這些事件影響了受影響最嚴重模型中少於 3.8% 的訓練樣本。訓練過程中的小部分內容意外地根據模型的內部推理步驟而非僅根據其最終輸出來給予獎勵或懲罰。

到底發生了什麼

意外的評分僅採取了有限的形式。一些訓練過程會獎勵軌跡的實用性，本質上是對模型推理路徑的幫助性給予讚賞。其他則對思維鏈中不必要的提示進行懲罰。最顯著的測試案例顯示，針對思維鏈中涉及作弊的參考，懲罰的觸發率約為 2%。

OpenAI 的內部團隊對所有強化學習運行進行了自動化掃描，以檢視其對推理透明度的影響。模型仍能可靠地追蹤邏輯推理，且檢測潛在偏離的能力仍保持功能完整。

外部機構包括 METR、Apollo Research 和 Redwood Research 均為此項研究提供了見解。Redwood Research 承認這些輕微事件並未影響可監控性，但指出作為安全措施的鏈式推理存在固有漏洞。

Anthropic 於 2026 年 4 月發布了一份報告，檢視其自身模型中的類似動態。自 2025 年 12 月以來，OpenAI 一直持續加強其檢測措施，以防止未來的評分錯誤。該公司目前已部署自動化檢測系統和內部防護機制，專門用於在 CoT 評分污染影響大規模訓練之前加以發現。

公告後，與 AI 相關的加密資產未出現即時市場反應。AI 模型正日益嵌入區塊鏈應用中，包括智能合約審計、去中心化 AI 代理和自動化交易系統，這些均依賴能正確且透明地推理的 AI。

監控性得以保持，這是任何正在構建或投資於整合 AI 的加密項目者的主要啟示。這意味著圍繞推理模型的安全基礎設施能在問題變得系統性之前發現並解決問題。