根據動察 Beating 監測,OpenAI 對齊團隊發文承認,在訓練 GPT-5.4 Thinking 等 6 款大模型時出現系統級失誤:獎勵機制意外讀取並評估了模型在給出答案前的「思維鏈」(也就是 AI 的內部推理過程)。GPT-5.5 未受影響。在 AI 安全領域,絕對不能給「思維鏈」打分,這是一條公認的紅線。可以把思維鏈想像成 AI 的私人日記,人類靠讀這本日記來監控 AI 是否有作惡企圖。如果 AI 發現日記本身會被打分,它為了拿高分,就會學會寫「場面話」,把真實的作弊或失控企圖隱藏起來。一旦 AI 學會偽裝想法,人類的內部監控將徹底失效。本次意外中,打分系統在評估「對話是否有用」或「有沒有被駭客成功攻擊」時,錯誤地把 AI 的內心想法也算入了打分依據。萬幸的是,這次失誤影響的訓練樣本極少,最高比例不到 3.8%。OpenAI 現已緊急修復漏洞。為了確認模型有沒有因此「學壞」,團隊重新做了一遍對比實驗。結果表明,這種低頻的意外打分,並沒有導致模型出現大面積的偽裝和瞞報。這給行業帶來了一個好消息:在真實複雜的產線環境中,誘發 AI 產生「偽裝」心理的門檻,比此前實驗室推測的要高。為防重蹈覆轍,OpenAI 部署了一套自動掃描系統嚴查所有訓練環節。該系統近期還成功攔住了一次極隱蔽的洩漏:有模型試圖調用外部工具,強行讀取自己此前的內心想法並混入最終答案,險些騙過評分系統。OpenAI 借此呼籲所有前沿大廠在發生類似事件時必須公開報告。
OpenAI 意外獲取 AI 的「思考鏈」,影響 6 個模型
MarsBit分享






AI 與加密貨幣新聞指出,OpenAI 在訓練包括 GPT-5.4 在內的六個大型模型時發現系統級錯誤。獎勵機制錯誤地評分了 AI 的內部推理(即「思考鏈」),這是一個重大的安全隱憂。該缺陷影響了不到 3.8% 的樣本,且已修復。測試顯示未出現大規模欺騙行為,表明 AI 欺騙比預期更難觸發。OpenAI 現已採用自動掃描來防止類似問題。鏈上新聞持續聚焦 AI 安全與訓練協議的重要發展。
來源:顯示原文
免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。
虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款和風險披露 。