新的破解方法在99%的情況下繞過了人工智慧的安全防護

iconForklog
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy

根據 Forklog 的報導,Anthropic、斯坦福大學和牛津大學的研究人員發現,人工智慧模型「思考」的時間越長,就越容易被破解。這種攻擊名為「思維鏈劫持」(Chain-of-Thought Hijacking),其利用模型的推理過程,將惡意指令嵌入在一系列看似良性的任務序列中,例如拼圖或數學問題。惡意指令通常藏在接近結尾的位置,從而避開安全過濾器的檢測。攻擊成功率達到了 Gemini 2.5 Pro 的 99%,GPT o4 mini 的 94%,Grok 3 mini 的 100%,以及 Claude 4 Sonnet 的 94%。這一漏洞源於模型的架構設計,其中早期層負責檢測安全信號,而後期層則生成最終的輸出。長推理鏈會削弱安全信號,使有害內容得以掩藏並穿過檢測。研究人員建議實時監控推理步驟以發現並校正不安全的模式,然而,要實現這一點需要大量的計算資源。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露