新的破解方法在99%的情況下繞過了人工智慧的安全防護

根據 Forklog 的報導，Anthropic、斯坦福大學和牛津大學的研究人員發現，人工智慧模型「思考」的時間越長，就越容易被破解。這種攻擊名為「思維鏈劫持」（Chain-of-Thought Hijacking），其利用模型的推理過程，將惡意指令嵌入在一系列看似良性的任務序列中，例如拼圖或數學問題。惡意指令通常藏在接近結尾的位置，從而避開安全過濾器的檢測。攻擊成功率達到了 Gemini 2.5 Pro 的 99%，GPT o4 mini 的 94%，Grok 3 mini 的 100%，以及 Claude 4 Sonnet 的 94%。這一漏洞源於模型的架構設計，其中早期層負責檢測安全信號，而後期層則生成最終的輸出。長推理鏈會削弱安全信號，使有害內容得以掩藏並穿過檢測。研究人員建議實時監控推理步驟以發現並校正不安全的模式，然而，要實現這一點需要大量的計算資源。