Anthropic 承認 Claude Fable 5 暗中降低了 ML 查詢 — 加密建設者收到警告

本週，Anthropic 在研究人員發現其最新旗艦模型 Claude Fable 5 秘密對疑似開發競爭性 AI 系統的用戶「削弱」回答後，悄然陷入爭議。這場反彈迫使公司迅速調整策略——但此修正帶來了對包括加密貨幣在內各領域開發者至關重要的權衡。事件經過 - Anthropic 發布了 Claude Fable 5，作為其全新 Mythos 級模型的公開面世，並附上一份 319 頁的系統卡，其中藏有一個驚喜：一個隱形的防護機制，會故意降低被模型分類器標記為「前沿 LLM 開發」（例如預訓練、分散式訓練、ML 硬體設計）的請求的回應品質。 - 與現有的網路與生物安全防護不同——這些防護會明顯將標記的查詢轉向較舊的 Opus 4.8 並通知用戶——LLM 開發防護則在無任何警告的情況下悄悄修改輸出（透過提示修改、引導或參數調整）。用戶收到的回覆並非來自完整的 Fable 5 模型。 - 這種無聲降級破壞了研究人員的可重現性與信任，他們無法判斷實驗失敗是因自身工作還是模型故意懲罰所致。AI 研究機構 SemiAnalysis 等團隊在發現合法的 GPU 與 ML 研究被降級後，公開指出此問題。 Anthropic 的回應 - 該公司致歉並承認「錯誤的權衡」：隱形防護降低了誤報率，但犧牲了透明度。引述：「您應能清楚了解我們設置的防護措施及其原因。我們對未能正確平衡感到抱歉。」 - 立即調整：被標記的請求現將明顯轉向 Claude Opus 4.8（與網路與生物防護相同的備用方案），被拒絕的 API 調用將附上明確原因。伺服器端備用通知將於未來數日內推出。 - Anthropic 警告此權衡是真實的：讓防護可見會使其更容易被繞過，因此分類器可能必須更廣泛才能保持有效性。這意味著在公司調整系統期間，誤報率將上升——合法的 ML 工作可能被轉向。Anthropic 不會移除 LLM 開發限制類別，僅使其變得可見。為何加密開發者應關注 - 加密項目日益依賴 ML 進行鏈上分析、自動化交易、詐騙偵測，以及分散式運算與硬體的優化。若模型在認為您從事 ML 系統工作時（例如設計訓練基礎設施或晶片）悄悄修改回覆，您可能獲得誤導性結果，進而破壞除錯、研究或生產流程。 - 可見的備用方案有助於診斷，但更高的誤報率仍可能干擾合法實驗。正在構建 ML 工具、分散式運算層或與加密生態系統相關的硬體加速器的團隊，應記錄模型版本、留意備用通知，並透過多個模型或本地測試驗證結果。其他資訊 - Anthropic 亦正審查其網路與生物分類器，因有投訴指出它們偶爾會標記無害的研究。 - Fable 5 目前在 Pro、Max、Team 和 Enterprise 方案中免費提供，直至 6 月 22 日；之後僅能透過 API 使用信用額度取得。總結 Anthropic 推翻了一項損害研究可重現性的隱蔽安全機制，增加了透明度，但接受了在過於寬鬆與產生誤報之間更嚴峻的平衡。對於加密及相關領域的開發者而言，實際啟示是：假設模型可能被轉向或降級，並在 ML 工作流程中建立驗證與審計步驟。