與 Rohin 關於 AI 安全的訪談非常有趣。 我對風險更為悲觀,也不完全同意他的所有觀點,但我欣賞他思考問題的方式。 我最不同意的地方是:將對齊研究排除在模型的預訓練數據之外,理由是我們不應將如何控制 AI 系統的完整方案交給它們。 歷史表明這會失敗。我們在密碼學中也曾進行過同樣的辯論。依賴隱藏來保障安全是行不通的。你需要開放的方案、開放的標準、開放的研究。 基本上就是 Kerckhoffs 原則:隱藏密鑰,而非演算法。 對齊也應如此:讓模型接受我們最佳的安全研究,而不是將其屏蔽。 真心想問從事安全工作的人:是否真的出現了將此類數據排除在預訓練之外的趨勢?這是否正成為共識?我真的很想知道。

