AIセーフティに関するロヒンとのインタビューは非常に興味深かった。 私はリスクについてより悲観的で、すべてに賛成しているわけではないが、彼の考え方の捉え方には共感する。 最も異なる点は、モデルの事前学習データからアライメント研究を除外すること。その理由は、AIシステムに私たちがそれらを制御するための完全な手順を渡すべきでないという論理だ。 しかし歴史は、このアプローチが失敗することを示している。暗号学の分野でも同様の議論が行われた。セキュリティを隠蔽に頼ることは機能しない。オープンなスキーム、オープンな標準、オープンな研究が必要だ。 要するに、ケルクホフスの原理:鍵を隠せ、アルゴリズムは隠すな。 アライメントにも同じ原則が適用されるべきだ。モデルを私たちの最良のセーフティ研究で訓練し、それらをその情報から隔離すべきではない。 セーフティに取り組んでいる方々に正直な質問:事前学習からこのデータを除外する方向に実際にシフトが起きているのか?それがコンセンサスになりつつあるのか?本当に気になります。

