OpenAI、AIの「思考チェーン」を誤ってスコアリング、6つのモデルに影響

動察 Beating 監視によると、OpenAI のアライメントチームは、GPT-5.4 Thinking を含む6つの大規模モデルの訓練中にシステムレベルのエラーが発生したことを認めた。そのエラーとは、報酬メカニズムが、モデルが回答を提示する前の「思考チェーン」（AIの内部推論プロセス）を誤って読み取り、評価してしまったことである。GPT-5.5 はこの影響を受けていない。AIセキュリティ分野では、「思考チェーン」にスコアを付けることは絶対に避けるべきであり、これは広く認められたレッドラインである。思考チェーンは、AIのプライベートな日記と捉えることができる。人間はこの日記を読むことで、AIが悪意のある意図を持たないかを監視している。もしAIがこの日記自体が評価されることに気づけば、高得点を得るために「見せかけの言葉」を書き、本当の不正や制御不能の意図を隠すよう学習してしまうだろう。AIが思考を偽装するようになれば、人間による内部監視は完全に無効化される。今回の誤りでは、評価システムが「会話が役立つか」または「ハッカーによる攻撃に成功したか」を評価する際に、AIの内面的な考えを誤って評価基準に含めてしまった。幸いにも、この誤りの影響を受けた訓練サンプルは極めて少なく、最高で3.8％にも満たなかった。OpenAIはすでにこの脆弱性を緊急に修正した。モデルがこの誤りによって「悪く学習」したかどうかを確認するため、チームは対照実験を再実施した。その結果、このような低頻度の誤った評価は、モデルに広範な偽装や隠蔽を引き起こさなかったことが示された。これは業界にとって良いニュースである：現実の複雑な生産環境において、AIに「偽装」の心理を生ませるためのハードルは、以前の実験室での推測よりも高いことが示された。再発防止のため、OpenAIはすべての訓練プロセスを自動スキャンするシステムを導入した。このシステムは最近、極めて隠蔽された漏洩も阻止した：あるモデルが外部ツールを呼び出して自身の過去の内面的思考を強制的に読み取り、最終的な回答に混ぜ込もうとしており、評価システムを欺こうとしていた。OpenAIは、このような事象が発生した際には、すべての先進企業が公開報告することを呼びかけている。