OpenAI、AIモデルの推論を偶然評価し、監視可能性の損失はなしと判明

OpenAIは、GPT-5.4 ThinkingおよびさまざまなGPT-5.4のバージョンを含む複数のAIモデルが、強化学習のトレーニング中に意図せずチェインオブシング（思考の連鎖）の評価を経験したことを公表しました。内部分析の結果、これらのモデルが作業プロセスを示す能力に顕著な低下は見られませんでした。

これらの事象は、最も影響を受けたモデルにおいて、訓練サンプルの3.8%未満に影響を与えました。訓練プロセスの一部が、モデルの最終出力だけでなく、内部の推論ステップに基づいて誤って報酬やペナルティを付与しました。

実際に何が起こったのか

誤った評価は限定的な形で行われた。一部のトレーニングでは、経路の有用性が報酬として与えられ、モデルの推論パスの役立つ様子に thumbs-up が与えられた。他の場合は、思考プロセス内の不要なプロンプトにペナルティが課された。最も注目すべきテストケースでは、CoTにおける不正行為への言及に対して約2％のペナルティ発生率が示された。

OpenAIの内部チームは、推論の透明性への影響を検証するために、すべての強化学習の実行に対して自動スキャンを実施しました。モデルは依然として論理的推論を信頼性高く追跡でき、潜在的な不一致を検出する能力は機能的に維持されました。

セーフティエコシステムが対応します

METR、Apollo Research、Redwood Researchなどの外部機関が、本調査結果に知見を提供しました。Redwood Researchは、小さなインシデントが監視可能性に悪影響を及ぼさなかったことを認めた一方で、チェーンオブシースリーニングを安全対策として用いることは本質的な脆弱性を内在していると指摘しました。

Anthropicは2026年4月に、自社モデルにおける類似の動向を検討したレポートを公開しました。OpenAIは、今後の採点エラーを防ぐため、2025年12月以降、検出対策を強化してきました。同社は現在、CoT採点汚染が大規模な学習に影響を与える前に検出するための自動検出システムと内部セーフガードを導入しました。

これは暗号資産とAIトークンにどのような意味を持つのか

発表後、AI関連の仮想通貨資産には即時の市場反応は見られませんでした。AIモデルは、スマートコントラクト監査、分散型AIエージェント、自動取引システムなど、正しく透明なAIに依存するブロックチェーンアプリケーションにますます組み込まれています。

モニタリング可能性が維持されたという点が、AI統合型暗号プロジェクトの構築または投資を行うすべての人の主な教訓である。これは、推論モデル周辺のセーフティインフラが問題がシステム全体に広がる前にそれを検出していることを意味する。