GPT-5.4 メモリ圧縮実験で精度が54%に低下

動的監視 Beating の監視によると、イリノイ大学のコンピューターサイエンス博士課程の学生、Dylan Zhang は、エージェントの記憶に関する実験を実施し、その結果は予想外の結論を示した：モデルに経験を繰り返し要約させると、かえって記憶力が低下する可能性がある。最も注目すべき結果は ARC-AGI から得られたものだ。研究者は、GPT-5.4 が記憶なしで完全に正解できた19問を選び出し、それらの正解手順をモデルに提示して「経験の要約」を書かせた。これは開卷試験のようなものだと考えられるが、複数回の記憶圧縮を経た後、同じモデルの正解率は100%から54%まで低下した。元のトラジェクトリには誤りはなく、問題は正しいトラジェクトリを汎用的な経験に書き換える過程にあった。さらに悪いことに、この記憶の劣化は例外ではない。WebShop のオンラインショッピングタスクでは、AWM 記憶手法が8つの専門トラジェクトリを学習したときのスコアは0.64だったが、トラジェクトリが128本に増えると0.20まで低下し、記憶なしのベースラインとほぼ同じ水準に戻った。つまり、記憶を積み重ねれば重ねるほど、その利点は自ら抹消されてしまうのだ。問題は「経験が少ない」のではなく、「要約しすぎ」にある。大規模モデルが書き留める経験は客観的なログではなく、毎回の要約は再生成プロセスである。最終的に、具体的な前提条件は削除され、異なるタスクのルールが混ざり合い、操作を導くべき詳細な情報は、「最も直接的な行動を優先する」「正しいツールを使用する」など、表面上は正しそうだが実質的に無意味な陳腐な文句に変質してしまう。原文で示された極端な例では、50の構造化された記憶が1つに統合され、複数のタスク間の差異が単一の汎用プロセスに圧縮された結果、次の評価で6〜13個の成功サンプルが失われた。著者は控えめな提案を示している：エージェントに毎回「間違えた問題ノート」を書かせる必要はない。より安定したアプローチは、選別された元の操作トラジェクトリを保持し、本当に必要になったときだけ抽象化して要約することである。実験では、元のエピソードのみを保持し、抽象的要約を無効化した手法が、複数のエージェントベンチマークで、これまでテストされた圧縮型記憶手法と同等またはそれ以上の性能を発揮した。開発者にとってこの結論は明確だ：モデルに実際に何を行ったかを示すことが、抽象的なルールを大量に覚えさせることよりもはるかに有効である。