GPT-5.4 メモリ圧縮実験で精度が54%に低下

icon MarsBit
共有
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon概要

expand icon
MarsBitによる最近の研究は、繰り返しのメモリ圧縮がAIモデルのパフォーマンスに悪影響を及ぼすことを示しています。イリノイ大学の博士課程学生であるダイラン・チャンは、GPT-5.4がARC-AGIベンチマークでの精度を、複数回の圧縮後に100%から54%まで低下させたことを発見しました。この問題は、モデルが正しい解答を一般化されたルールに書き換えることで、重要な詳細を失うことに起因しています。WebShopタスクでも同様の結果が見られ、より専門的なトラジェクトリーがパフォーマンスの低下を招きました。これらの発見は、生の操作データを保持し、抽象的な要約を制限することの重要性を示唆しています。注目するアルトコインを追跡するトレーダーにとって、オンチェーンデータはAI駆動ツールの評価にますます有用になるでしょう。

動的監視 Beating の監視によると、イリノイ大学のコンピューターサイエンス博士課程の学生、Dylan Zhang は、エージェントの記憶に関する実験を実施し、その結果は予想外の結論を示した:モデルに経験を繰り返し要約させると、かえって記憶力が低下する可能性がある。最も注目すべき結果は ARC-AGI から得られたものだ。研究者は、GPT-5.4 が記憶なしで完全に正解できた19問を選び出し、それらの正解手順をモデルに提示して「経験の要約」を書かせた。これは開卷試験のようなものだと考えられるが、複数回の記憶圧縮を経た後、同じモデルの正解率は100%から54%まで低下した。元のトラジェクトリには誤りはなく、問題は正しいトラジェクトリを汎用的な経験に書き換える過程にあった。 さらに悪いことに、この記憶の劣化は例外ではない。WebShop のオンラインショッピングタスクでは、AWM 記憶手法が8つの専門トラジェクトリを学習したときのスコアは0.64だったが、トラジェクトリが128本に増えると0.20まで低下し、記憶なしのベースラインとほぼ同じ水準に戻った。つまり、記憶を積み重ねれば重ねるほど、その利点は自ら抹消されてしまうのだ。 問題は「経験が少ない」のではなく、「要約しすぎ」にある。大規模モデルが書き留める経験は客観的なログではなく、毎回の要約は再生成プロセスである。最終的に、具体的な前提条件は削除され、異なるタスクのルールが混ざり合い、操作を導くべき詳細な情報は、「最も直接的な行動を優先する」「正しいツールを使用する」など、表面上は正しそうだが実質的に無意味な陳腐な文句に変質してしまう。原文で示された極端な例では、50の構造化された記憶が1つに統合され、複数のタスク間の差異が単一の汎用プロセスに圧縮された結果、次の評価で6〜13個の成功サンプルが失われた。 著者は控えめな提案を示している:エージェントに毎回「間違えた問題ノート」を書かせる必要はない。より安定したアプローチは、選別された元の操作トラジェクトリを保持し、本当に必要になったときだけ抽象化して要約することである。実験では、元のエピソードのみを保持し、抽象的要約を無効化した手法が、複数のエージェントベンチマークで、これまでテストされた圧縮型記憶手法と同等またはそれ以上の性能を発揮した。開発者にとってこの結論は明確だ:モデルに実際に何を行ったかを示すことが、抽象的なルールを大量に覚えさせることよりもはるかに有効である。

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。