تجربة ضغط ذاكرة GPT-5.4 تُظهر انخفاض الدقة إلى 54%

وفقًا لمراقبة Beating، أجرى ديلان زانغ، طالب دكتوراه في علوم الحاسوب بجامعة إلينوي، تجارب على ذاكرة الوكلاء، وتوصلت النتائج إلى استنتاج غير متوقع: أن جعل النموذج يلخص الخبرات بشكل متكرر قد يؤدي إلى تدهور ذاكرته. جاءت أكثر النتائج إثارةً من ARC-AGI: اختار الباحثون 19 سؤالًا كان GPT-5.4 قادرًا على حلها جميعًا بدقة دون ذاكرة، ثم قدموا الحلول الفعلية لهذه الأسئلة للنموذج ليكتب "ملخصات تجربة" أثناء مشاهدتها. من المنطقي أن هذا يشبه المراجعة مع فتح الكتب؛ لكن بعد عدة دورات من ضغط الذاكرة، انخفض دقة النموذج نفسه من 100% إلى 54%. لم تكن المسارات الأصلية خاطئة، بل المشكلة الحقيقية كانت في خطوة إعادة صياغة النموذج للمسار الصحيح كخبرة عامة. وأسوأ من ذلك، أن هذا التدهور في الذاكرة ليس حالة فردية. في مهمة التسوق عبر الويب WebShop، كان أداء أسلوب AWM للذاكرة 0.64 عند تغذية 8 مسارات خبراء، لكنه انخفض إلى 0.20 عندما زاد عدد المسارات إلى 128، ليصل بالضبط إلى مستوى الخط الأساسي بدون ذاكرة. أي أن زيادة كمية الذاكرة لم تُحدث فرقًا إيجابيًا، بل ألغت نفسها بنفسها. المشكلة ليست في "قلة الخبرات"، بل في "التلخيص المفرط". إن ما يكتبه النموذج كخبرات ليس سجلًا موضوعيًا؛ فكل عملية تلخيص هي إعادة توليد جديدة. وفي النهاية، تُحذف الظروف المحددة، وتُمزج قواعد مهام مختلفة معًا، وتصبح التفاصيل التي كانت توجه الإجراءات عبارة عن "اتخاذ الإجراء الأكثر مباشرة أولًا" أو "استخدام الأداة الصحيحة" — وهي عبارات تبدو صحيحة لكنها بلا فائدة فعلية. يعرض النص مثالًا متطرفًا: تم دمج 50 ذاكرة منظمة في ذاكرة واحدة واحدة، مما أدى إلى ضغط الاختلافات بين المهام المختلفة في إجراء عام واحد، مما تسبب في فقدان 6 إلى 13 عينة ناجحة في التقييم التالي. يقترح المؤلفون حلًا معتدلًا: لا تُجبر الوكيل على كتابة "دفتر الأخطاء" في كل دورة. الطريقة الأكثر ثباتًا هي الاحتفاظ بمسارات العمليات الأصلية المختارة، وتنفيذ التلخيص المجرد فقط عند الحاجة الفعلية. في التجارب، تمكن الحل الذي يحتفظ فقط بالـ episodes الأصلية ويُعطل التلخيص المجرد من مجاراة أو تجاوز أساليب الذاكرة المضغوطة التي تم اختبارها على عدة معايير للوكيل. بالنسبة للمطورين، هذه النتيجة واضحة جدًا: عرض ما فعله النموذج فعليًا غالبًا ما يكون أكثر فائدة من جعله يحفظ مجموعة من القواعد المجردة.