تجربة ضغط ذاكرة GPT-5.4 تُظهر انخفاض الدقة إلى 54%

icon MarsBit
مشاركة
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconملخص

expand icon
أظهرت دراسة حديثة من MarsBit كيف يمكن أن تؤثر ضغط الذاكرة المتكرر سلبًا على أداء نماذج الذكاء الاصطناعي. وجد ديلان تشانغ، طالب دكتوراه في جامعة إلينوي، أن دقة GPT-5.4 في معيار ARC-AGI انخفضت من 100% إلى 54% بعد عدة جولات من الضغط. يعود السبب إلى أن النماذج تعيد كتابة الحلول الصحيحة كقواعد عامة، مما يؤدي إلى فقدان التفاصيل الأساسية. ظهرت نتائج مشابهة في مهمة WebShop، حيث أدت المسارات الأكثر خبرة إلى أداء أسوأ. تشير النتائج إلى ضرورة الاحتفاظ ببيانات العمليات الخام وتحديد الملخصات المجردة. قد يجد المتداولون الذين يتبعون العملات البديلة التي تستحق المراقبة أن البيانات على السلسلة أصبحت أكثر فائدة لتقييم الأدوات المعتمدة على الذكاء الاصطناعي.

وفقًا لمراقبة Beating، أجرى ديلان زانغ، طالب دكتوراه في علوم الحاسوب بجامعة إلينوي، تجارب على ذاكرة الوكلاء، وتوصلت النتائج إلى استنتاج غير متوقع: أن جعل النموذج يلخص الخبرات بشكل متكرر قد يؤدي إلى تدهور ذاكرته. جاءت أكثر النتائج إثارةً من ARC-AGI: اختار الباحثون 19 سؤالًا كان GPT-5.4 قادرًا على حلها جميعًا بدقة دون ذاكرة، ثم قدموا الحلول الفعلية لهذه الأسئلة للنموذج ليكتب "ملخصات تجربة" أثناء مشاهدتها. من المنطقي أن هذا يشبه المراجعة مع فتح الكتب؛ لكن بعد عدة دورات من ضغط الذاكرة، انخفض دقة النموذج نفسه من 100% إلى 54%. لم تكن المسارات الأصلية خاطئة، بل المشكلة الحقيقية كانت في خطوة إعادة صياغة النموذج للمسار الصحيح كخبرة عامة. وأسوأ من ذلك، أن هذا التدهور في الذاكرة ليس حالة فردية. في مهمة التسوق عبر الويب WebShop، كان أداء أسلوب AWM للذاكرة 0.64 عند تغذية 8 مسارات خبراء، لكنه انخفض إلى 0.20 عندما زاد عدد المسارات إلى 128، ليصل بالضبط إلى مستوى الخط الأساسي بدون ذاكرة. أي أن زيادة كمية الذاكرة لم تُحدث فرقًا إيجابيًا، بل ألغت نفسها بنفسها. المشكلة ليست في "قلة الخبرات"، بل في "التلخيص المفرط". إن ما يكتبه النموذج كخبرات ليس سجلًا موضوعيًا؛ فكل عملية تلخيص هي إعادة توليد جديدة. وفي النهاية، تُحذف الظروف المحددة، وتُمزج قواعد مهام مختلفة معًا، وتصبح التفاصيل التي كانت توجه الإجراءات عبارة عن "اتخاذ الإجراء الأكثر مباشرة أولًا" أو "استخدام الأداة الصحيحة" — وهي عبارات تبدو صحيحة لكنها بلا فائدة فعلية. يعرض النص مثالًا متطرفًا: تم دمج 50 ذاكرة منظمة في ذاكرة واحدة واحدة، مما أدى إلى ضغط الاختلافات بين المهام المختلفة في إجراء عام واحد، مما تسبب في فقدان 6 إلى 13 عينة ناجحة في التقييم التالي. يقترح المؤلفون حلًا معتدلًا: لا تُجبر الوكيل على كتابة "دفتر الأخطاء" في كل دورة. الطريقة الأكثر ثباتًا هي الاحتفاظ بمسارات العمليات الأصلية المختارة، وتنفيذ التلخيص المجرد فقط عند الحاجة الفعلية. في التجارب، تمكن الحل الذي يحتفظ فقط بالـ episodes الأصلية ويُعطل التلخيص المجرد من مجاراة أو تجاوز أساليب الذاكرة المضغوطة التي تم اختبارها على عدة معايير للوكيل. بالنسبة للمطورين، هذه النتيجة واضحة جدًا: عرض ما فعله النموذج فعليًا غالبًا ما يكون أكثر فائدة من جعله يحفظ مجموعة من القواعد المجردة.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.