GPT-5.4 میموری کمپریشن تجربہ ظاہر کرتا ہے کہ درستگی 54% تک گر جاتی ہے

Beating Monitor کے مطابق، ایلینوائی یونیورسٹی کے کمپیوٹر سائنس کے ڈاکٹری طالب علم ڈائلن زانگ نے ایجینٹ میموری کے تجربات کی ایک سیریز کی جس کے نتائج ایک عجیب نتیجہ ظاہر کرتے ہیں: ماڈل کو تجربات کو بار بار خلاصہ کرنے کے لیے مجبور کرنا اسے مزید خراب کر سکتا ہے۔ ARC-AGI سے سب سے زیادہ توجہ کا مطالبہ کرنے والا نتیجہ یہ تھا: محققین نے GPT-5.4 کے لیے 19 سوالات منتخب کیے جنہیں بے یاد حالت میں وہ سبھی درست طریقے سے حل کر سکتے تھے، اور پھر ان سوالات کے درست حل ماڈل کو دیے گئے تاکہ وہ انہیں دیکھتے ہوئے "تجربات کا خلاصہ" لکھ سکے۔ اس طرح، یہ اس طرح کا ماننا تھا جیسے کہ امتحان میں کتاب کھول کر تیاری کر رہا ہو؛ لیکن متعدد دفعہ میموری کمپریشن کے بعد، اسی ماڈل کی درستگی 100% سے گھٹ کر 54% ہو گئی۔ اصل ٹرایجکٹری میں کوئی غلطی نہیں تھی، حقیقت میں مسئلہ اس مرحلے میں تھا جب ماڈل نے درست ٹرایجکٹری کو عام تجربات میں تبدیل کر دیا۔ اور اس سے بھی بدتر، یہ میموری ڈگریڈیشن صرف اکثر واقعہ نہیں ہے۔ WebShop نیٹ خریداری کے انجام دینے میں، AWM میموری طریقہ 8 راستوں کو شامل کرنے پر 0.64 اسکور حاصل کرتا تھا، لیکن جب راستوں کی تعداد بڑھ کر 128 ہو گئی تو اسکور 0.20 پر گر گیا، جو بالکل بے یاد بنیادی نقطہ پر واپس آ گیا۔ یعنی، جتنا زیادہ میموری جمع کرتے جائیں، اتنا ہی اس کا فائدہ خود خود ختم ہوتا جاتا ہے۔ مسئلہ "تجربات کم ہونا" نہیں بلکہ "خلاصہ لینا زیادہ زور دینا" ہے۔ بڑے ماڈلز جو تجربات لکھتے ہیں وہ客观日志 نہیں ہوتے، بلکہ ہر خلاصہ ایک نئی پیدائش ہوتا ہے۔ آخر تک، خاص شرائط حذف ہو جاتے ہیں، مختلف کاموں کے قوانین اکٹھے مل جاتے ہیں، اور عمل کو ہدایت دینے والے تفصیلات "سب سے سیدھا عمل اختیار کرنا" اور "درست آلہ استعمال کرنا" جیسے ظاہر میں درست لیکن عمل میں بے فائدہ عام باتوں میں تبدیل ہو جاتے ہیں۔ متن میں ا ek انتہائی مثال دکھائی گئی ہے جس میں 50 منظم معلومات ا ek مرحلے میں اek عام عمل میں ضم کردین گئے، جس سے مختلف کاموں کے فرق دبا دئے گئے، اور اگلے امتحان میں صرف 6 سے 13 کام successfully حل نہ ہونا شروع ہوگئے۔ مصنفین نے بہت پابند راستہ تجویز کiya: انجنٹ کو ہر مرحلے پر "غلط سوالات کا نوٹ" لکھنے پر زور نہ دینا۔ زائد مستحکم طرīقہ چنیدہ اصل آپریشنل ٹرایجکٹرائز رکھنا اور صرف ضرورت پڑنے پر عام خلاصہ بنانا ہے۔ تجربات میں، صرف اصل episoide رکھنے اور عام خلاصہ بند کرنے والے طرīقے نے متعدد انجنٹ بینچمارکس پر تجربہ شدہ کمپرشن مموری طرīقوں سے برابر یا زائد پرفارمنس دکھائى۔ منصوبہ بندوں کے لئے، یہ نتائج بڑھتى واضح ہيں: ماڈل کو واقعى جو کچھ کيا، وى دکھانا، عام قوانین كى طرح كچھ ياد رکھنे كى نسبت عام طور پر زائد فائدemanda هوتا هى۔