GPT-5.4 میموری کمپریشن تجربہ ظاہر کرتا ہے کہ درستگی 54% تک گر جاتی ہے

icon MarsBit
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
ایک حالیہ مطالعہ جسے MarsBit نے جاری کیا ہے، وہ بتاتا ہے کہ دہرائی گئی میموری کمپریشن AI ماڈل کی کارکردگی کو کیسے نقصان پہنچا سکتی ہے۔ ایلین ژانگ، ایلینوائس یونیورسٹی کے ایک پی ایچ ڈی طالب علم، نے پایا کہ GPT-5.4 کی ARC-AGI بینچ مارک پر درستگی متعدد راؤنڈز کمپریشن کے بعد 100% سے گھٹ کر 54% ہو گئی۔ یہ مسئلہ اس بات سے نکلتا ہے کہ ماڈل درست حل کو عام قواعد میں تبدیل کر دیتے ہیں، جس سے اہم تفصیلات ضائع ہو جاتی ہیں۔ ویب شاپ ٹاسک میں بھی مشابہ نتائج ظاہر ہوئے، جہاں زیادہ ماہر ٹرایجکٹریز نے برتر کارکردگی کا باعث بنی۔ یہ نتائج یہ سفارش کرتے ہیں کہ را و آپریشن ڈیٹا کو برقرار رکھا جائے اور تجسس کے خلاصوں کو محدود رکھا جائے۔ آلٹ کوائنز کو ٹریک کرنے والے ٹریڈرز کے لیے آن-چین ڈیٹا AI ڈرائون ٹولز کا جائزہ لینے میں زیادہ مفید ہوتا جا رہا ہے۔

Beating Monitor کے مطابق، ایلینوائی یونیورسٹی کے کمپیوٹر سائنس کے ڈاکٹری طالب علم ڈائلن زانگ نے ایجینٹ میموری کے تجربات کی ایک سیریز کی جس کے نتائج ایک عجیب نتیجہ ظاہر کرتے ہیں: ماڈل کو تجربات کو بار بار خلاصہ کرنے کے لیے مجبور کرنا اسے مزید خراب کر سکتا ہے۔ ARC-AGI سے سب سے زیادہ توجہ کا مطالبہ کرنے والا نتیجہ یہ تھا: محققین نے GPT-5.4 کے لیے 19 سوالات منتخب کیے جنہیں بے یاد حالت میں وہ سبھی درست طریقے سے حل کر سکتے تھے، اور پھر ان سوالات کے درست حل ماڈل کو دیے گئے تاکہ وہ انہیں دیکھتے ہوئے "تجربات کا خلاصہ" لکھ سکے۔ اس طرح، یہ اس طرح کا ماننا تھا جیسے کہ امتحان میں کتاب کھول کر تیاری کر رہا ہو؛ لیکن متعدد دفعہ میموری کمپریشن کے بعد، اسی ماڈل کی درستگی 100% سے گھٹ کر 54% ہو گئی۔ اصل ٹرایجکٹری میں کوئی غلطی نہیں تھی، حقیقت میں مسئلہ اس مرحلے میں تھا جب ماڈل نے درست ٹرایجکٹری کو عام تجربات میں تبدیل کر دیا۔ اور اس سے بھی بدتر، یہ میموری ڈگریڈیشن صرف اکثر واقعہ نہیں ہے۔ WebShop نیٹ خریداری کے انجام دینے میں، AWM میموری طریقہ 8 راستوں کو شامل کرنے پر 0.64 اسکور حاصل کرتا تھا، لیکن جب راستوں کی تعداد بڑھ کر 128 ہو گئی تو اسکور 0.20 پر گر گیا، جو بالکل بے یاد بنیادی نقطہ پر واپس آ گیا۔ یعنی، جتنا زیادہ میموری جمع کرتے جائیں، اتنا ہی اس کا فائدہ خود خود ختم ہوتا جاتا ہے۔ مسئلہ "تجربات کم ہونا" نہیں بلکہ "خلاصہ لینا زیادہ زور دینا" ہے۔ بڑے ماڈلز جو تجربات لکھتے ہیں وہ客观 日志 نہیں ہوتے، بلکہ ہر خلاصہ ایک نئی پیدائش ہوتا ہے۔ آخر تک، خاص شرائط حذف ہو جاتے ہیں، مختلف کاموں کے قوانین اکٹھے مل جاتے ہیں، اور عمل کو ہدایت دینے والے تفصیلات "سب سے سیدھا عمل اختیار کرنا" اور "درست آلہ استعمال کرنا" جیسے ظاہر میں درست لیکن عمل میں بے فائدہ عام باتوں میں تبدیل ہو جاتے ہیں۔ متن میں ا ek انتہائی مثال دکھائی گئی ہے جس میں 50 منظم معلومات ا ek مرحلے میں اek عام عمل میں ضم کردین گئے، جس سے مختلف کاموں کے فرق دبا دئے گئے، اور اگلے امتحان میں صرف 6 سے 13 کام successfully حل نہ ہونا شروع ہوگئے۔ مصنفین نے بہت پابند راستہ تجویز کiya: انجنٹ کو ہر مرحلے پر "غلط سوالات کا نوٹ" لکھنے پر زور نہ دینا۔ زائد مستحکم طرīقہ چنیدہ اصل آپریشنل ٹرایجکٹرائز رکھنا اور صرف ضرورت پڑنے پر عام خلاصہ بنانا ہے۔ تجربات میں، صرف اصل episoide رکھنے اور عام خلاصہ بند کرنے والے طرīقے نے متعدد انجنٹ بینچمارکس پر تجربہ شدہ کمپرشن مموری طرīقوں سے برابر یا زائد پرفارمنس دکھائى۔ منصوبہ بندوں کے لئے، یہ نتائج بڑھتى واضح ہيں: ماڈل کو واقعى جو کچھ کيا، وى دکھانا، عام قوانین كى طرح كچھ ياد رکھنे كى نسبت عام طور پر زائد فائدemanda هوتا هى۔

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔