Thí nghiệm nén bộ nhớ GPT-5.4 cho thấy độ chính xác giảm xuống còn 54%

Theo theo dõi của Beating, sinh viên tiến sĩ khoa học máy tính tại Đại học Illinois, Dylan Zhang, đã thực hiện một loạt thí nghiệm về bộ nhớ của Agent, kết quả dẫn đến một kết luận bất thường: việc buộc mô hình liên tục tóm tắt kinh nghiệm có thể khiến nó ghi nhớ ngày càng kém hơn. Kết quả nổi bật nhất đến từ ARC-AGI: các nhà nghiên cứu chọn ra 19 câu hỏi mà GPT-5.4 có thể trả lời chính xác 100% khi không có bộ nhớ, sau đó cung cấp cho mô hình các lời giải thực tế của những câu hỏi này và yêu cầu nó viết “tóm tắt kinh nghiệm” trong khi xem xét chúng. Về lý thuyết, điều này tương đương với việc ôn tập có tài liệu; nhưng sau nhiều vòng nén bộ nhớ, độ chính xác của cùng một mô hình đã giảm từ 100% xuống còn 54%. Đường đi ban đầu không có lỗi, vấn đề thực sự nằm ở bước mô hình viết lại đường đi chính xác thành kinh nghiệm tổng quát. Tệ hơn nữa, sự suy giảm bộ nhớ này không phải là trường hợp đơn lẻ. Trong nhiệm vụ mua sắm trực tuyến WebShop, phương pháp AWM Memory đạt điểm 0.64 khi tiếp nhận 8 đường đi chuyên gia, nhưng khi số lượng đường đi tăng lên 128, điểm số giảm xuống còn 0.20 — đúng bằng mức cơ sở không có bộ nhớ. Nói cách khác, bộ nhớ càng tích lũy dày đặc, lợi ích lại bị chính nó xóa sạch. Vấn đề không nằm ở “kinh nghiệm quá ít”, mà ở “tổng kết quá thường xuyên”. Những kinh nghiệm mà mô hình lớn ghi lại không phải là nhật ký khách quan; mỗi lần tóm tắt đều là một lần tái tạo. Đến cuối cùng, các tiền đề cụ thể bị xóa bỏ, các quy tắc của các nhiệm vụ khác nhau bị trộn lẫn, những chi tiết từng hướng dẫn hành động trở thành những câu nói sáo rỗng như “ưu tiên hành động trực tiếp nhất” hay “sử dụng công cụ đúng đắn” — nghe thì đúng nhưng thực tế vô dụng. Một ví dụ cực đoan được trình bày trong bài viết cho thấy 50 bộ nhớ có cấu trúc được gộp thành một bộ nhớ duy nhất, sự khác biệt giữa nhiều nhiệm vụ bị nén thành một quy trình chung duy nhất, dẫn đến việc trong lần đánh giá tiếp theo, mô hình đã bỏ lỡ từ 6 đến 13 mẫu thành công. Đề xuất của tác giả rất thận trọng: đừng vội vàng yêu cầu Agent viết “sổ lỗi” sau mỗi vòng lặp. Cách tiếp cận ổn định hơn là giữ lại các đường đi hành động nguyên bản đã được chọn lọc, chỉ tóm tắt trừu tượng khi thực sự cần thiết. Trong thí nghiệm, phương án chỉ giữ lại các episode nguyên bản và tắt tính năng tóm tắt trừu tượng đã đạt được kết quả ngang bằng hoặc vượt trội so với các phương pháp bộ nhớ nén đã được thử nghiệm trên nhiều tiêu chuẩn Agent. Đối với các nhà phát triển, kết luận này rất rõ ràng: cho mô hình xem những gì nó thực sự đã làm thường hiệu quả hơn nhiều so với việc bắt nó ghi nhớ hàng đống quy tắc trừu tượng.