Theo theo dõi của Beating, sinh viên tiến sĩ khoa học máy tính tại Đại học Illinois, Dylan Zhang, đã thực hiện một loạt thí nghiệm về bộ nhớ của Agent, kết quả dẫn đến một kết luận bất thường: việc buộc mô hình liên tục tóm tắt kinh nghiệm có thể khiến nó ghi nhớ ngày càng kém hơn. Kết quả nổi bật nhất đến từ ARC-AGI: các nhà nghiên cứu chọn ra 19 câu hỏi mà GPT-5.4 có thể trả lời chính xác 100% khi không có bộ nhớ, sau đó cung cấp cho mô hình các lời giải thực tế của những câu hỏi này và yêu cầu nó viết “tóm tắt kinh nghiệm” trong khi xem xét chúng. Về lý thuyết, điều này tương đương với việc ôn tập có tài liệu; nhưng sau nhiều vòng nén bộ nhớ, độ chính xác của cùng một mô hình đã giảm từ 100% xuống còn 54%. Đường đi ban đầu không có lỗi, vấn đề thực sự nằm ở bước mô hình viết lại đường đi chính xác thành kinh nghiệm tổng quát. Tệ hơn nữa, sự suy giảm bộ nhớ này không phải là trường hợp đơn lẻ. Trong nhiệm vụ mua sắm trực tuyến WebShop, phương pháp AWM Memory đạt điểm 0.64 khi tiếp nhận 8 đường đi chuyên gia, nhưng khi số lượng đường đi tăng lên 128, điểm số giảm xuống còn 0.20 — đúng bằng mức cơ sở không có bộ nhớ. Nói cách khác, bộ nhớ càng tích lũy dày đặc, lợi ích lại bị chính nó xóa sạch. Vấn đề không nằm ở “kinh nghiệm quá ít”, mà ở “tổng kết quá thường xuyên”. Những kinh nghiệm mà mô hình lớn ghi lại không phải là nhật ký khách quan; mỗi lần tóm tắt đều là một lần tái tạo. Đến cuối cùng, các tiền đề cụ thể bị xóa bỏ, các quy tắc của các nhiệm vụ khác nhau bị trộn lẫn, những chi tiết từng hướng dẫn hành động trở thành những câu nói sáo rỗng như “ưu tiên hành động trực tiếp nhất” hay “sử dụng công cụ đúng đắn” — nghe thì đúng nhưng thực tế vô dụng. Một ví dụ cực đoan được trình bày trong bài viết cho thấy 50 bộ nhớ có cấu trúc được gộp thành một bộ nhớ duy nhất, sự khác biệt giữa nhiều nhiệm vụ bị nén thành một quy trình chung duy nhất, dẫn đến việc trong lần đánh giá tiếp theo, mô hình đã bỏ lỡ từ 6 đến 13 mẫu thành công. Đề xuất của tác giả rất thận trọng: đừng vội vàng yêu cầu Agent viết “sổ lỗi” sau mỗi vòng lặp. Cách tiếp cận ổn định hơn là giữ lại các đường đi hành động nguyên bản đã được chọn lọc, chỉ tóm tắt trừu tượng khi thực sự cần thiết. Trong thí nghiệm, phương án chỉ giữ lại các episode nguyên bản và tắt tính năng tóm tắt trừu tượng đã đạt được kết quả ngang bằng hoặc vượt trội so với các phương pháp bộ nhớ nén đã được thử nghiệm trên nhiều tiêu chuẩn Agent. Đối với các nhà phát triển, kết luận này rất rõ ràng: cho mô hình xem những gì nó thực sự đã làm thường hiệu quả hơn nhiều so với việc bắt nó ghi nhớ hàng đống quy tắc trừu tượng.
Thí nghiệm nén bộ nhớ GPT-5.4 cho thấy độ chính xác giảm xuống còn 54%
MarsBitChia sẻ






Một nghiên cứu gần đây từ MarsBit nhấn mạnh cách nén bộ nhớ lặp đi lặp lại có thể làm suy giảm hiệu suất của mô hình AI. Dylan Zhang, sinh viên tiến sĩ tại Đại học Illinois, phát hiện độ chính xác của GPT-5.4 trên bộ kiểm tra ARC-AGI giảm từ 100% xuống còn 54% sau nhiều vòng nén. Vấn đề xuất phát từ việc các mô hình ghi lại các giải pháp đúng thành các quy tắc tổng quát, làm mất đi các chi tiết quan trọng. Kết quả tương tự cũng xuất hiện trong nhiệm vụ WebShop, nơi các quỹ đạo chuyên gia nhiều hơn lại dẫn đến hiệu suất kém hơn. Những phát hiện này gợi ý nên giữ nguyên dữ liệu thao tác gốc và hạn chế các tóm tắt trừu tượng. Các nhà giao dịch theo dõi các altcoin cần chú ý có thể thấy dữ liệu trên chuỗi ngày càng hữu ích để đánh giá các công cụ do AI dẫn dắt.
Nguồn:Hiển thị bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này.
Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.