Phương pháp mới ước tính GPT-5.5 ở mức 9,7T, Grok-4 ở mức 3,2T

Tin tức từ AIMPACT, ngày 30 tháng 4 (UTC+8), theo giám sát của Beating, Giáo sư Lý Bác Kiệt, nhà khoa học trưởng của Pine AI, đã công bố bài viết nghiên cứu mang tên “Khám phá tri thức không nén được: Ước lượng số lượng tham số của các mô hình ngôn ngữ lớn đen hộp dựa trên dung lượng sự thật”, sử dụng 1.400 câu hỏi kiến thức lạnh để suy ngược lại số lượng tham số của các mô hình đóng cửa. Vì việc ghi nhớ một sự thật cần chiếm không gian tham số, nên mô hình càng trả lời đúng nhiều sự thật hiếm gặp, thì số lượng tham số không thể ít đi. Ông trước tiên sử dụng 89 mô hình mã nguồn mở có số lượng tham số đã biết để vẽ một đường phù hợp với độ chính xác cao, sau đó đưa điểm số của các mô hình đóng cửa lên để đọc ra số lượng tham số tương ứng. Bài nghiên cứu đã đánh giá 92 mô hình đóng cửa; các con số không phải giá trị chính xác, ví dụ mô hình ước tính 9,7T thực tế có thể nằm trong khoảng 3T đến 29T, nhưng thứ hạng tương đối và quy mô vẫn có giá trị tham khảo: GPT-5.5 khoảng 9,7T, dẫn đầu cách biệt, gần như gấp đôi Claude Opus 4.6 (khoảng 5,3T). Nhóm thứ hai từ 3 đến 4T tập trung dày đặc: GPT-5 khoảng 4,1T, Claude Opus 4.7 khoảng 4,0T, o1 khoảng 3,5T, Grok-4 khoảng 3,2T, o3 khoảng 3,0T. Ba sản phẩm chủ lực của OpenAI, Anthropic và xAI đều nằm trong phạm vi 1,4 lần. Nhóm thứ ba từ 1 đến 2T là các mô hình trung cấp chủ lực: GPT-4.1 khoảng 2,2T, Claude Sonnet 4.6 khoảng 1,7T, Gemini 2.5 Pro khoảng 1,2T. Các mô hình nhỏ ở đáy giảm từ khoảng 720B của GPT-4o xuống còn khoảng 65B của Claude Haiku 4.5. Mô hình cơ sở GPT-5 được ước tính khoảng 4,1T, nhưng các phiên bản .x tiếp theo (5.1 đến 5.4) lại giảm dung lượng lưu trữ sự thật xuống còn 1,0 đến 1,5T, chỉ đến GPT-5.5 mới nhảy lên khoảng 9,7T để thực sự đột phá. Bài nghiên cứu còn có một cách kiểm tra tinh vi: so sánh xem hai mô hình có mắc cùng một lỗi ở các câu hỏi hiếm hay không. Mỗi lần nâng cấp .x của GPT-5 đều mắc lỗi khác nhau (độ tương đồng đều dưới 0,08), cho thấy mỗi phiên bản đều là mô hình được huấn luyện lại từ đầu, chứ không phải tinh chỉnh trên cùng một bộ trọng số. Số lượng tham số của Claude Opus tăng từ 1,4T ở thế hệ thứ 4 lên 4,0T ở thế hệ thứ 4.7, nhưng không phải là tinh chỉnh liên tục: lỗi mắc phải giữa thế hệ 4 và 4.1 gần như hoàn toàn giống nhau, xác nhận là tinh chỉnh trên cùng nền tảng; lỗi giữa thế hệ 4.6 và 4.7 hoàn toàn không trùng lặp (độ tương đồng giảm về 0), cho thấy phiên bản chủ lực mới nhất cũng là sản phẩm của việc huấn luyện lại. Trong các mô hình MoE (hỗn hợp chuyên gia), tổng số tham số — chứ không phải số tham số được kích hoạt trong mỗi lần suy luận — mới có thể dự đoán dung lượng tri thức. Bài nghiên cứu còn phát hiện rằng, với các mô hình cùng kích thước, dù là năm nay hay hai năm trước, chúng ghi nhớ được lượng kiến thức lạnh như nhau; khả năng suy luận có thể ngày càng mạnh hơn, nhưng dung lượng lưu trữ sự thật không thể giảm xuống. Bộ công cụ đánh giá và toàn bộ dữ liệu đã được mở nguồn. (Nguồn: BlockBeats)