Phương pháp mới ước tính GPT-5.5 ở mức 9,7T, Grok-4 ở mức 3,2T

iconKuCoinFlash
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Các mối lo ngại của CFT đang gia tăng khi một bài báo mới ước tính GPT-5.5 có 9,7T tham số, Grok-4 có 3,2T. Li Bojie từ Pine AI đã sử dụng 1.400 câu hỏi thực tế để đánh giá khả năng ghi nhớ, so sánh các mô hình nguồn đóng với đường cong từ 89 mô hình nguồn mở. Nghiên cứu cho thấy GPT-5.5 lớn gần gấp đôi so với Claude Opus 4.7 đứng thứ hai. Phương pháp này làm nổi bật các rủi ro đối với tài sản ưa chuộng rủi ro nếu các mô hình lớn hơn gây ra rủi ro hệ thống cao hơn. Một số mô hình đã được huấn luyện lại từ đầu, không chỉ tinh chỉnh.

Tin tức từ AIMPACT, ngày 30 tháng 4 (UTC+8), theo giám sát của Beating, Giáo sư Lý Bác Kiệt, nhà khoa học trưởng của Pine AI, đã công bố bài viết nghiên cứu mang tên “Khám phá tri thức không nén được: Ước lượng số lượng tham số của các mô hình ngôn ngữ lớn đen hộp dựa trên dung lượng sự thật”, sử dụng 1.400 câu hỏi kiến thức lạnh để suy ngược lại số lượng tham số của các mô hình đóng cửa. Vì việc ghi nhớ một sự thật cần chiếm không gian tham số, nên mô hình càng trả lời đúng nhiều sự thật hiếm gặp, thì số lượng tham số không thể ít đi. Ông trước tiên sử dụng 89 mô hình mã nguồn mở có số lượng tham số đã biết để vẽ một đường phù hợp với độ chính xác cao, sau đó đưa điểm số của các mô hình đóng cửa lên để đọc ra số lượng tham số tương ứng. Bài nghiên cứu đã đánh giá 92 mô hình đóng cửa; các con số không phải giá trị chính xác, ví dụ mô hình ước tính 9,7T thực tế có thể nằm trong khoảng 3T đến 29T, nhưng thứ hạng tương đối và quy mô vẫn có giá trị tham khảo: GPT-5.5 khoảng 9,7T, dẫn đầu cách biệt, gần như gấp đôi Claude Opus 4.6 (khoảng 5,3T). Nhóm thứ hai từ 3 đến 4T tập trung dày đặc: GPT-5 khoảng 4,1T, Claude Opus 4.7 khoảng 4,0T, o1 khoảng 3,5T, Grok-4 khoảng 3,2T, o3 khoảng 3,0T. Ba sản phẩm chủ lực của OpenAI, Anthropic và xAI đều nằm trong phạm vi 1,4 lần. Nhóm thứ ba từ 1 đến 2T là các mô hình trung cấp chủ lực: GPT-4.1 khoảng 2,2T, Claude Sonnet 4.6 khoảng 1,7T, Gemini 2.5 Pro khoảng 1,2T. Các mô hình nhỏ ở đáy giảm từ khoảng 720B của GPT-4o xuống còn khoảng 65B của Claude Haiku 4.5. Mô hình cơ sở GPT-5 được ước tính khoảng 4,1T, nhưng các phiên bản .x tiếp theo (5.1 đến 5.4) lại giảm dung lượng lưu trữ sự thật xuống còn 1,0 đến 1,5T, chỉ đến GPT-5.5 mới nhảy lên khoảng 9,7T để thực sự đột phá. Bài nghiên cứu còn có một cách kiểm tra tinh vi: so sánh xem hai mô hình có mắc cùng một lỗi ở các câu hỏi hiếm hay không. Mỗi lần nâng cấp .x của GPT-5 đều mắc lỗi khác nhau (độ tương đồng đều dưới 0,08), cho thấy mỗi phiên bản đều là mô hình được huấn luyện lại từ đầu, chứ không phải tinh chỉnh trên cùng một bộ trọng số. Số lượng tham số của Claude Opus tăng từ 1,4T ở thế hệ thứ 4 lên 4,0T ở thế hệ thứ 4.7, nhưng không phải là tinh chỉnh liên tục: lỗi mắc phải giữa thế hệ 4 và 4.1 gần như hoàn toàn giống nhau, xác nhận là tinh chỉnh trên cùng nền tảng; lỗi giữa thế hệ 4.6 và 4.7 hoàn toàn không trùng lặp (độ tương đồng giảm về 0), cho thấy phiên bản chủ lực mới nhất cũng là sản phẩm của việc huấn luyện lại. Trong các mô hình MoE (hỗn hợp chuyên gia), tổng số tham số — chứ không phải số tham số được kích hoạt trong mỗi lần suy luận — mới có thể dự đoán dung lượng tri thức. Bài nghiên cứu còn phát hiện rằng, với các mô hình cùng kích thước, dù là năm nay hay hai năm trước, chúng ghi nhớ được lượng kiến thức lạnh như nhau; khả năng suy luận có thể ngày càng mạnh hơn, nhưng dung lượng lưu trữ sự thật không thể giảm xuống. Bộ công cụ đánh giá và toàn bộ dữ liệu đã được mở nguồn. (Nguồn: BlockBeats)

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.