Wang Guan, cựu sinh viên Thanh Hoa, đạt thành tích SOTA với HRM-Text chỉ với 1/900 token và 1/432 compute

Phá vỡ mô hình đào tạo trước truyền thống, đội ngũ của Vương Quán, cựu sinh viên sinh năm 2000 của Đại học Thanh Hoa, lại ra mắt tác phẩm mới:

Họ sử dụng mô hình vòng lặp phân tầng (HRM) thay thế Transformer tiêu chuẩn, đề xuất HRM-Text – một mô hình tiền huấn luyện hiệu quả vượt qua giới hạn Scaling.

Tsinghua

Liên kết bài báo: https://arxiv.org/abs/2605.20613

HRM-Text vẫn đạt được hiệu suất tương đương với các mô hình mã nguồn mở có 2B đến 7B tham số, trong khi chỉ sử dụng khoảng 100-900 lần ít token huấn luyện hơn và 96-432 lần ít lượng tính toán ước tính so với mô hình baseline tiêu chuẩn.

Đồng thời, với 1B tham số, 40B token không lặp lại và chi phí huấn luyện khoảng 1.500 USD, HRM-Text đã đạt được các kết quả sau trên các bộ kiểm tra chuẩn chính: MMLU 60,7%, ARC-C 81,9%, DROP 82,2%, GSM8K 84,5%, MATH 56,2%.

Tsinghua

Hình | Hiệu suất tiền huấn luyện.

Trên cơ sở này, họ明确提出: tiền kiến trúc cấu trúc và mục tiêu huấn luyện có mục tiêu có thể làm giảm đáng kể ngưỡng tiền huấn luyện. Phương án huấn luyện này có thể làm cho việc huấn luyện mô hình nền tảng từ đầu trở nên khả thi.

HRM-Text được thiết kế như thế nào?

Việc tiền huấn luyện mô hình ngôn ngữ lớn (LLM) ngày càng phụ thuộc vào một số ít tổ chức có đủ tài nguyên tính toán và dữ liệu. Việc huấn luyện một mô hình nền tảng cạnh tranh thường đòi hỏi hàng nghìn tỷ token, hàng ngàn GPU, và thậm chí hàng chục triệu đô la Mỹ cho chi phí tính toán.

Tuy nhiên, mô hình huấn luyện hiện tại không hiệu quả, vì một lượng lớn tính toán bị tiêu tốn vào các token không liên quan như lời nhắc, điền định dạng và nhiễu trang web, khiến phần lớn năng lực huấn luyện không trực tiếp phục vụ cho suy luận.

Trong công việc này, nhóm nghiên cứu đã thiết kế lại kiến trúc và mục tiêu huấn luyện để việc tiền huấn luyện HRM-Text trở nên hiệu quả hơn.

Kiến trúc: Sử dụng mô hình vòng lặp phân tầng với hai thang thời gian, chia tính toán thành module H chậm và module L nhanh. Trong khi Transformer tiêu chuẩn chỉ thực hiện một lần lan truyền thuận cho mỗi token, HRM thực hiện nhiều vòng cập nhật đệ quy trên cùng một token. Các module H và L mỗi module chỉ chiếm một nửa tham số cốt lõi của đệ quy, tổng lượng tính toán tương đương với việc triển khai đệ quy bốn lần trên cùng một bộ tham số, tăng độ sâu tính toán mà không làm tăng số lượng tham số.

Mục tiêu huấn luyện: Không còn sử dụng phương pháp tiền huấn luyện tự hồi quy toàn bộ văn bản truyền thống, mà trực tiếp huấn luyện trên các cặp chỉ dẫn-đáp án, chỉ tính tổn thất cho phần đáp án, đồng thời kết hợp với mặt nạ PrefixLM để phần chỉ dẫn chú ý hai chiều và phần đáp án được tạo ra theo mặt nạ nhân quả.

Tsinghua

Hình | Kiến trúc HRM-Text.

Để tăng cường độ ổn định của quá trình huấn luyện lặp lại, nhóm nghiên cứu đã giới thiệu MagicNorm và Warmup Deep Credit Assignment.

MagicNorm là một chiến lược chuẩn hóa hỗn hợp, tận dụng sự bất đối xứng giữa độ sâu tính toán thuận và ngược trong Truncated BPTT, sử dụng PreNorm bên trong mô-đun và bổ sung thêm chuẩn hóa tại đầu ra mô-đun, nhằm nâng cao độ ổn định khi huấn luyện chuỗi đệ quy sâu.

Warmup Deep Credit Assignment trong giai đoạn đầu huấn luyện chỉ truyền gradient trở lại 2 bước lặp cuối cùng, sau đó mở rộng tuyến tính lên 5 bước cuối. Cơ chế huấn luyện này giúp mô hình hội tụ ổn định trên các đường tín dụng ngắn hơn, sau đó dần dần giới thiệu các mối phụ thuộc dài hơn.

Hiệu quả thế nào?

Kết quả thí nghiệm cho thấy HRM-Text có lợi thế rõ rệt về hiệu quả kiến trúc, mục tiêu huấn luyện và hiệu suất tổng thể.

1. Trong điều kiện sức mạnh tính toán cố định, kiến trúc lặp có hiệu quả hơn không?

Kết quả cho thấy, trong điều kiện căn chỉnh FLOPs, HRM 1B vượt trội hơn Transformer 1B, Transformer 3B, Looped Transformer 1B và RINS 1B trên hầu hết các bộ chuẩn; sự so sánh với TRM cũng cho thấy HRM có quá trình huấn luyện ổn định hơn.

Tsinghua

Hình | So sánh hiệu suất và độ ổn định với mô hình Transformer. HRM duy trì động lực huấn luyện ổn định ở mọi quy mô, trong khi mô hình Transformer gặp tình trạng không ổn định nghiêm trọng ở quy mô 1 tỷ tham số. Ngoài ra, ở quy mô 0,6B, HRM chỉ cần ít hơn 2 lần lượng tính toán so với mô hình Transformer để đạt được hiệu suất cạnh tranh trên hầu hết các bộ dữ liệu chuẩn.

2. Mục tiêu hoàn thành nhiệm vụ và PrefixLM có hữu ích không

Các thí nghiệm xóa bỏ cho thấy, trong điều kiện căn chỉnh FLOPs, MMLU của Transformer 1B tăng dần từ 40.55 trong mô hình tự hồi quy tiêu chuẩn, lên 47.72 sau khi thêm mục tiêu hoàn thành nhiệm vụ, 53.15 sau khi bổ sung PrefixLM, và đạt 60.73 khi chuyển sang kiến trúc HRM.

Tsinghua

Hình | So sánh hiệu suất giữa các kiến trúc mô hình và mục tiêu huấn luyện khác nhau

3. Hiệu suất của HRM-Text so với các mô hình mở hiện đại như thế nào

HRM-Text 1B đạt điểm lần lượt là 60,7; 81,9; 82,2; 84,5 và 56,2 trên các bộ dữ liệu MMLU, ARC-C, DROP, GSM8K và MATH. So với các mô hình mở có ngân sách đào tạo lớn hơn nhiều, nó chỉ sử dụng 40 tỷ token duy nhất và 1 tỷ tham số để đạt được hiệu năng trong khoảng từ 2B đến 7B của các mô hình mã nguồn mở; số lượng token cần đào tạo ít nhất giảm 900 lần và chi phí tính toán ít nhất giảm 432 lần.

Tsinghua

Hình | Kết quả đánh giá của HRM-Text 1B so với các mô hình mã nguồn mở và mô hình trọng số mở cùng thời kỳ

4. Cấu trúc lặp có mang lại độ sâu hiệu quả lớn hơn không?

Kết quả cho thấy, Transformer tiêu chuẩn và Looped Transformer đạt sự ổn định ở các lớp nông hơn, trong khi HRM vẫn duy trì sự thay đổi rõ rệt giữa các khối biểu diễn, độ tương đồng cosin thấp hơn và giá trị KL của logit lens cao hơn ở các lớp sâu hơn.

Tsinghua

Hình | Phân tích độ sâu hiệu quả.

Tsinghua

Hình | Phân tích KL Logit Lens từng lớp.

Hạn chế và hướng phát triển trong tương lai

Mặc dù HRM-Text đã thể hiện hiệu suất mạnh mẽ trong các nhiệm vụ đòi hỏi nhiều tính toán, phương pháp này vẫn còn những hạn chế và đặt ra các hướng nghiên cứu trong tương lai.

1. Phân tách giữa "tri thức" và "suy luận"

Hiện tại, phạm vi kiến thức thực tế rộng hơn vẫn chủ yếu phụ thuộc vào quy mô mô hình và độ rộng dữ liệu. HRM-Text chỉ được huấn luyện trên 40 tỷ token duy nhất, và các nguồn kiến thức rõ ràng chỉ chiếm một phần trong dữ liệu hỗn hợp được định dạng cho nhiệm vụ. Trong tương lai, các nhà nghiên cứu cần thiết kế riêng biệt phần lõi suy luận gọn nhẹ với bộ lưu trữ sự thật bên ngoài, giao phạm vi kiến thức cho các bộ ngữ liệu được chọn lọc, mô-đun tăng cường truy vấn hoặc bộ nhớ có thể học được.

2. Thời gian tính toán thích ứng

Việc lập lịch lặp lại của HRM-Text mang lại độ sâu tuần tự hiệu quả lớn hơn, nhưng điều này cũng có nghĩa là mô hình cần thực hiện một số bước đệ quy cố định trong quá trình suy luận. Trong tương lai, một hướng đáng để khám phá là giới thiệu cơ chế tính toán thích ứng, cho phép các mẫu đơn giản dừng tính toán sớm hơn và giữ nguyên ngân sách lặp lại đầy đủ cho các mẫu khó khăn, từ đó giảm chi phí suy luận.

3. Phạm vi xác minh quy mô hiện tại vẫn còn hạn chế

Các thí nghiệm scaling hiện tại chỉ bao gồm nhóm đối chứng Transformer với 3 tỷ tham số và HRM-Text với 1 tỷ tham số. Nhóm nghiên cứu cho biết, liệu lợi thế về hiệu suất tương tự có vẫn được duy trì ở quy mô mô hình lớn hơn vẫn cần được xác minh thêm trong các công việc tương lai.

4. PrefixLM và khung推理

Hiện tại, PrefixLM vẫn gặp một số hạn chế về mặt kỹ thuật trong quá trình triển khai thực tế. Mặc dù nó có thể chạy trên các khung推理 sinh văn bản tiêu chuẩn như vLLM, nhưng điều này yêu cầu khung phải hỗ trợ mặt nạ chú ý tùy chỉnh trong giai đoạn prefill. Nếu mở rộng nó sang các cảnh hội thoại đa vòng, cần thiết kế thêm cơ chế KV-cache để đảm bảo tính khả dụng hai chiều bên trong đoạn người dùng, đồng thời vẫn duy trì ràng buộc nhân quả trong quá trình sinh của trợ lý.

Để biết thêm chi tiết kỹ thuật, vui lòng tham khảo bài báo gốc.

Bài viết này đến từ tài khoản WeChat "Academic Headline" (ID: SciTouTiao), tác giả: Xia Qiansi