Sapient mở nguồn mô hình HRM-Text 1 tỷ tham số với chi phí đào tạo thấp hơn 1.300 lần

Tin tức từ AIMPACT, ngày 19 tháng 5 (UTC+8), theo giám sát của Beating, Sapient Intelligence đã mở nguồn mô hình nền tảng sinh văn bản với 1 tỷ tham số (1B) mang tên HRM-Text. Đây là mô hình chỉ được tiền huấn luyện, dựa trên kiến trúc Mô hình suy luận phân cấp (HRM). Bằng cách giới thiệu suy luận trong không gian tiềm ẩn ở tầng dưới của kiến trúc, mô hình này đã giảm đáng kể mức tiêu tốn năng lực tính toán trong giai đoạn tiền huấn luyện từ 130 đến 600 lần. Cụ thể, HRM-Text chỉ sử dụng 40 tỷ (40B) Token có cấu trúc để hoàn thành tiền huấn luyện, lượng dữ liệu này chỉ bằng khoảng một phần nghìn so với các mô hình thông thường cùng cấp độ. Kết quả thử nghiệm thực tế cho thấy, chỉ cần hai máy chủ H100 mỗi máy 8 card, mất khoảng 46 giờ để huấn luyện từ đầu phiên bản 1B với chi phí tính toán khoảng 1.472 USD; trong khi phiên bản 0.6B chỉ cần một nút chạy trong 50 giờ với chi phí phần cứng khoảng 800 USD. Toàn bộ khung công cụ kỹ thuật, bao gồm trích xuất dữ liệu, đóng gói chuỗi và huấn luyện phân tán PyTorch, đều đã được mở nguồn đồng thời. Nền tảng cho việc giảm chi phí cực đại nằm ở thiết kế vòng lặp đa thang thời gian (Dual-timescale recurrent) độc đáo. Mô hình tích hợp hai bộ module Transformer: nhanh (tầng thấp) và chậm (tầng cao). Hai bộ module này lặp lại luân phiên trên cùng một batch đầu vào và trao đổi thông tin thông qua phép cộng trạng thái. Thiết kế này cho phép mô hình mở rộng linh hoạt độ sâu tính toán bằng cách tăng số lần lặp lại, trong khi tổng số tham số vật lý được giữ cố định. Sự sụt giảm đột ngột trong ngưỡng tiền huấn luyện đã mở ra cơ hội kiểm chứng lại nhiều lý thuyết mô hình trước đây bị gác lại do chi phí tính toán quá cao. Cần lưu ý đặc biệt rằng phiên bản được phát hành lần này chỉ là trọng số tiền huấn luyện chưa được điều chỉnh, mô hình chỉ có thể thực hiện nhiệm vụ tiếp nối tiền tố và không thể sử dụng trực tiếp như trợ lý trả lời câu hỏi. (Nguồn: BlockBeats)