Tin tức từ AIMPACT, ngày 19 tháng 5 (UTC+8), theo giám sát của Beating, Sapient Intelligence đã mở nguồn mô hình nền tảng sinh văn bản với 1 tỷ tham số (1B) mang tên HRM-Text. Đây là mô hình chỉ được tiền huấn luyện, dựa trên kiến trúc Mô hình suy luận phân cấp (HRM). Bằng cách giới thiệu suy luận trong không gian tiềm ẩn ở tầng dưới của kiến trúc, mô hình này đã giảm đáng kể mức tiêu tốn năng lực tính toán trong giai đoạn tiền huấn luyện từ 130 đến 600 lần. Cụ thể, HRM-Text chỉ sử dụng 40 tỷ (40B) Token có cấu trúc để hoàn thành tiền huấn luyện, lượng dữ liệu này chỉ bằng khoảng một phần nghìn so với các mô hình thông thường cùng cấp độ. Kết quả thử nghiệm thực tế cho thấy, chỉ cần hai máy chủ H100 mỗi máy 8 card, mất khoảng 46 giờ để huấn luyện từ đầu phiên bản 1B với chi phí tính toán khoảng 1.472 USD; trong khi phiên bản 0.6B chỉ cần một nút chạy trong 50 giờ với chi phí phần cứng khoảng 800 USD. Toàn bộ khung công cụ kỹ thuật, bao gồm trích xuất dữ liệu, đóng gói chuỗi và huấn luyện phân tán PyTorch, đều đã được mở nguồn đồng thời. Nền tảng cho việc giảm chi phí cực đại nằm ở thiết kế vòng lặp đa thang thời gian (Dual-timescale recurrent) độc đáo. Mô hình tích hợp hai bộ module Transformer: nhanh (tầng thấp) và chậm (tầng cao). Hai bộ module này lặp lại luân phiên trên cùng một batch đầu vào và trao đổi thông tin thông qua phép cộng trạng thái. Thiết kế này cho phép mô hình mở rộng linh hoạt độ sâu tính toán bằng cách tăng số lần lặp lại, trong khi tổng số tham số vật lý được giữ cố định. Sự sụt giảm đột ngột trong ngưỡng tiền huấn luyện đã mở ra cơ hội kiểm chứng lại nhiều lý thuyết mô hình trước đây bị gác lại do chi phí tính toán quá cao. Cần lưu ý đặc biệt rằng phiên bản được phát hành lần này chỉ là trọng số tiền huấn luyện chưa được điều chỉnh, mô hình chỉ có thể thực hiện nhiệm vụ tiếp nối tiền tố và không thể sử dụng trực tiếp như trợ lý trả lời câu hỏi. (Nguồn: BlockBeats)
Sapient mở nguồn mô hình HRM-Text 1 tỷ tham số với chi phí đào tạo thấp hơn 1.300 lần
KuCoinFlashChia sẻ






Sapient Intelligence đã công bố tin tức trên chuỗi vào ngày 19 tháng 5 (UTC+8), mở nguồn HRM-Text, một mô hình văn bản 1 tỷ tham số với kiến trúc suy luận phân cấp. Mô hình này sử dụng suy luận không gian ẩn để giảm chi phí tiền huấn luyện từ 130 đến 600 lần. Nó được huấn luyện trên 40 tỷ token có cấu trúc, một phần nhỏ dữ liệu so với các mô hình tương tự. Phiên bản 1 tỷ tham số có thể được huấn luyện trong 46 giờ với chi phí 1.472 USD bằng hai máy chủ H100, mỗi máy có 8 GPU. Phiên bản 0,6 tỷ tham số có chi phí 800 USD. Toàn bộ khung kỹ thuật, bao gồm trích xuất dữ liệu và huấn luyện PyTorch, cũng đã được mở nguồn. Dữ liệu lạm phát và hiệu quả huấn luyện là những điểm nổi bật chính trong bản phát hành này.
Nguồn:Hiển thị bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này.
Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.