Tin tức từ ME News, ngày 14 tháng 5 (UTC+8), theo giám sát của Beating, Nous Research đã công bố phương án mới cho việc tiền huấn luyện mô hình lớn gọi là Token Stacking Training (TST). Phương án này thông qua việc đóng gói và nén các token liền kề trong giai đoạn đầu huấn luyện, có thể rút ngắn thời gian tiền huấn luyện từ 2 đến 3 lần với cùng lượng tính toán. TST bao gồm hai giai đoạn. Trong 20% đến 40% đầu tiên của quá trình huấn luyện, mô hình không còn đọc từng token một mà thay vào đó sẽ “đóng gói” các token liền kề, tính trung bình và đưa vào, đồng thời dự đoán ở đầu ra những token nào sẽ nằm trong gói tiếp theo (không tính thứ tự bên trong). Sau đó, mô hình quay trở lại dự đoán token tiếp theo theo cách thông thường. Vì không thay đổi kiến trúc nền tảng, mô hình đầu ra hoàn toàn giống mô hình thông thường trong quá trình suy luận. Phương pháp này đã được xác minh thành công trên các mô hình MoE lên đến 10 tỷ tham số. Bản chất của phương án này là “đổi dữ liệu lấy sức tính toán”, sử dụng tốc độ tiêu thụ dữ liệu nhanh hơn để đổi lấy việc rút ngắn thời gian tính toán. Nếu trong tương lai các văn bản chất lượng cao bị cạn kiệt, đặc điểm tăng tốc tiêu thụ dữ liệu này có thể trở thành điểm yếu. Ngoài ra, vài giờ sau khi bài báo được công bố, một độc giả đã chỉ ra rằng cơ chế của TST cực kỳ tương đồng với tác phẩm cũ được công bố năm 2024 có tên “Beyond Next Token Prediction”. Nhóm tác giả sau đó đã thừa nhận trên Hugging Face rằng đây là “sự hội tụ không may mắn trong nghiên cứu (convergent research)” và cam kết cập nhật bài báo để bổ sung trích dẫn. (Nguồn: BlockBeats)
Phương pháp đào tạo TST của Nous Research gây tranh cãi do sự tương đồng với công trình trước đó
KuCoinFlashChia sẻ






Nous Research đã công bố tin tức về việc ra mắt token mới với phương pháp Token Stacking Training (TST) vào ngày 14 tháng 5 (UTC+8), tuyên bố rằng phương pháp này giảm thời gian tiền huấn luyện từ 2 đến 3 lần dưới cùng tải tính toán. Phương pháp này xếp chồng các token liền kề trong giai đoạn đầu huấn luyện và dự đoán các gói token thay vì từng token đơn lẻ. Các nhà phê bình nhanh chóng chỉ ra sự tương đồng của TST với bài báo năm 2024 có tựa đề 'Beyond Next Token Prediction'. Nhóm nghiên cứu thừa nhận sự trùng lặp này là "nghiên cứu hội tụ không may" và cam kết sẽ thêm các trích dẫn phù hợp. Việc niêm yết token mới thường thu hút sự giám sát chặt chẽ, và trường hợp này cũng không ngoại lệ.
Nguồn:Hiển thị bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này.
Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.