Thông báo từ AIMPACT, ngày 16 tháng 5 (UTC+8), theo giám sát của Beating, Nous Research đã mở nguồn cơ chế huấn luyện tiền xử lý ngữ cảnh dài Lighthouse Attention. Khi xử lý văn bản dài 512K trên một card B200, giải pháp này tăng tốc độ tính toán lên khoảng 17 lần so với cơ chế truyền thống, đồng thời đạt được tốc độ huấn luyện end-to-end nhanh hơn 1,4 đến 1,7 lần ở độ dài 98K. Cơ chế chú ý truyền thống cần tính toán mối quan hệ từng cặp từ, khiến tiêu thụ năng lực tính toán tăng theo cấp số bình phương khi văn bản dài ra. Lighthouse Attention áp dụng tư tưởng sàng lọc thô trước, sau đó tính toán tinh chỉnh. Nó sẽ nhanh chóng lướt qua các bản tóm tắt nén của văn bản ở các cấp độ khác nhau, điểm số hóa để chọn ra các đoạn cốt lõi, ghép thành văn bản ngắn, rồi trực tiếp giao cho bộ xử lý hiệu quả hiện có FlashAttention. Do logic sàng lọc đã được tách hoàn toàn ra khỏi lõi, các nhà phát triển không cần viết mã cấp thấp thủ công và cũng không cần thêm mục tiêu huấn luyện bổ sung. Các giải pháp tăng tốc theo hướng tương tự trước đây thường gây ra tác dụng phụ, khiến mô hình sau khi quen với việc đọc nhảy sẽ dễ mất khả năng đọc chi tiết từng từ. Để tránh bẫy này, nhóm nghiên cứu cho mô hình chạy phần lớn tiến trình bằng chế độ tăng tốc, chỉ chuyển tạm trở lại tính toán chú ý toàn phần ở cuối quá trình huấn luyện để thích nghi ngắn hạn. Trong thử nghiệm thực tế với mô hình có 530 triệu tham số và dữ liệu huấn luyện 50 tỷ Token, mô hình được huấn luyện theo cách này không chỉ rút ngắn đáng kể thời gian, mà còn đạt hiệu suất toàn diện ngang bằng hoặc thậm chí vượt trội so với phiên bản cơ sở được huấn luyện hoàn toàn bằng phương pháp truyền thống. (Nguồn: BlockBeats)
Nous Research mở nguồn Lighthouse Attention, đạt tăng tốc 17x trên B200
KuCoinFlashChia sẻ






Cơ quan tin tức trên chuỗi MetaEra báo cáo vào ngày 16 tháng 5 (UTC+8) rằng Nous Research đã mở nguồn cơ chế Lighthouse Attention để tiền huấn luyện ngữ cảnh dài. Phương pháp này mang lại tốc độ tính toán nhanh hơn 17 lần trên một GPU B200 cho văn bản độ dài 512K và tăng tốc độ huấn luyện 1,4–1,7 lần ở độ dài 98K. Nó sử dụng quy trình hai bước để tránh cần mã cấp thấp hoặc các mục tiêu huấn luyện bổ sung. Trong các bài kiểm tra, mô hình 530 triệu tham số được huấn luyện trên 50 tỷ token đạt hoặc vượt hiệu suất các phương pháp truyền thống trong khi giảm thời gian huấn luyện. Các nền tảng tin tức tiền điện tử đang nhấn mạnh những lợi ích về hiệu suất dành cho các nhà phát triển và nhà nghiên cứu.
Nguồn:Hiển thị bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này.
Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.