PyTorch tối ưu hóa hiệu suất LayerNorm và RMSNorm trên GPU H100 và B200

iconKuCoinFlash
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
PyTorch đã công bố một dự án tối ưu hóa hiệu suất LayerNorm và RMSNorm trên các GPU NVIDIA H100 và B200. Sử dụng torch.compile, nhóm đã cải thiện hiệu quả từng kernel và kích hoạt khả năng hợp nhất tự động. Cập nhật này là một phần trong các tin tức trên chuỗi đang diễn ra từ cộng đồng học sâu. Chi tiết thêm có sẵn trên blog chính thức.

Tin tức từ ME News, ngày 8 tháng 4 (UTC+8), phía PyTorch gần đây đã đánh giá và cải tiến hiệu suất của hai phương pháp chuẩn hóa cơ bản là LayerNorm và RMSNorm khi sử dụng torch.compile trên GPU NVIDIA H100 và B200. Mục tiêu là đạt mức hiệu suất gần như tiên tiến nhất trên từng nhân, đồng thời cung cấp tính năng hợp nhất tự động. Thông báo chính thức bao gồm một liên kết dẫn đến nội dung chi tiết hơn. (Nguồn: InFoQ)

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.