Perplexity AI mở nguồn pplx-garden để hỗ trợ suy luận đa GPU tốc độ cao
KuCoinFlash
Chia sẻ
Tóm tắt
Perplexity AI đã mở nguồn bộ công cụ suy luận hiệu suất cao của mình, pplx-garden, để tăng cường xử lý đa GPU. Bộ công cụ bao gồm thư viện giao tiếp dựa trên Rust, fabric-lib, vượt qua các giao thức của NVIDIA và hỗ trợ băng thông 400 Gbps thông qua NVIDIA ConnectX-7 và AWS EFA. Nó có tính năng chuyển dữ liệu không sao chép và các thuật toán tối ưu hóa MoE, giảm đáng kể việc sử dụng CPU trong quá trình phân tích token. Bản cập nhật tin tức AI + tiền điện tử này làm nổi bật một công cụ mới dành cho các nhà phát triển. Xu hướng dữ liệu lạm phát có thể ảnh hưởng đến các khoản đầu tư vào cơ sở hạ tầng AI trong tương lai.
ME AI Tin tức, theo giám sát của Beating, gã khổng lồ tìm kiếm Perplexity AI chính thức mở nguồn bộ công cụ hạ tầng suy luận hiệu năng cao được sử dụng trong môi trường sản xuất pplx-garden. Lõi của dự án là thư viện giao tiếp điểm-điểm hiệu năng cao tự phát triển bằng Rust mang tên fabric-lib (còn gọi là TransferEngine), nhằm phá vỡ sự phụ thuộc phần cứng vào giao thức truyền thông độc quyền của NVIDIA, giúp các nhà phát triển triển khai các mô hình lớn hàng nghìn tỷ tham số trên cụm card đồ họa đa dạng mà không cần mua các thiết bị chuyển mạch mạng đắt đỏ. Việc suy luận phân tán mô hình lớn truyền thống cực kỳ phụ thuộc vào mạng truyền thông tốc độ cao độc quyền của NVIDIA, dẫn đến chi phí triển khai phần cứng rất cao và đối mặt với nguy cơ bị khóa供应链. Fabric-lib đạt được sự tách rời phần cứng, không chỉ tương thích hoàn hảo với card mạng NVIDIA ConnectX-7, mà còn hỗ trợ nguyên bản card Ethernet AWS EFA giá rẻ của Amazon, kéo đầy băng thông mạng giữa các card lên tới 400 Gbps. Để khắc phục khuyết điểm vật lý về truyền tải không theo thứ tự của AWS EFA, Perplexity đã sáng tạo cơ chế đồng bộ hóa bộ đếm ImmCounter, cho phép truyền dữ liệu "không sao chép" hiệu quả mà không cần giả định cứng nhắc về thứ tự gói dữ liệu. Thư viện truyền thông tích hợp thuật toán phân phối dữ liệu được thiết kế riêng cho mô hình chuyên gia hỗn hợp MoE, làm chồng chéo sâu giữa việc card đồ họa nhận dữ liệu và tính toán ma trận, từ đó tối đa hóa không gian tính toán trong giai đoạn giải mã. Trong thực tế sản xuất, pplx-garden mang lại lợi ích kỹ thuật rất rõ rệt. Trong kiến trúc suy luận tách rời, thư viện mạng thực hiện lịch trình cực nhanh cho bộ nhớ đệm khóa-giá trị giữa nút Prefill và nút Decoder. Trong quá trình huấn luyện tăng cường bất đồng bộ, chỉ cần 1,3 giây để đồng bộ hóa và phân phối trọng số mô hình hàng nghìn tỷ tham số. Để giải quyết độ trễ tính toán trong giai đoạn phân từ, pplx-garden đồng thời mở nguồn bộ phân từ pplx-unigram được tái xây dựng bằng Rust, giảm tiêu thụ CPU xuống 5 đến 6 lần, xóa bỏ điểm nghẽn hiệu năng trong giai đoạn phân từ của các mô hình sắp xếp lại và vector. (Nguồn: BlockBeats)
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này.
Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.