Perplexity AI mở nguồn pplx-garden để hỗ trợ suy luận đa GPU tốc độ cao

ME AI Tin tức, theo giám sát của Beating, gã khổng lồ tìm kiếm Perplexity AI chính thức mở nguồn bộ công cụ hạ tầng suy luận hiệu năng cao được sử dụng trong môi trường sản xuất pplx-garden. Lõi của dự án là thư viện giao tiếp điểm-điểm hiệu năng cao tự phát triển bằng Rust mang tên fabric-lib (còn gọi là TransferEngine), nhằm phá vỡ sự phụ thuộc phần cứng vào giao thức truyền thông độc quyền của NVIDIA, giúp các nhà phát triển triển khai các mô hình lớn hàng nghìn tỷ tham số trên cụm card đồ họa đa dạng mà không cần mua các thiết bị chuyển mạch mạng đắt đỏ. Việc suy luận phân tán mô hình lớn truyền thống cực kỳ phụ thuộc vào mạng truyền thông tốc độ cao độc quyền của NVIDIA, dẫn đến chi phí triển khai phần cứng rất cao và đối mặt với nguy cơ bị khóa供应链. Fabric-lib đạt được sự tách rời phần cứng, không chỉ tương thích hoàn hảo với card mạng NVIDIA ConnectX-7, mà còn hỗ trợ nguyên bản card Ethernet AWS EFA giá rẻ của Amazon, kéo đầy băng thông mạng giữa các card lên tới 400 Gbps. Để khắc phục khuyết điểm vật lý về truyền tải không theo thứ tự của AWS EFA, Perplexity đã sáng tạo cơ chế đồng bộ hóa bộ đếm ImmCounter, cho phép truyền dữ liệu "không sao chép" hiệu quả mà không cần giả định cứng nhắc về thứ tự gói dữ liệu. Thư viện truyền thông tích hợp thuật toán phân phối dữ liệu được thiết kế riêng cho mô hình chuyên gia hỗn hợp MoE, làm chồng chéo sâu giữa việc card đồ họa nhận dữ liệu và tính toán ma trận, từ đó tối đa hóa không gian tính toán trong giai đoạn giải mã. Trong thực tế sản xuất, pplx-garden mang lại lợi ích kỹ thuật rất rõ rệt. Trong kiến trúc suy luận tách rời, thư viện mạng thực hiện lịch trình cực nhanh cho bộ nhớ đệm khóa-giá trị giữa nút Prefill và nút Decoder. Trong quá trình huấn luyện tăng cường bất đồng bộ, chỉ cần 1,3 giây để đồng bộ hóa và phân phối trọng số mô hình hàng nghìn tỷ tham số. Để giải quyết độ trễ tính toán trong giai đoạn phân từ, pplx-garden đồng thời mở nguồn bộ phân từ pplx-unigram được tái xây dựng bằng Rust, giảm tiêu thụ CPU xuống 5 đến 6 lần, xóa bỏ điểm nghẽn hiệu năng trong giai đoạn phân từ của các mô hình sắp xếp lại và vector. (Nguồn: BlockBeats)