Perplexity AI membuka sumber pplx-garden untuk membolehkan inferens Multi-GPU berkelajuan tinggi

ME AI Mesej, menurut pemantauan Beating, raksasa enjin carian Perplexity AI secara rasmi membuka sumber infrastruktur推理 berprestasi tinggi yang digunakan dalam persekitaran pengeluaran, pplx-garden. Inti projek ini ialah pustaka komunikasi titik-ke-titik berprestasi tinggi buatan sendiri berbasis Rust, fabric-lib (juga dikenali sebagai TransferEngine), yang bertujuan untuk memutuskan ikatan peranti terhadap protokol komunikasi eksklusif NVIDIA, membantu pembangun mencapai kelajuan tinggi dalam menjalankan model besar berparameter triliunan pada kluster GPU heterogen tanpa perlu membeli suis rangkaian eksklusif yang mahal. Inferens model besar terdistribusi tradisional sangat bergantung pada rangkaian komunikasi berkelajuan tinggi eksklusif NVIDIA, menyebabkan kos pemasangan peranti sangat tinggi dan menghadapi risiko penguncian rantaian bekalan. fabric-lib mencapai pemisahan peranti pada peringkat peranti keras, selain sesuai sepenuhnya dengan kad rangkaian NVIDIA ConnectX-7, ia juga menyokong asli kad Ethernet AWS EFA yang murah daripada Amazon, secara langsung meningkatkan bandwidth rangkaian antara GPU hingga 400 Gbps. Mengatasi kelemahan fizikal penghantaran tidak teratur pada AWS EFA, Perplexity mencipta mekanisme penyegerakan ImmCounter, yang membolehkan aliran data "tanpa salinan" yang cekap tanpa membuat andaian ketat mengenai urutan paket data. Pustaka komunikasi ini menyediakan algoritma pengagihan data yang direka khas untuk model pakar campuran MoE, yang menggabungkan penerimaan data oleh GPU dengan pengiraan matriks secara mendalam, memaksimakan ruang kuasa pengiraan pada peringkat dekod. Dalam penggunaan sebenar, manfaat kejuruteraan yang dibawa oleh pplx-garden sangat ketara. Dalam arsitektur inferens yang dipisahkan, pustaka rangkaian mencapai penjadualan pantas cache kunci-nilai antara nod Prefill dan nod Decoder. Dalam latihan pembelajaran penguatan asinkron, hanya memerlukan 1.3 saat untuk menyegerakkan dan menghantar semula bobot model berparameter triliunan. Untuk menyelesaikan latensi pengiraan pada peringkat tokenisasi, pplx-garden juga membuka sumber tokenizer pplx-unigram yang dibina semula menggunakan Rust, yang mengurangkan penggunaan CPU sebanyak 5 hingga 6 kali ganda, menghapuskan bottleneck prestasi pada peringkat tokenisasi untuk penyusunan semula dan model vektor. (Sumber: BlockBeats)