Perplexity AI, yüksek hızda çoklu GPU çıkarımı için pplx-garden'i açık kaynak hale getiriyor

ME AI Haberi, Beating İzleme’ye göre, arama motoru devi Perplexity AI, üretim ortamında kullanılan yüksek performanslı çıkarım altyapı paketini pplx-garden olarak açık kaynak hale getirdi. Projenin çekirdeği, kendi geliştirilen Rust tabanlı yüksek performanslı noktadan noktaya iletişim kütüphanesi fabric-lib (diğer adıyla TransferEngine) olup, NVIDIA’nın özel iletişim protokolüne bağlı kalınmasını engellemeyi amaçlıyor ve geliştiricilerin pahalı özel ağ anahtarları satın almadan, heterojen çok GPU kümelerinde trilyon parametreli büyük modelleri hızla çalıştırmalarını sağlıyor. Geleneksel dağıtık büyük model çıkarımı, NVIDIA’nın özel yüksek hızlı iletişim ağına aşırı derecede bağımlıdır ve bu da donanım kurulum maliyetlerini çok yükseltirken tedarik zinciri kilitlenmesine neden olmaktadır. fabric-lib, donanım düzeyinde bağımlılığı ortadan kaldırarak NVIDIA ConnectX-7 ağ kartlarına mükemmel uyum sağlarken, Amazon’un ucuz AWS EFA Ethernet ağ kartlarını da doğrudan destekliyor ve çok kart arasındaki ağ bant genişliğini doğrudan 400 Gbps’ye çıkarıyor. AWS EFA’nın sıralama dışı iletim fiziksel eksikliğini gidermek için Perplexity, ImmCounter adlı ilk kez geliştirilen sayaç senkronizasyon mekanizmasını ortaya koydu; veri paketlerinin sırasına katı bir varsayımda bulunmadan, “sıfır kopyalama” veri akışını etkili bir şekilde gerçekleştirdi. İletişim kütüphanesi, karışık uzman modelleri (MoE) için özel olarak tasarlanmış bir veri dağıtım algoritması içeriyor ve GPU’ların veri alımı ile matris hesaplamalarını derinlemesine örtüştürerek dekodlama aşamasındaki hesaplama kapasitesini büyük ölçüde optimize ediyor. Gerçek üretim ortamında, pplx-garden’in mühendislik faydaları son derece belirgindir. Çözümlenmiş çıkarım mimarisinde, ağ kütüphanesi Prefill düğümleri ile Decoder düğümleri arasında anahtar-değer önbelleğini hızlı bir şekilde yönetiyor. Asenkron pekiştirmeli öğrenme eğitimi sırasında, trilyon parametreli bir modelin ağırlıklarını senkronize etmek ve dağıtmak sadece 1,3 saniye sürüyor. Bölümleme aşamasındaki hesaplama gecikmesini gidermek için, pplx-garden, Rust ile yeniden yazılmış pplx-unigram bölümleyiciyi eşlik eden açık kaynak olarak yayınladı ve CPU tüketimini doğrudan 5 ila 6 kat azaltarak, yeniden sıralama ve vektör modellerinin bölümleme aşamasındaki performans darboğazını ortadan kaldırdı. (Kaynak: BlockBeats)