Perplexity AI, yüksek hızda çoklu GPU çıkarımı için pplx-garden'i açık kaynak hale getiriyor

iconKuCoinFlash
Paylaş
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconÖzet

expand icon
Perplexity AI, yüksek performanslı çıkarım araç seti olan pplx-garden’i açık kaynak hale getirerek çoklu GPU işlemini artırmayı amaçlıyor. Araç seti, NVIDIA protokollerini atlayarak NVIDIA ConnectX-7 ve AWS EFA üzerinden 400 Gbps bant genişliği destekleyen, Rust tabanlı bir iletişim kütüphanesi olan fabric-lib’i içeriyor. Sıfır kopyalama veri transferi ve MoE-optimize edilmiş algoritmaları bulunuyor ve tokenizasyon sırasında CPU kullanımını azaltıyor. Bu AI + kripto haber güncellemesi, geliştiriciler için yeni bir araç vurguluyor. Enflasyon verisi trendleri, gelecekteki AI altyapı yatırımlarını etkileyebilir.
ME AI Haberi, Beating İzleme’ye göre, arama motoru devi Perplexity AI, üretim ortamında kullanılan yüksek performanslı çıkarım altyapı paketini pplx-garden olarak açık kaynak hale getirdi. Projenin çekirdeği, kendi geliştirilen Rust tabanlı yüksek performanslı noktadan noktaya iletişim kütüphanesi fabric-lib (diğer adıyla TransferEngine) olup, NVIDIA’nın özel iletişim protokolüne bağlı kalınmasını engellemeyi amaçlıyor ve geliştiricilerin pahalı özel ağ anahtarları satın almadan, heterojen çok GPU kümelerinde trilyon parametreli büyük modelleri hızla çalıştırmalarını sağlıyor. Geleneksel dağıtık büyük model çıkarımı, NVIDIA’nın özel yüksek hızlı iletişim ağına aşırı derecede bağımlıdır ve bu da donanım kurulum maliyetlerini çok yükseltirken tedarik zinciri kilitlenmesine neden olmaktadır. fabric-lib, donanım düzeyinde bağımlılığı ortadan kaldırarak NVIDIA ConnectX-7 ağ kartlarına mükemmel uyum sağlarken, Amazon’un ucuz AWS EFA Ethernet ağ kartlarını da doğrudan destekliyor ve çok kart arasındaki ağ bant genişliğini doğrudan 400 Gbps’ye çıkarıyor. AWS EFA’nın sıralama dışı iletim fiziksel eksikliğini gidermek için Perplexity, ImmCounter adlı ilk kez geliştirilen sayaç senkronizasyon mekanizmasını ortaya koydu; veri paketlerinin sırasına katı bir varsayımda bulunmadan, “sıfır kopyalama” veri akışını etkili bir şekilde gerçekleştirdi. İletişim kütüphanesi, karışık uzman modelleri (MoE) için özel olarak tasarlanmış bir veri dağıtım algoritması içeriyor ve GPU’ların veri alımı ile matris hesaplamalarını derinlemesine örtüştürerek dekodlama aşamasındaki hesaplama kapasitesini büyük ölçüde optimize ediyor. Gerçek üretim ortamında, pplx-garden’in mühendislik faydaları son derece belirgindir. Çözümlenmiş çıkarım mimarisinde, ağ kütüphanesi Prefill düğümleri ile Decoder düğümleri arasında anahtar-değer önbelleğini hızlı bir şekilde yönetiyor. Asenkron pekiştirmeli öğrenme eğitimi sırasında, trilyon parametreli bir modelin ağırlıklarını senkronize etmek ve dağıtmak sadece 1,3 saniye sürüyor. Bölümleme aşamasındaki hesaplama gecikmesini gidermek için, pplx-garden, Rust ile yeniden yazılmış pplx-unigram bölümleyiciyi eşlik eden açık kaynak olarak yayınladı ve CPU tüketimini doğrudan 5 ila 6 kat azaltarak, yeniden sıralama ve vektör modellerinin bölümleme aşamasındaki performans darboğazını ortadan kaldırdı. (Kaynak: BlockBeats)
Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.