Perplexity AI open-source pplx-garden pour permettre une inférence multi-GPU à haute vitesse

ME AI Message, selon la surveillance de Beating, le géant des moteurs de recherche Perplexity AI a officiellement open-sourcé l'ensemble d'outils d'infrastructure d'inférence haute performance utilisé en production, pplx-garden. Le cœur du projet est la bibliothèque de communication point à point haute performance en Rust, fabric-lib (également appelée TransferEngine), conçue pour briser la dépendance matérielle aux protocoles de communication exclusifs de NVIDIA et permettre aux développeurs d'exécuter des modèles à des milliers de milliards de paramètres à grande vitesse sur des clusters hétérogènes de cartes graphiques, sans avoir à acheter des commutateurs réseau coûteux et exclusifs. L'inférence distribuée traditionnelle des grands modèles dépend fortement du réseau de communication haute vitesse exclusif de NVIDIA, entraînant des coûts de déploiement matériels extrêmement élevés et un verrouillage de la chaîne d'approvisionnement. fabric-lib réalise une déconnexion au niveau matériel, s'adaptant parfaitement aux cartes réseau NVIDIA ConnectX-7 tout en prenant en charge nativement les cartes Ethernet AWS EFA économiques d'Amazon, atteignant directement une bande passante réseau de 400 Gbps entre les cartes graphiques. Pour remédier au défaut physique de transmission hors séquence des cartes AWS EFA, Perplexity a créé le mécanisme de synchronisation ImmCounter, permettant un transfert de données « zéro copie » efficace sans hypothèse rigide sur l'ordre des paquets. La bibliothèque de communication intègre un algorithme de distribution de données spécialement conçu pour les modèles Mixture of Experts (MoE), superposant profondément la réception des données par les cartes graphiques et les calculs matriciels, optimisant ainsi considérablement l'espace de calcul durant la phase de décodage. Dans la production réelle, les bénéfices techniques apportés par pplx-garden sont extrêmement significatifs. Dans une architecture d'inférence découplée, la bibliothèque réseau permet un调度 ultra-rapide du cache clé-valeur entre les nœuds Prefill et Decoder. Dans l'entraînement par apprentissage par renforcement asynchrone, la synchronisation et le déploiement des poids d'un modèle de mille milliards de paramètres sont accomplis en seulement 1,3 seconde. Pour résoudre la latence de calcul lors de la phase de tokenisation, pplx-garden a open-sourcé en parallèle le tokenizer pplx-unigram重构é en Rust, réduisant la consommation CPU de 5 à 6 fois et éliminant ainsi le goulot d'étranglement de performance lors de la tokenisation pour les modèles de réarrangement et vectorisation. (Source : BlockBeats)