Perplexity AI open-source pplx-garden pour permettre une inférence multi-GPU à haute vitesse
KuCoinFlash
Partager
Résumé
Perplexity AI a open-sourcé son kit d'inférence haute performance, pplx-garden, pour améliorer le traitement multi-GPU. Ce kit comprend une bibliothèque de communication basée sur Rust, fabric-lib, qui contourne les protocoles NVIDIA et prend en charge une bande passante de 400 Gbps via NVIDIA ConnectX-7 et AWS EFA. Il intègre un transfert de données sans copie et des algorithmes optimisés pour MoE, réduisant l'utilisation du CPU lors de la tokenisation. Cette mise à jour actualité IA + crypto met en lumière un nouvel outil pour les développeurs. Les tendances des données sur l'inflation pourraient influencer les futurs investissements dans l'infrastructure IA.
ME AI Message, selon la surveillance de Beating, le géant des moteurs de recherche Perplexity AI a officiellement open-sourcé l'ensemble d'outils d'infrastructure d'inférence haute performance utilisé en production, pplx-garden. Le cœur du projet est la bibliothèque de communication point à point haute performance en Rust, fabric-lib (également appelée TransferEngine), conçue pour briser la dépendance matérielle aux protocoles de communication exclusifs de NVIDIA et permettre aux développeurs d'exécuter des modèles à des milliers de milliards de paramètres à grande vitesse sur des clusters hétérogènes de cartes graphiques, sans avoir à acheter des commutateurs réseau coûteux et exclusifs. L'inférence distribuée traditionnelle des grands modèles dépend fortement du réseau de communication haute vitesse exclusif de NVIDIA, entraînant des coûts de déploiement matériels extrêmement élevés et un verrouillage de la chaîne d'approvisionnement. fabric-lib réalise une déconnexion au niveau matériel, s'adaptant parfaitement aux cartes réseau NVIDIA ConnectX-7 tout en prenant en charge nativement les cartes Ethernet AWS EFA économiques d'Amazon, atteignant directement une bande passante réseau de 400 Gbps entre les cartes graphiques. Pour remédier au défaut physique de transmission hors séquence des cartes AWS EFA, Perplexity a créé le mécanisme de synchronisation ImmCounter, permettant un transfert de données « zéro copie » efficace sans hypothèse rigide sur l'ordre des paquets. La bibliothèque de communication intègre un algorithme de distribution de données spécialement conçu pour les modèles Mixture of Experts (MoE), superposant profondément la réception des données par les cartes graphiques et les calculs matriciels, optimisant ainsi considérablement l'espace de calcul durant la phase de décodage. Dans la production réelle, les bénéfices techniques apportés par pplx-garden sont extrêmement significatifs. Dans une architecture d'inférence découplée, la bibliothèque réseau permet un调度 ultra-rapide du cache clé-valeur entre les nœuds Prefill et Decoder. Dans l'entraînement par apprentissage par renforcement asynchrone, la synchronisation et le déploiement des poids d'un modèle de mille milliards de paramètres sont accomplis en seulement 1,3 seconde. Pour résoudre la latence de calcul lors de la phase de tokenisation, pplx-garden a open-sourcé en parallèle le tokenizer pplx-unigram重构é en Rust, réduisant la consommation CPU de 5 à 6 fois et éliminant ainsi le goulot d'étranglement de performance lors de la tokenisation pour les modèles de réarrangement et vectorisation. (Source : BlockBeats)
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.