Perplexity AI відкриває джерела pplx-garden для забезпечення високошвидкісного висновку на кількох GPU

ME AI Новина: за даними моніторингу Beating, провідний пошуковий гігант Perplexity AI офіційно відкрив джерела високопродуктивний інфраструктурний інструментарій pplx-garden, що використовується у виробничому середовищі. Основою проекту є власна високопродуктивна бібліотека точка-до-точки комунікації на Rust — fabric-lib (також відома як TransferEngine), яка має на меті зламати залежність від ексклюзивних комунікаційних протоколів NVIDIA та дозволити розробникам швидко запускати великі моделі з трильйонами параметрів на гетерогенних кластерах з різними GPU, не купуючи дорогих спеціалізованих мережевих комутаторів. Традиційні розподілені висновки великих моделей сильно залежать від ексклюзивних високоскоростних мереж NVIDIA, що призводить до надзвичайно високих витрат на розгортання та ризику блокування ланцюжка постачання. fabric-lib досягає відмови від прив’язки до апаратного забезпечення, повністю сумісна з мережевими картами NVIDIA ConnectX-7 та нативно підтримує доступні мережеві карти AWS EFA від Amazon, забезпечуючи пропускну здатність мережі між GPU до 400 Гбіт/с. Щоб вирішити фізичний недолік AWS EFA — передачу даних у неправильному порядку — Perplexity вперше запровадила механізм синхронізації ImmCounter, що дозволяє ефективно реалізувати «нульове копіювання» передачі даних без жорстких припущень щодо порядку пакетів. Бібліотека комунікації містить спеціально розроблений алгоритм розподілу даних для моделей змішаних експертів (MoE), який глибоко перекриває отримання даних GPU з матричними обчисленнями, значно підвищуючи ефективність обчислень на етапі декодування. У реальному виробничому середовищі pplx-garden приносить значні інженерні переваги: у децентралізованій архітектурі висновку бібліотека комунікації забезпечує швидке планування кешу ключ-значення між вузлами Prefill та Decoder. У асинхронному навчанні з підсиленням синхронізація та розповсюдження ваг моделей з трильйонами параметрів займає лише 1,3 секунди. Щоб вирішити затримку обчислень на етапі токенізації, pplx-garden супроводжується відкритим джерелом токенайзера pplx-unigram, переписаного на Rust, що зменшує навантаження на CPU у 5–6 разів, усуваючи обмеження продуктивності на етапах токенізації для перестановок та векторних моделей. (Джерело: BlockBeats)