Perplexity AI відкриває джерела pplx-garden для забезпечення високошвидкісного висновку на кількох GPU
KuCoinFlash
Поділитися
Короткий зміст
Perplexity AI відкрила свій високопродуктивний інфренс-інструментарій pplx-garden для підвищення обробки на кількох GPU. Інструментарій включає бібліотеку зв’язку на Rust — fabric-lib, яка обходить протоколи NVIDIA і підтримує пропускну здатність 400 Гбіт/с за допомогою NVIDIA ConnectX-7 та AWS EFA. Він має функції передачі даних без копіювання та алгоритми, оптимізовані під MoE, що зменшує навантаження на ЦП під час токенізації. Цей оновлений новинний матеріал про ШІ та криптовалюту підкреслює новий інструмент для розробників. Тенденції даних про інфляцію можуть впливати на майбутні інвестиції в інфраструктуру ШІ.
ME AI Новина: за даними моніторингу Beating, провідний пошуковий гігант Perplexity AI офіційно відкрив джерела високопродуктивний інфраструктурний інструментарій pplx-garden, що використовується у виробничому середовищі. Основою проекту є власна високопродуктивна бібліотека точка-до-точки комунікації на Rust — fabric-lib (також відома як TransferEngine), яка має на меті зламати залежність від ексклюзивних комунікаційних протоколів NVIDIA та дозволити розробникам швидко запускати великі моделі з трильйонами параметрів на гетерогенних кластерах з різними GPU, не купуючи дорогих спеціалізованих мережевих комутаторів. Традиційні розподілені висновки великих моделей сильно залежать від ексклюзивних високоскоростних мереж NVIDIA, що призводить до надзвичайно високих витрат на розгортання та ризику блокування ланцюжка постачання. fabric-lib досягає відмови від прив’язки до апаратного забезпечення, повністю сумісна з мережевими картами NVIDIA ConnectX-7 та нативно підтримує доступні мережеві карти AWS EFA від Amazon, забезпечуючи пропускну здатність мережі між GPU до 400 Гбіт/с. Щоб вирішити фізичний недолік AWS EFA — передачу даних у неправильному порядку — Perplexity вперше запровадила механізм синхронізації ImmCounter, що дозволяє ефективно реалізувати «нульове копіювання» передачі даних без жорстких припущень щодо порядку пакетів. Бібліотека комунікації містить спеціально розроблений алгоритм розподілу даних для моделей змішаних експертів (MoE), який глибоко перекриває отримання даних GPU з матричними обчисленнями, значно підвищуючи ефективність обчислень на етапі декодування. У реальному виробничому середовищі pplx-garden приносить значні інженерні переваги: у децентралізованій архітектурі висновку бібліотека комунікації забезпечує швидке планування кешу ключ-значення між вузлами Prefill та Decoder. У асинхронному навчанні з підсиленням синхронізація та розповсюдження ваг моделей з трильйонами параметрів займає лише 1,3 секунди. Щоб вирішити затримку обчислень на етапі токенізації, pplx-garden супроводжується відкритим джерелом токенайзера pplx-unigram, переписаного на Rust, що зменшує навантаження на CPU у 5–6 разів, усуваючи обмеження продуктивності на етапах токенізації для перестановок та векторних моделей. (Джерело: BlockBeats)
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації.
Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.