Архітектура ZCube зменшує витрати та покращує продуктивність при висновуванні великих моделей

iconKuCoinFlash
Поділитися
AI summary iconКороткий зміст

Повідомлення AIMPACT, 21 травня (UTC+8): За даними моніторингу Beating, у відповідь на зростаючу проблему структурної мережевої забитості при розділеному розгортанні великих моделей PD (Prefill-Decode), Zhipu, Yuxun Network та Цинхуа університет провели спільну роботу та реалізували архітектуру мережі ZCube в продуктивному середовищі GLM-5.1 coding з тисячею GPU. Зі зростанням популярності довгих контекстів та розділеного висновку PD, передача KV Cache між вузлами призводить до серйозної асиметрії трафіку, що спричиняє локальні точки перенавантаження та конфлікти з’єднань у традиційній архітектурі ROFT (Rail-Optimized Fat-Tree). ZCube виключає рівень Spine-перемикачів, застосовуючи плоску топологію мережі (діаметр мережі — 2 стрибки) разом із гібридним механізмом підключення одно- та багатотрасовим способом, що забезпечує балансування навантаження між усіма перемикачами на рівні архітектури. У тестах на реальному продуктивному кластері, за незмінних GPU, програмного стеку та застосунків, архітектура ZCube зменшила витрати на перемикачі та оптичні модулі на 33% порівняно з традиційною архітектурою, одночасно підвищивши середню пропускну здатність висновку GPU на 15% та знизивши P99-квантиль затримки першого токена (TTFT) на 40,6%. (Джерело: BlockBeats)

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.