Архитектура ZCube снижает затраты и повышает производительность при инференсе больших моделей

iconKuCoinFlash
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Обновление сети ZCube решает проблемы разделения PD при инференсе больших моделей, как сообщается в ончейн-новостях. Разработанное ZhiPu, YuXun Network и Циньхуа-университетом, архитектура уже внедрена в GLM-5.1. Оно снижает затраты на коммутаторы и оптические модули на 33%, повышает пропускную способность GPU на 15% и сокращает P99 задержку первого токена на 40,6%.

Сообщение AIMPACT, 21 мая (UTC+8): Согласно мониторингу Beating, для решения все более острой проблемы структурной сетевой перегрузки при разделенном развертывании больших моделей PD (Prefill-Decode), Zhipu, Yuxun Network и Тсингхуа университет совместно разработали и внедрили архитектуру сети ZCube в онлайн-производственной среде GLM-5.1 с тысячами GPU. По мере того как длинные контексты и разделенные рассуждения PD становятся стандартом, передача KV Cache между узлами приводит к серьезному несимметричному трафику, что вызывает локальные перегрузки и конфликты каналов в традиционной архитектуре ROFT (Rail-Optimized Fat-Tree). ZCube устраняет уровень Spine-коммутаторов, использует полностью плоскую топологию сети (диаметр сети 2 прыжка) и сочетает гибридный механизм подключения по одному или нескольким маршрутам, обеспечивая на уровне архитектуры балансировку нагрузки трафика между всеми коммутаторами узлов. В тестах на реальных производственных кластерах, при неизменных GPU, программном стеке и приложениях, архитектура ZCube сократила затраты на коммутаторы и оптические модули на 33% по сравнению с традиционной архитектурой, повысила среднюю пропускную способность вывода GPU на 15% и снизила P99-перцентиль задержки первого токена (TTFT) на 40,6%. (Источник: BlockBeats)

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.