Сообщение AIMPACT, 21 мая (UTC+8): Согласно мониторингу Beating, для решения все более острой проблемы структурной сетевой перегрузки при разделенном развертывании больших моделей PD (Prefill-Decode), Zhipu, Yuxun Network и Тсингхуа университет совместно разработали и внедрили архитектуру сети ZCube в онлайн-производственной среде GLM-5.1 с тысячами GPU. По мере того как длинные контексты и разделенные рассуждения PD становятся стандартом, передача KV Cache между узлами приводит к серьезному несимметричному трафику, что вызывает локальные перегрузки и конфликты каналов в традиционной архитектуре ROFT (Rail-Optimized Fat-Tree). ZCube устраняет уровень Spine-коммутаторов, использует полностью плоскую топологию сети (диаметр сети 2 прыжка) и сочетает гибридный механизм подключения по одному или нескольким маршрутам, обеспечивая на уровне архитектуры балансировку нагрузки трафика между всеми коммутаторами узлов. В тестах на реальных производственных кластерах, при неизменных GPU, программном стеке и приложениях, архитектура ZCube сократила затраты на коммутаторы и оптические модули на 33% по сравнению с традиционной архитектурой, повысила среднюю пропускную способность вывода GPU на 15% и снизила P99-перцентиль задержки первого токена (TTFT) на 40,6%. (Источник: BlockBeats)
Архитектура ZCube снижает затраты и повышает производительность при инференсе больших моделей
KuCoinFlashПоделиться






Обновление сети ZCube решает проблемы разделения PD при инференсе больших моделей, как сообщается в ончейн-новостях. Разработанное ZhiPu, YuXun Network и Циньхуа-университетом, архитектура уже внедрена в GLM-5.1. Оно снижает затраты на коммутаторы и оптические модули на 33%, повышает пропускную способность GPU на 15% и сокращает P99 задержку первого токена на 40,6%.
Источник:Показать оригинал
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.