550 000 графических процессоров NVIDIA xAI работают всего на 11% загрузки

icon MarsBit
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
xAI, проект Илона Маска в области ИИ, использует 550 000 GPU NVIDIA в центрах обработки данных Мемфис и Колосс, но использование FLOPs модели составляет всего 11%. По данным The Information, причиной являются неэффективность программного обеспечения и проблемы масштабирования. Крупные компании, такие как Meta и Google, достигают более 40% использования. xAI планирует повысить производительность до 50% за счет оптимизации и рассматривает разработку собственных чипов. Трейдеры, отслеживающие альткоины для наблюдения, могут обратить внимание на то, как индекс страха и жадности реагирует на обновления инфраструктуры ИИ.

xAI

Редактировал | Зэ Нань

В эпоху ИИ так вот как накапливают GPU?

GPU-ресурсы xAI, принадлежащей Маску, в настоящее время используются лишь на 11%. Соответствующий отчет указывает, что оптимизация программного стека ИИ оказалась неудовлетворительной. Недавно отчет The Information привлек внимание.

xAI

Сейчас xAI эксплуатирует около 550 000 GPU NVIDIA в своих центрах обработки данных Memphis и Colossus, включая модели H100 и H200, некоторые из которых оснащены жидкостным охлаждением. Несмотря на то, что эти GPU относятся к предыдущему поколению (раньше последней серии Blackwell), их масштабы поражают.

Имея такой огромный парк GPU, коэффициент использования вычислительной мощности модели xAI (MFU, Model FLOPs Utilization) составляет всего 11%. Некорректно, но для наглядности: из уже установленных 500 000 GPU на серверах xAI фактически доступная вычислительная мощность эквивалентна примерно 60 000 GPU. В чем причина такой низкой эффективности?

Сначала для небольших сред развертывания (например, 1000–10 000 GPU) координация вычислений между узлами обычно не представляет проблемы. Однако по мере постоянного увеличения масштаба серверов, когда требуется интегрировать сотни тысяч GPU, простои устройств быстро накапливаются, что приводит к резкому снижению общей производительности. Серия внутренних несогласованностей в программном стеке, вызванных этим, в настоящее время проявляется в реальных условиях эксплуатации xAI.

В суперкластере вычислительная скорость самих GPU-чипов относительно высока, узким местом является скорость чтения и записи данных в памяти с высокой пропускной способностью (HBM) и коммуникационные накладные расходы при передаче данных между тысячами и десятками тысяч серверов. Даже небольшая задержка или перегрузка сети заставляют все GPU кластера «останавливаться на месте» и ждать загрузки данных.

С другой стороны, обучение моделей ИИ обычно происходит прерывисто. Во время фактических вычислений GPU работают на полную мощность, но во время анализа результатов обучения, настройки параметров или обработки конвейера данных множество устройств остаются в состоянии простоя (Idle).

Хотя 11% — это явно низкий показатель, отчет The Information также раскрыл некоторые отраслевые практики в области ИИ: расточительство вычислительных ресурсов является распространенным явлением; некоторые исследователи крупных компаний намеренно запускают бессмысленные тренировочные задачи, чтобы «завысить» показатели использования, чтобы избежать критики со стороны руководства или опасений, что их зарезервированные GPU-квоты заберут другие команды.

Надо сказать, что это также сделано для сохранения собственного квота GPU команды.

Конечно, это не исключительная проблема xAI, а скорее структурная проблема, присущая всей индустрии ИИ — обеспечить эффективную работу инфраструктуры ИИ на таких масштабах является чрезвычайно сложной задачей.

xAI

Навыки оптимизации, необходимые для работы ИИ-облачной инфраструктуры, охватывают данные, алгоритмы, модели, вычисления, ядра, взаимодействие (человек — ИИ — мир, между агентами), а также глобальную оптимизацию, что представляет собой чрезвычайно сложную инженерную задачу.

Некоторые крупные технологические компании сосредоточились на оптимизации масштабных инфраструктурных стеков и смогли достичь уровня использования более 40%. Meta и Google являются яркими примерами этого: уровень использования их GPU достигает соответственно 43% и 46%.

Проблемы, с которыми столкнулась xAI, доказывают, что в текущей гонке вооружений в области ИИ «покупка GPU» — это лишь первый шаг; ключевым является их правильное использование. Масштабы аппаратного обеспечения превысили возможности существующих программных архитектур по распределению ресурсов.

Однако xAI уже работает над решением этой проблемы и поставила цель достичь уровня использования в 50%. Хотя точных сроков пока нет, основные улучшения будут сосредоточены на оптимизации инфраструктуры и программного стека. По мере постепенного переноса рабочих нагрузок в будущем на аппаратные платформы, специально разработанные для удовлетворения потребностей «агентного ИИ» (Agentic AI), xAI, скорее всего, начнет предлагать аренду своего крупного кластера GPU.

Маск также стремится к трансформации, делая ставку на собственный проект TeraFab: с одной стороны, он продвигает несколько собственных чипов, включая их в «семейство ИИ-чипов» xAI; с другой стороны, Маск также надеется использовать технологию производства 14A от Intel для создания передовых решений для будущих проектов xAI, SpaceX и других связанных направлений.

Проблемы xAI напоминают всем преследователям: во второй половине гонки в области ИИ решающим может стать не то, кто сможет купить больше видеокарт.

Справочная информация:

https://www.theinformation.com/newsletters/ai-agenda/xai-shows-hard-use-lot-gpus

Эта статья от官方微信-канала «Machine Heart» (ID: almosthuman2014), автор: специалист по инфраструктуре ИИ

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.