As 550.000 GPUs da NVIDIA da xAI operam com apenas 11% de utilização

xAI

Editar | Ze Nan

Na era da IA, é assim que se acumula GPU?

A utilização de recursos GPU da xAI, da propriedade de Musk, atualmente está em cerca de 11%. Relatórios relacionados indicam que a otimização da pilha de software de IA não foi satisfatória. Recentemente, a reportagem do The Information chamou a atenção.

xAI

Atualmente, a xAI opera cerca de 550.000 GPUs da NVIDIA em seus clusters de data centers Memphis e Colossus, incluindo os modelos H100 e H200, com alguns dispositivos utilizando configurações de resfriamento líquido. Embora essas GPUs sejam da geração anterior (anteriores à mais recente série Blackwell), sua escala já é impressionante.

Com tal grande quantidade de GPUs, a utilização de capacidade de modelo da xAI (MFU, Model FLOPs Utilization) é de apenas 11%. Fazendo uma analogia inadequada, entre as 500 mil GPUs já instaladas nos servidores da xAI, a capacidade computacional realmente disponível equivale apenas a cerca de 60 mil GPUs. Quais são as razões para essa eficiência tão baixa?

Primeiro, para ambientes de implantação de menor escala (por exemplo, 1.000 a 10.000 GPUs), a coordenação de cálculo entre múltiplos nós geralmente não é um problema. No entanto, à medida que a escala dos servidores continua a aumentar, quando é necessário integrar centenas de milhares de GPUs, o tempo ocioso dos dispositivos se acumula rapidamente, levando a uma queda acentuada na utilização geral. Uma série de inconsistências internas na pilha de software resultantes disso está sendo exposta na operação real da xAI.

No supercluster, a velocidade de computação dos próprios chips GPU é relativamente rápida; o gargalo está na velocidade de leitura e gravação da memória de alta largura de banda (HBM) e na sobrecarga de comunicação na transmissão de dados entre milhares de servidores. Sempre que houver pequenos atrasos na transmissão de dados ou congestionamento na rede, todos os GPUs do cluster são forçados a “ficar parados” aguardando o carregamento dos dados.

Por outro lado, o treinamento de modelos de IA geralmente é intermitente. As GPUs operam em plena capacidade durante o cálculo real, mas muitos dispositivos ficam ociosos (Idle) enquanto pesquisadores analisam os resultados do treinamento, ajustam parâmetros ou processam pipelines de dados.

Embora 11% seja um número claramente baixo, a reportagem da The Information também revelou algumas práticas ocultas do setor de IA: o desperdício de poder de computação é comum, e alguns pesquisadores de grandes empresas intencionalmente executam tarefas de treinamento sem sentido para “inflar” os dados de utilização, evitando críticas da gestão ou temendo que suas cotas de GPU ociosas sejam reivindicadas por outras equipes.

Não se pode negar que fazer isso também é para preservar a cota de GPU da equipe.

Claro, esse não é um problema exclusivo da xAI; é, na verdade, um problema estrutural comum a toda a indústria de IA — tornar a infraestrutura de IA operacionalmente eficiente em tal escala é um desafio extremamente difícil.

xAI

As habilidades de otimização necessárias para operar a infraestrutura em nuvem de IA abrangem dados, algoritmos, modelos, computação, núcleos, interação (humano-AI-mundo, entre agentes) e otimização global, apresentando alto grau de complexidade engenharia.

Algumas grandes empresas de tecnologia focaram na otimização de suas pilhas de infraestrutura em larga escala e já conseguiram alcançar taxas de utilização superiores a 40%. Meta e o Google são exemplos disso, com taxas de utilização de GPU de 43% e 46%, respectivamente.

A dificuldade enfrentada pela xAI prova que, na corrida armamentista atual de IA, "comprar GPUs" é apenas o primeiro passo; usá-las bem é o essencial. A escala de hardware já ultrapassou a capacidade de agendamento das arquiteturas de software existentes.

No entanto, a xAI já está trabalhando para resolver esse problema e estabeleceu como meta uma taxa de utilização de 50%. Embora ainda não haja uma agenda definida, suas principais melhorias se concentrarão na otimização da infraestrutura e da pilha de software. À medida que as cargas de trabalho futuras forem gradualmente migradas para plataformas de hardware projetadas especificamente para atender às necessidades de “IA agente” (Agentic AI), a xAI provavelmente oferecerá seus grandes clusters de GPU para locação.

Elon Musk também está buscando uma transformação, apostando no projeto autônomo de capacidade de processamento “TeraFab”: por um lado, ele está impulsionando vários chips próprios, integrando-os à “família de chips de IA” da xAI; por outro lado, Musk também deseja utilizar a tecnologia de fabricação 14A da Intel para criar soluções de ponta para futuros projetos da xAI, SpaceX e outras atividades relacionadas.

A dificuldade da xAI lembra todos os perseguidores: na segunda metade da corrida da IA, o que pode estar em jogo não é mais quem consegue comprar mais GPUs.

Conteúdo de referência:

https://www.theinformation.com/newsletters/ai-agenda/xai-shows-hard-use-lot-gpus

Este artigo é do公众号 da WeChat "Machine Heart" (ID: almosthuman2014), autor: focado em infraestrutura de IA