As 550.000 GPUs da NVIDIA da xAI operam com apenas 11% de utilização

icon MarsBit
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
xAI, o projeto de IA de Elon Musk, opera 550.000 GPUs da NVIDIA nos centros de dados Memphis e Colossus, mas a utilização de FLOPs do modelo é de apenas 11%. O Information afirma que ineficiências de software e problemas de escala são os responsáveis. Grandes empresas como Meta e Google atingiram mais de 40% de utilização. A xAI planeja aumentar o desempenho para 50% por meio de otimização e está explorando chips internos. Traders que acompanham altcoins para observar podem notar como o índice de medo e ganância reage a atualizações na infraestrutura de IA.

xAI

Editar | Ze Nan

Na era da IA, é assim que se acumula GPU?

A utilização de recursos GPU da xAI, da propriedade de Musk, atualmente está em cerca de 11%. Relatórios relacionados indicam que a otimização da pilha de software de IA não foi satisfatória. Recentemente, a reportagem do The Information chamou a atenção.

xAI

Atualmente, a xAI opera cerca de 550.000 GPUs da NVIDIA em seus clusters de data centers Memphis e Colossus, incluindo os modelos H100 e H200, com alguns dispositivos utilizando configurações de resfriamento líquido. Embora essas GPUs sejam da geração anterior (anteriores à mais recente série Blackwell), sua escala já é impressionante.

Com tal grande quantidade de GPUs, a utilização de capacidade de modelo da xAI (MFU, Model FLOPs Utilization) é de apenas 11%. Fazendo uma analogia inadequada, entre as 500 mil GPUs já instaladas nos servidores da xAI, a capacidade computacional realmente disponível equivale apenas a cerca de 60 mil GPUs. Quais são as razões para essa eficiência tão baixa?

Primeiro, para ambientes de implantação de menor escala (por exemplo, 1.000 a 10.000 GPUs), a coordenação de cálculo entre múltiplos nós geralmente não é um problema. No entanto, à medida que a escala dos servidores continua a aumentar, quando é necessário integrar centenas de milhares de GPUs, o tempo ocioso dos dispositivos se acumula rapidamente, levando a uma queda acentuada na utilização geral. Uma série de inconsistências internas na pilha de software resultantes disso está sendo exposta na operação real da xAI.

No supercluster, a velocidade de computação dos próprios chips GPU é relativamente rápida; o gargalo está na velocidade de leitura e gravação da memória de alta largura de banda (HBM) e na sobrecarga de comunicação na transmissão de dados entre milhares de servidores. Sempre que houver pequenos atrasos na transmissão de dados ou congestionamento na rede, todos os GPUs do cluster são forçados a “ficar parados” aguardando o carregamento dos dados.

Por outro lado, o treinamento de modelos de IA geralmente é intermitente. As GPUs operam em plena capacidade durante o cálculo real, mas muitos dispositivos ficam ociosos (Idle) enquanto pesquisadores analisam os resultados do treinamento, ajustam parâmetros ou processam pipelines de dados.

Embora 11% seja um número claramente baixo, a reportagem da The Information também revelou algumas práticas ocultas do setor de IA: o desperdício de poder de computação é comum, e alguns pesquisadores de grandes empresas intencionalmente executam tarefas de treinamento sem sentido para “inflar” os dados de utilização, evitando críticas da gestão ou temendo que suas cotas de GPU ociosas sejam reivindicadas por outras equipes.

Não se pode negar que fazer isso também é para preservar a cota de GPU da equipe.

Claro, esse não é um problema exclusivo da xAI; é, na verdade, um problema estrutural comum a toda a indústria de IA — tornar a infraestrutura de IA operacionalmente eficiente em tal escala é um desafio extremamente difícil.

xAI

As habilidades de otimização necessárias para operar a infraestrutura em nuvem de IA abrangem dados, algoritmos, modelos, computação, núcleos, interação (humano-AI-mundo, entre agentes) e otimização global, apresentando alto grau de complexidade engenharia.

Algumas grandes empresas de tecnologia focaram na otimização de suas pilhas de infraestrutura em larga escala e já conseguiram alcançar taxas de utilização superiores a 40%. Meta e o Google são exemplos disso, com taxas de utilização de GPU de 43% e 46%, respectivamente.

A dificuldade enfrentada pela xAI prova que, na corrida armamentista atual de IA, "comprar GPUs" é apenas o primeiro passo; usá-las bem é o essencial. A escala de hardware já ultrapassou a capacidade de agendamento das arquiteturas de software existentes.

No entanto, a xAI já está trabalhando para resolver esse problema e estabeleceu como meta uma taxa de utilização de 50%. Embora ainda não haja uma agenda definida, suas principais melhorias se concentrarão na otimização da infraestrutura e da pilha de software. À medida que as cargas de trabalho futuras forem gradualmente migradas para plataformas de hardware projetadas especificamente para atender às necessidades de “IA agente” (Agentic AI), a xAI provavelmente oferecerá seus grandes clusters de GPU para locação.

Elon Musk também está buscando uma transformação, apostando no projeto autônomo de capacidade de processamento “TeraFab”: por um lado, ele está impulsionando vários chips próprios, integrando-os à “família de chips de IA” da xAI; por outro lado, Musk também deseja utilizar a tecnologia de fabricação 14A da Intel para criar soluções de ponta para futuros projetos da xAI, SpaceX e outras atividades relacionadas.

A dificuldade da xAI lembra todos os perseguidores: na segunda metade da corrida da IA, o que pode estar em jogo não é mais quem consegue comprar mais GPUs.

Conteúdo de referência:

https://www.theinformation.com/newsletters/ai-agenda/xai-shows-hard-use-lot-gpus

Este artigo é do公众号 da WeChat "Machine Heart" (ID: almosthuman2014), autor: focado em infraestrutura de IA

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.