Ang 550,000 NVIDIA GPUs ni xAI ay gumagana lamang sa 11% na paggamit

I-edit | Zeanan

Sa panahon ng AI, ganito ba talaga ang pag-stack ng GPU?

Ang paggamit ng GPU ng xAI, na pinamamahalaan ni Musk, ay kasalukuyang nasa halos 11%. Ang mga report ay nagpapakita na ang pag-optimize ng kanilang AI software stack ay hindi gaanong epektibo. Kaugnay nito, ang isang ulat mula sa The Information ay nag-udyok ng malaking atensyon.

Sa kasalukuyan, mayroon ang xAI sa operasyon na higit sa 550,000 na NVIDIA GPU sa kanilang mga data center cluster sa Memphis at Colossus, kabilang ang mga modelo na H100 at H200, kung saan ang ilan ay may liquid-cooling configuration. Bagaman ang mga GPU na ito ay mula sa nakaraang henerasyon (bago ang pinakabagong Blackwell series), ang kanilang sukat ay talagang nakakatanga.

Mayroon silang napakalaking bilang ng GPU, ngunit ang paggamit ng kapasidad ng modelong compute (MFU) ng xAI ay nagiging 11% lamang. Sa isang hindi gaanong angkop na paghahambing, sa mga 500,000 na GPU na naka-install sa mga server ng xAI, ang tunay na magagamit na compute capacity ay katumbas lamang ng halos 60,000 na GPU. Ano ang dahilan para sa ganitong mababang efisensiya?

Una sa mga maliit na deployment (tulad ng 1,000–10,000 GPU blocks), ang pagco-coordinate ng computation sa pagitan ng maraming node ay karaniwang hindi isyu. Ngunit habang lumalaki ang sukat ng server, kapag kailangan i-integrate ang mga dekada ng libo-libong GPU, ang walang gawain na oras ng mga device ay mabilis na makakalap at magdudulot ng malaking pagbaba sa pangkabuuang paggamit. Ang mga hindi pagkakasundo sa loob ng software stack na dulot nito ay kasalukuyang ipinapakita sa tunay na operasyon ng xAI.

Sa supercluster, ang pagkalkula ng GPU chip mismo ay relatiwong mabilis, ang bottleneck ay ang bilis ng pagbasa at pagsulat ng data sa high-bandwidth memory (HBM) at ang communication overhead sa pagitan ng libu-libo hanggang milyon-milyon ng server. Kung may anumang maliit na delay o network congestion sa pagpapadala ng data, ang lahat ng GPU sa cluster ay pilit na “naka-stuck” habang naghihintay sa pag-load ng data.

Sa kabilang panig, ang pag-train ng AI model ay karaniwang intermittent. Ang GPU ay nagtatrabaho nang buong kapasidad habang nagpapatakbo ng mga kalkulasyon, ngunit maraming device ay nasa idle state habang ang mga mananaliksik ay nag-aaral ng mga resulta ng pag-train, nag-aayos ng mga parameter, o nagpaproseso ng data pipeline.

Bagaman ang 11% ay isang malaking mababang numero, ipinakita rin ng ulat ng The Information ang ilang pagsasagawa sa industriya ng AI: ang pagkawala ng computing power ay isang karaniwang pangyayari; ilang mga siyentipiko sa malalaking kumpanya ay nagpapatakbo ng paulit-ulit na walang kwentang mga training task upang “pataasin” ang mga datos ng paggamit, upang maiwasan ang pagkakasala mula sa pamamahala o takot na mawalan ng kanilang GPU quota sa ibang mga team.

Hindi masama gawin ito upang panatilihin ang sariling GPU quota ng team.

Hindi ito eksklusibo sa xAI, ito ay isang struktural na problema na karaniwan sa buong industriya ng AI — ang pagpapatakbo ng infrastruktura ng AI sa ganitong malaking iskala ay isang napakahirap na hamon.

Ang mga kasanayan sa pag-optimize na kinakailangan para sa pagpapatakbo ng AI cloud infrastructure ay kasama ang data, algorithm, model, computation, kernel, interaksyon (tao - AI - mundo, pagitan ng mga agent), at global optimization, na sobrang mahirap sa inhenyeriya.

Ang ilang malalaking teknolohiyang kompanya ay nakafokus sa pagpapabuti ng malalaking infrastrakturang stack at nakamit na higit sa 40% na paggamit. Ang Meta at Google ay mga halimbawa nito, na may paggamit ng GPU na umabot sa 43% at 46% ayon sa pagkakasunod-sunod.

Ang mga hamon na kinaharap ng xAI ay nagpapatotoo na sa kasalukuyang arms race sa AI, ang “pagbili ng GPU” ay only ang unang hakbang—ang paggamit nito nang tama ang susi. Ang laki ng hardware ay nagsobra sa kakayahan ng umiiral na software architecture sa pagdedesisyon.

Gayunpaman, ang xAI ay nagsisikap na lutasin ang problema ito at nagtakda ng layunin na makamit ang 50% na paggamit. Bagaman wala pa kong tiyak na takdang panahon, ang pangunahing pagpapabuti ay magiging nakatuon sa pagpapabuti ng imprastruktura at software stack. Habang ang mga workload sa hinaharap ay maaaring ma-migrate sa mga espesyalisadong hardware platform na disenyo para sa mga pangangailangan ng “Agentic AI,” malamang na ipapakalat ng xAI ang kanyang malaking GPU cluster para sa pag-rent.

Si Musk ay naglalayon din magkaroon ng pagbabago, na nagtataya sa proyektong “TeraFab” na may sariling computing power: sa isang aspeto, tinutulak niya ang mga sariling chip na idadagdag sa “pamilya ng AI chip” ng xAI; sa ibang aspeto, nais ni Musk na gamitin ang teknolohiya ng 14A process ng Intel upang lumikha ng mga advanced na solusyon para sa hinaharap na xAI, SpaceX, at iba pang kaugnay na negosyo.

Ang pagkakapit ng xAI ay nagpapaalala sa lahat ng mga nagsusunod: Sa pangalawang kalahati ng kompetisyon sa AI, ang mahalaga ay maaaring hindi na kung sino ang makakabili ng higit pang GPU.

Ref:

https://www.theinformation.com/newsletters/ai-agenda/xai-shows-hard-use-lot-gpus

Ang artikulong ito ay mula sa WeChat public account na “Machine Heart” (ID: almosthuman2014), may-akda: Nakikisali sa AI infrastructure