xAI'nin 550.000 NVIDIA GPU'su sadece %11 kullanım oranıyla çalışıyor

xAI

Düzenle | Zé Nán

AI çağında GPU nasıl birikir?

Elon Musk'un xAI şirketi şu anda GPU kaynak kullanım oranının sadece %11 olduğunu gösteriyor. İlgili raporlar, AI yazılım yığınının optimizasyon etkisinin yetersiz olduğunu belirtiyor. Yakın zamanda The Information'in haberi dikkat çekti.

xAI

Şu anda xAI, Memphis ve Colossus veri merkezi kümelerinde, H100 ve H200 modellerini içeren yaklaşık 550.000 adet NVIDIA GPU işletmektedir; bu cihazların bazıları sıvı soğutma sistemine sahiptir. Bu GPU'lar, en son Blackwell serisinden önceki bir nesle ait olsa da, ölçekleri dikkat çekicidir.

Kadar büyük bir GPU stokuna sahip olmasına rağmen, xAI'nin model hesaplama kullanım oranı (MFU, Model FLOPs Utilization) sadece %11. Yanlış bir benzetmeyle ifade edecek olursak, xAI sunucularında kurulu olan bu 500.000 GPU'da gerçek olarak kullanılabilir hesaplama gücü, yaklaşık 60.000 GPU'nun seviyesine denk geliyor. Bu kadar düşük verimliliğin nedeni nedir?

Öncelikle, küçük ölçekli dağıtım ortamları için (örneğin 1000-10.000 GPU bloğu), çok düğümlü aralarında koordinasyon hesaplaması genellikle sorun oluşturmaz. Ancak sunucu ölçeği arttıkça, on binlerce GPU'nun entegrasyonu gerektiğinde cihazların boşta kalma süreleri hızla birikir ve genel kullanım oranı keskin bir şekilde düşer. Bu durum, xAI'nin gerçek çalışma ortamında şu anda ortaya çıkan yazılım yığını içindeki bir dizi tutarsızlığa neden olmaktadır.

Süper kümelerde, GPU çiplerinin kendi hesaplama hızları nispeten hızlıdır; darboğaz, yüksek bant genişlikli belleğin (HBM) veri okuma/yazma hızı ve binlerce sunucu arasındaki ağ iletişimi maliyetidir. Veri iletiminde küçük bir gecikme veya ağ yoğunluğu oluşursa, tüm kümenin GPU'ları veri yüklenmesini beklemek zorunda kalır.

Öte yandan, AI modellerinin eğitimi genellikle aralıklıdır. GPU'lar gerçek hesaplamalar sırasında tam yükte çalışırken, araştırmacılar eğitim sonuçlarını analiz ederken, parametreleri ayarlarken veya veri boru hatlarını işlerken birçok cihaz boşta (Idle) kalır.

%11'in açıkça düşük bir rakam olduğu gerçeğine rağmen, The Information'in haberi, AI alanında yaygın olan bazı endüstri içi kuralları da ortaya koydu: Hesaplama gücü israfı yaygın bir olaydır; bazı büyük şirketlerin araştırmacıları, yönetimin eleştirilerinden kaçınmak veya boşta kalan GPU kotalarının diğer takımlar tarafından ele geçirilmesinden korkarak, hatta kullanım oranını "yapay olarak yükseltmek" için anlamsız eğitim görevlerini tekrar tekrar çalıştırmaktadırlar.

Söylemeyi söylemeyin, bu şekilde yapmak takımdaki kendi GPU kotalarını korumak içindir.

Elbette, bu sadece xAI'a özgü bir sorun değil, tamamen AI endüstrisinde yaygın olan yapısal bir sorundur — bu kadar büyük ölçeklerde AI altyapısının verimli bir şekilde çalıştırılması son derece zor bir zorluktur.

xAI

AI bulut altyapısını çalıştırmak için gerekli olan optimizasyon becerileri, veri, algoritma, model, hesaplama, çekirdek, etkileşim (insan-AI-dünya, ajanlar arası) ve küresel optimizasyonu kapsar ve mühendislik açısından son derece zordur.

Bazı teknoloji devleri, büyük ölçekli altyapı yığınlarını optimize etmeye odaklanarak %40'ın üzerinde bir kullanım oranına ulaşmayı başarmıştır. Meta ve Google, GPU kullanım oranları sırasıyla %43 ve %46 olan bu örneklere dahildir.

xAI'nin yaşadığı zorluklar, mevcut AI silahlanma yarışında "GPU satın almak"ın sadece ilk adım olduğunu, önemlisi bunu iyi kullanmak olduğunu kanıtlamaktadır. Donanım ölçeği, mevcut yazılım mimarilerinin zamanlama kapasitesini aşmıştır.

Ancak xAI, bu sorunu çözmek için çalışmaya başladı ve %50 kullanım oranını hedefliyor. Şu anda kesin bir zaman çizelgesi olmasa da, temel iyileştirmeler, altyapı ve yazılım yığını optimizasyonuna odaklanacak. Gelecekteki iş yükleri, “Ajan AI” (Agentic AI) ihtiyaçlarını karşılamak için tasarlanmış donanım platformlarına taşındıkça, xAI büyük GPU kümelerini kira hizmeti olarak sunma olasılığı yüksektir.

Musk, kendi geliştirilmiş hesaplama gücüne dayalı "TeraFab" projesine yatırım yaparak dönüşüm arıyor: Bir yandan, xAI'nin "Yapay Zeka Çip Ailesi"ne dahil etmek üzere birkaç kendi çipini geliştiriyor; diğer yandan, Musk, gelecekteki xAI, SpaceX ve diğer ilgili iş birlikleri için Intel'in 14A üretim teknolojisinden yararlanmayı hedefliyor.

xAI'nin zorlukları, tüm takipçileri şuna hatırlatıyor: AI yarışının ikinci yarısında, artık daha fazla GPU satın alabilenin kazanacağı anlamına gelmeyebilir.

Referans içerik:

https://www.theinformation.com/newsletters/ai-agenda/xai-shows-hard-use-lot-gpus

Bu yazı, WeChat hesabı "Makine Kalbi" (ID: almosthuman2014) tarafından yazılmıştır, yazar: AI altyapısına odaklanan