Bu makale, küresel büyük şirketlerin kendi geliştirilmiş AI çiplerine yönelik stratejilerini derinlemesine analiz edecek, ekonomik ve temel teknik mantık çerçevesinde neden teknoloji devlerinin kendi çiplere büyük yatırımlar yapması gerektiğini açıklayacak ve karşılaştıkları zorluklar ile gelecekteki hesaplama altyapısı düzeni üzerine tahminlerde bulunacaktır.

Yazan: 0x9999in1, ME News

Giriş

2022 yılının sonundan beri üretken yapay zekânın patlamasıyla, küresel teknoloji endüstrisi büyük modelleri merkeze alan yeni bir silahlanma yarışına girdi. Bu yarışta, hesaplama gücü, başarıya ulaşmanın temel altyapısı haline geldi. Nvidia, genel amaçlı grafik işlem birimleri (GPU) alanında uzun yıllar birikim kazanması ve CUDA yazılım ekosistemindeki mutlak hakimiyeti sayesinde, bu yapay zeka dalgasının en büyük kârını elde etti. Ancak %70'in üzerindeki brüt kar marjı ve talebi karşılayamayan üretim kapasitesi, küresel bulut hizmet sağlayıcıları (CSP) ve yapay zeka teknoloji devlerini “Nvidia için çalışmak” zorunda kalan bir hesaplama kaygısıyla karşı karşıya bıraktı.

Bu bağlamda, "ME News Akademisi", küresel öncü teknoloji devlerinin stratejik odaklarını alt yapı donanımına doğru hızla kaydırdığını ve tarihte görülmemiş bir "kendi geliştirilen AI çipleri" dalgasını başlattığını gözlemlemektedir. Kuzey Amerika'daki Google, Amazon, Microsoft, Meta'dan Çin'deki Huawei, Baidu, Alibaba ve ByteDance'a kadar büyük şirketlerin çip üretimi, erken dönem "deneme" aşamasından şirketlerin varoluşu için kritik olan "temel strateji" haline gelmiştir. Bu makale, küresel büyük şirketlerin kendi geliştirilen AI çipleri üzerindeki dağılım durumunu derinlemesine analiz edecek, ekonomik ve temel teknik mantık çerçevesinde neden teknoloji devlerinin kendi çiplerine büyük yatırımlar yapmalarının kaçınılmaz olduğunu gösterecek ve karşılaştıkları zorluklar ile gelecekteki hesaplama altyapısı düzeninin nihai halini öngörecektir.

Dünyanın önde gelen teknoloji devlerinin kendi geliştirdiği AI çipleri üzerindeki mevcut durumu

Şu anda küresel büyük şirketlerin kendi geliştirdiği AI çipleri çoğunlukla bulut (veri merkezi) üzerinde yoğunlaşmış olup, eğitim (Training) ve çıkarım (Inference) olmak üzere iki ana senaryoya ayrılmaktadır. NVIDIA'nın evrensellik hedefleyen yolundan farklı olarak, büyük şirketler genellikle belirli dahili iş senaryolarında maksimum verimlilik oranı elde etmek için kısmen evrensellikten ödün vererek özel amaçlı entegre devre (ASIC) mimarilerini kullanmaktadır.

Kuzey Amerika bulut sağlayıcılarının üçlü rekabeti ve kırıcılar

Kuzey Amerika'nın dört büyük bulut sağlayıcısı (dört Hyperscalers), kendi çiplerini geliştirme konusunda zaman farkı yaşasa da şimdi tamamen piyasaya girmiş ve NVIDIA'nın hesaplama gücüne olan bağımlılığını "karşı ağırlık havuzu" olarak oluşturmuştur.

Google: Kendi yolunu izleyen kesin öncü ve standart

Google, derin öğrenmenin temel donanım üzerindeki yeni gereksinimlerini fark eden ilk küresel büyük şirketti. 2015 yılında Google, içsel olarak ilk nesil Tensor Processing Unit (TPU)’yu hayata geçirdi. Yaklaşık on yıllık bir gelişim sürecinden sonra, günümüzde TPU, altıncı nesile (Trillium) ulaştı.

Google'un avantajı, alt katmandaki TPU donanımından, orta katmandaki XLA derleyicisi ve JAX çerçevesine, üst katmandaki Gemini büyük modeline kadar olan kapalı ekosistemidir: Bu tamamlayıcı yazılım-hardware entegrasyonu, Google'ın NVIDIA GPU kümelerine bağlı kalmadan hala dünyada öncü çok modlu büyük modelleri eğitmesini sağlar. TPU v5p ve Trillium'un bağlantı bant genişliği ve yüksek bant genişlikli bellek (HBM) üzerindeki önemli iyileştirmeleri, Google'ın süper ölçekli kümelerde (Cluster) ağ kurma yeteneğinin NVIDIA NVLink ile rekabet edebilecek düzeyde olduğunu kanıtlamaktadır.

Amazon (AWS): Maliyet ve müşteri seçimi üzerine odaklanır

AWS'nin çip üretimi tarihi, 2015 yılında Annapurna Labs'in satın alınmasıyla başladı. AI alanında AWS, Trainium (eğitim odaklı) ve Inferentia (tahmin odaklı) olmak üzere iki ürün hattını geliştirdi. AWS'nin stratejisi son derece pratik bir yaklaşıma sahiptir: Kendi çipleriyle GPU'ları tamamen değiştirmeyi amaçlamaz, aksine AWS bulut müşterilerine maliyet-etkin hesaplama seçenekleri sunar. AWS'nin resmi verilerine göre, Inferentia2 çipiyle büyük modellerin tahmini gerçekleştirilirken, aynı kategorideki Amazon EC2 örneklerine kıyasla her watt başına performans %50 daha yüksektir.

Microsoft ve Meta: Pasif ödeme yapmaktan aktif çözüm üretmeye

Microsoft ve Meta, önceki NVIDIA H100/A100'un en büyük alıcılarıydı. OpenAI'nin eğitimi ve kendi Copilot işlevi için destek sağlamak amacıyla Microsoft, 2023 sonunda kendi AI hızlandırıcı çipini Azure Maia 100 olarak resmen duyurdu. Bu çip, TSMC'nin 5nm üretim sürecini kullanır ve bulut tabanlı eğitim ve çıkarım için özelleştirilmiştir.

Meta'nın yolu, kendi iş modeliyle tamamen uyumludur. MTIA (Meta Training and Inference Accelerator) çipini ilk olarak Facebook ve Instagram reklam önerilerini optimize etmek üzere derin öğrenme öneri modelleri (DLRM) için tasarlamıştır. Llama serisinin açık kaynak büyük modelleri patlamasıyla, yeni nesil MTIA çipleri, milyarlarca çağrının getirdiği pahalı inference maliyetlerini düşürmeyi amaçlayan generatif AI inference desteği konusunda büyük bir artış sağlamıştır.

Çinli büyük şirketlerin yerel alternatifleri ve ekosistem atlakları

Kuzey Amerika'nın büyük şirketlerinin "maliyet azaltma ve verimlilik artırma" mantığından farklı olarak, Çin'in büyük teknoloji devleri, ABD'nin yüksek seviyeli AI çipleri ihracat kısıtlamaları ile karşı karşıya kalınca, kendi AI çiplerini geliştirmek daha çok "temel savunma" ve "tedarik zinciri güvenliği" stratejik bir yön kazanmaktadır.

Huawei: Yerel hesaplama gücüne destek olacak temel unsurlar

Huawei Ascend serisi, şu anda Çin'de NVIDIA A100/H20 ile büyük ölçekli küme eğitiminde yerini alabilecek tek üründür. Ascend 910B, Da Vinci mimarisini kullanır ve CANN (Hesaplama Amaçlı Ağ Nöral Mimarisi) katmanı aracılığıyla MindSpore gibi yerel çerçevelerle derin bir şekilde entegre edilmiştir. Şu anda Çin'deki başlıca büyük modellerin (Koç Üniversitesi Xinghuo, Zhipu AI vb.) yarısından fazlası, Ascend hesaplama altyapısı üzerine uyumlaştırma ve eğitimini tamamlamış veya devam ettirmektedir.

İnternet devlerinin pratik yolu: Baidu, Alibaba ve ByteDance

Baidu'nun Kunlun Çipı, Çin'de ilk olarak hayata geçirilen internet büyük şirketlerinin kendi geliştirdiği AI çiplerinden biridir ve şu anda üçüncü nesile ulaşmıştır; Wenxin Yiyan büyük modelinin çıkarımını ve kısmen ince ayarını tamamen desteklemektedir. Alibaba'nın Pingtouge Yarı İletken Bölümü,含光800 çipini piyasaya sürmüş ve bunu Alibaba'nın e-ticaret arama, görüntü tanıma gibi yüksek yoğunluklu çıkarım senaryolarına odaklanmıştır. Küresel olarak en büyük öneri algoritması hesaplama talebine sahip olan ByteDance, geç giriş yapmasına rağmen, TSMC ve Broadcom gibi çip tasarımı ve üretimi liderleriyle iş birliği yaparak, altındaki DouBao büyük modeli ve TikTok/Douyin'in büyük günlük çıkarım tüketimini karşılamak için özel AI ASIC çipleri geliştiriyor.

Tablo 1: Küresel büyük teknoloji şirketlerinin AI çip dağılımı özeti

Derinlemesine İnceleme: Büyük şirketler neden kendi AI çiplerini geliştirmek için büyük yatırımlar yapmak zorunda?

İleri üretim süreci (5nm/3nm gibi) ile bir AI çipi geliştirmek, maliyeti milyonlarca doları aşar ve büyük ölçekli çip tasarımı ile yazılım doğrulama ekibini desteklemeyi gerektirir. Bu kadar yüksek engellere rağmen teknoloji devleri ardı arkası kesilmeksizin ilerlemeye devam ediyor. «ME News Düşünce Kulübü», bunun arkasında net bir ticari mantık, tedarik zinciri oyunları ve temel teknoloji kurallarının bir araya geldiğini düşünüyor.

Yüksek hesaplama maliyetleri ve sürdürülebilir olmayan iş modeli

Mevcut üretken AI iş modeli, ciddi bir "tersine çevrilme" riskiyle karşı karşıya. Trilyon parametreli bir GPT-4 seviyesi büyük modeli eğitmek, birkaç hafta boyunca on binlerce H100 GPU gerektirir ve yalnızca donanım sermaye harcaması (CapEx) yüz milyonlarca doları aşar. Model dağıtıldıktan sonra ise sürekli çıkarım (Inference) maliyetleri sonsuz bir kuyruğa dönüşür.

NVIDIA'nın trilyon doların üzerinde bir piyasa değeri sahibi olmasının temel nedeni, tüm AI endüstrisine yüksek bir "hesaplama vergisi" uygulamasıdır. Genel amaçlı GPU'lar, grafik işleme (Graphics), çift hassasiyetli kayan nokta işlemi (FP64) gibi fonksiyonları da kapsar; bu fonksiyonlar, çip üzerinde büyük bir transistör alanı kaplar ancak saf derin öğrenmede (ana olarak FP16, FP8 hatta INT8'e dayalı) hiçbir fayda sağlamaz. Büyük şirketler, GPU satın alırken, bu kullanılmayan "karanlık silikon (Dark Silicon)" için ödeme yaparlar.

Özgün olarak tasarlanan ASIC çipleriyle büyük şirketler, tüm gereksiz fonksiyonları kaldırabilir ve her milimetre silikon alanını tensör hesaplamaları ve bellek bant genişliği optimizasyonuna ayırabilir. Endüstri genelindeki değerlendirmelere göre, belirli büyük ölçekli çıkarım senaryolarında özgün ASIC'in tek bir hesaplama maliyeti (TCO hesaplama), genel amaçlı GPU'nun 1/3 ila 1/5'idir. Meta ve Bytedance gibi her gün yüz milyarlarca çıkarım çağrısı yapan şirketler için, özgün çiplerin ölçekli bir şekilde dağıtılması durumunda yıllık operasyonel giderlerde (OpEx) milyarlarca dolar tasarruf sağlanacaktır. On milyarlarca dolarlık maliyet tasarrufu elde etmek için birkaç milyar dolarlık çip geliştirme yatırımı yapmak, kesin bir ekonomik karar demektir.

Tedarik zinciri güvenliği ve coğrafi siyasi risklerin karşılığı

Maliyetin yanı sıra, tedarik zincirinin zayıflığı teknoloji devlerinin üzerinde asılı kalan bir damoklas kılıcıdır. NVIDIA, H100/B200 gibi temel grafik kartları üzerinde mutlak bir söz hakkına sahiptir ve teslimat süreleri genellikle aylarca sürer. Hesaplama gücü olmadan, büyük şirketlerin AI işleri durma noktasına gelir.

Kendi çiplerini geliştirmek, NVIDIA ile karşılaştırdığınızda “pazarlık gücü”nü artırmaktır. Büyük şirketler en ileri model eğitimi konusunda NVIDIA'dan tamamen bağımsız kalamasalar bile, çıkarım ve öneri sistemlerinde kendi çiplerini kullanarak dışarıdan genel GPU'lara olan bağımlılıklarını büyük ölçüde azaltabilir ve satın alma müzakerelerinde daha fazla avantaj elde edebilir.

Çinli şirketler için yerel olarak geliştirilen çipler, kaçınılmaz ve zorunlu bir seçimdir. ABD Ticaret Bakanlığı BIS'in ihracat kontrolleri nedeniyle, yerel şirketler en yüksek hesaplama yoğunluğuna ve en yüksek bağlantı bant genişliğine sahip ticari çiplere erişememektedir. Yerel olarak geliştirerek ve yerel ya da ABD dışı yarı iletken üretimi sistemleriyle birleştirerek, bağımsız ve kontrol edilebilir bir hesaplama altyapısı kurmak, ulusal yapay zeka egemenliğini ve şirketlerin veri merkezi işlevlerinin sürdürülebilirliğini garanti altına almanın tek yoluudur.

Yumuşak ve sert koordinasyon optimizasyonu ve farklılaşma rekabet engelleri

Moor Yasası'nın yavaşlamaya başladığı bugün, yalnızca çip üretim sürecindeki ilerlemelerin (5nm'den 3nm'e, ardından 2nm'e) sağladığı performans artışı marjinal hale gelmektedir. Geleceğin hesaplama gücü atılımları, artık "yazılım tarafından tanımlanan donanım" ve "yazılım-hardware ortak tasarımı (Hardware-Software Co-design)" üzerine odaklanacaktır.

Genel amaçlı GPU, binlerce farklı uygulama ve algoritma ile uyumlu olmalıdır, bu nedenle mimarisi dengeli olmalıdır. Büyük şirketlerin kendi kendine geliştirdiği çipler ise, kendi temel büyük modellerinin veri türlerine, seyreklik özelliklerine ve iletişim desenlerine göre hedefe yönelik optimize edilebilir.

Örneğin, büyük bir şirketin odak noktası uzun bağlam (long-context) büyük dil modelleri çıkarımıysa, kendi geliştirdiği çip, hesaplama tepe değerini (FLOPS) takip etmek yerine, üzerindeki SRAM kapasitesini veya HBM bellek bant genişliğini maksimum seviyeye çıkartacak şekilde tasarlanabilir. Bu tür bir yaklaşım, kendi AI algoritmalarını alt katman silikonuna “kazımak” anlamına gelir ve rakiplerin kolayca kopyalayamayacağı bir performans deneyimi yaratır, böylece derin bir rekabet avantajı oluşturur.

Kendi geliştirilen AI çipleriyle karşılaşılan gerçek zorluklar ve çözüm yolları

Kendi geliştirilen AI çip stratejisinin değerinin açık olmasına rağmen, bu kesinlikle kolay bir yol değildir. Aklına göre çip üretmek, büyük miktarlarda para kaybına neden olabilir ve kendi AI işinin yenilenme hızını yavaşlatabilir.

Ekosistem engellerini aşıyor: CUDA'nın koruma duvarı gerçekten ne kadar derin?

NVIDIA'ın en korkutucu engeli donanım performansı değil, neredeyse yirmi yıldır sürdürülen CUDA yazılım ekosistemi. Şu anda küresel olarak büyük çoğunlukta AI geliştiricileri ve en üst düzey AI algoritma kütüphaneleri (PyTorch'un alt seviye operatörleri gibi) CUDA ile derin bir şekilde bağlı.

Büyük şirketlerin kendi geliştirdiği çiplerinin karşılaştığı en büyük zorluk, "iyi üretmek ama kullanmak zor" durumudur. Çipin akışını başarıyla tamamlasanız bile, geliştiricilerin yeni çipin derleyicisine uyum sağlamak için aylarca alt seviye kodu yeniden yazması gerekirse, bu çip içerde yaygınlaştırılamaz.

Çözüm için endüstri, CUDA'ya yönelik bir "çevreleme" başlatıyor. Bir yandan büyük şirketler kendi derleyicilerini (örneğin Google'ın XLA'sı) geliştiriyor; diğer yandan OpenAI'nin sunduğu Triton açık kaynak programlama dili büyük umutlarla karşılanıyor. Triton, CUDA'dan daha yüksek bir soyutlama seviyesi sunmayı amaçlıyor ve geliştiriciler bir kez kod yazdığında, Triton derleyicisi bu kodu farklı alt seviye donanımlara (Nvidia GPU'ları, AMD GPU'ları ve hatta çeşitli ASIC'ler) uygun makine koduna dönüştürüyor. Triton veya benzeri bir ara katman ekosistemi olgunlaştığında, CUDA'nın kilitlenme süresi büyük ölçüde zayıflayacak ve büyük şirketlerin kendi çiplerine geçiş maliyetleri önemli ölçüde düşecektir.

Küçük ölçekli araştırma ve geliştirme maliyetleri ile ölçek ekonomisi arasındaki mücadele

Çip endüstrisi, "ölçek ekonomisi" vurgusunun çok güçlü olduğu bir kazananın tümünü alacağı bir pazardır. NVIDIA, milyonlarca GPU satışını küresel olarak dağıtarak büyük araştırma ve geliştirme maliyetlerini karşılayabilir. Büyük şirketlerin kendi geliştirdiği çipler ise genellikle yalnızca iç kullanım veya kendi bulut müşterileri için kullanılır ve satış miktarı on binlerce veya yüz binlerce seviyesindedir.

Yeterli ölçek sağlanamazsa, kendi geliştirilen çiplerin birim maliyeti, genel amaçlı GPU’ların doğrudan satın alınmasından çok daha yüksek olacaktır. Bu nedenle, kendi geliştirilen AI çipleri sadece “az sayıdaki devlerin oynayabileceği cesaret oyunu” olmak zorundadır. Orta ve uzun kuyruklu teknoloji şirketleri için, temel AI çiplerini kendi kendine geliştirmek hem maliyet açısından sürdürülebilir değil hem de NVIDIA gibi profesyonel çip üreticilerinin teknoloji gelişim hızıyla yürütemiyor; daha akıllıca bir seçim, mevcut hesaplama bulut hizmetlerini benimsemektir.

Tablo 2: Ticari genel amaçlı GPU ile büyük şirketlerin kendi geliştirdiği ASIC çiplerinin avantaj ve dezavantajları karşılaştırması

Tahmin: Gelecekteki hesaplama gücü yapısının nihai gelişimi

Yukarıdaki analizler doğrultusunda, "ME News Akıl Hocası", gelecek 3-5 yıl içindeki küresel AI hesaplama kapasitesi durumunu şu şekilde değerlendiriyor:

“Bir süper güç, çok sayıda güçlü”ten “dikey bölünme”ye: GPU eğitimde öncü, ASIC çıkarımda hakim

NVIDIA, ön plana çıkan AI modellerinin sınırlarını araştırmada uzun bir süre boyunca yerini alamayacak bir lider olmaya devam edecektir. Çünkü son derece karmaşık büyük ölçekli parametre eğitimi sırasında algoritmalar hala yüksek belirsizliğe sahiptir ve bu aşamada GPU'nun genel esnekliği ile CUDA ekosisteminin hata düzeltme ve esneklik özellikleri son derece gereklidir.

Ancak modelin olgunlaşmasından sonraki çıkarım (Inference) aşamasında ve büyük ölçekli internet uygulamalarında (örneğin kısa video önerileri, arama motoru yeniden yazma) genel amaçlı GPU'ların yüksek maliyeti, şirketlerin özgün özel ASIC'lere tamamen geçmesine neden olacaktır. Geleceğin veri merkezleri heterojen olacaktır: Az sayıda çok pahalı GPU kümeleri “cübbeleri” (bir sonraki nesil büyük modellerin eğitimi) için kullanılacakken, milyonlarca özgün ASIC kümesi her gün milyarlarca kullanıcı isteğini karşılayacaktır.

Özelleştirilmiş çip (Custom Silicon), bulut hizmetlerinin standart bir parçası haline geldi

Günümüzde büyük veri merkezlerinin sunucu ana kartlarını ve soğutma sistemlerini kendi kendine tasarlaması gibi, çip alt katmanında özelleştirme yapmak, üst düzey bulut sağlayıcılarının (CSP) standart bir özelliği haline gelecektir. Kendi çiplerini geliştirebilme yeteneği, bulut sağlayıcılarının müşterilere AI hizmetleri sunarken temel rekabet avantajı olacaktır. Alt katman donanımını kendi kendine geliştiremeyen bulut hizmet sağlayıcıları, gelecekteki fiyat savaşlarında tamamen kâr marjı kaybına uğrayacak ve sadece “veri merkezi ikinci kiracı” haline gelecektir.

Özetle, büyük şirketlerin kendi AI çiplerini geliştirmesi, NVIDIA'nın tamamen ortadan kaldırılmasını amaçlamıyor; bunun yerine, AI dönemi alt katman kazanç dağılımı hakkındaki bir savaş. Bu şirketler, çıkarım ve içsel kritik iş süreçlerinde hesaplama bağımsızlığını sağlayarak teknolojinin kritik kontrolünü ve ticari kazançları yeniden ele geçiriyor. Bu yazılım-hardware entegrasyonlu derin değişimin içinde, hesaplama gücü artık sadece satın alınabilir bir ürün değil, şirketlerin en temel stratejik varlıkları haline geliyor.

Kaynak:

Semianalysis. (2024). AI Çıkarım Ekonomisi: GPU'lar ile Özelleştirilmiş Çip.
Stanford University HAI. (2024). Yapay Zeka Endeks Raporu 2024.
Bloomberg Technology. (2023). Microsoft, Nvidia Üzerindeki Bağımlılığı Azaltmak İçin AI Çipini Tanıtacak.
Patterson, D., vb. (2021). Karbondioksit Emisyonları ve Büyük Sinir Ağı Eğitimi. arXiv ön baskı.
AWS Resmi Blogu. (2023). Amazon EC2 Inf2 Örnekleri: Düşük Maliyetli, Yüksek Performanslı Üretken Yapay Zeka İçin.