CPU, Talebin GPU Odaklarını Aşmasıyla AI Döneminde Yeni Darboğaz Oluyor

Yıllar boyunca AI'nın hızla gelişmesiyle sektör, neredeyse tek bir mantıkla yönlendirildi: hesaplama gücü sınırları belirler ve GPU hesaplama gücünün çekirdeğidir.

Ancak 2026 yılına girildikçe bu mantık değişmeye başladı: model çıkarımı artık tek darboğaz değil, sistem performansı giderek yürütme ve zamanlama yeteneğine bağlı hale geliyor. GPU hâlâ önemli, ancak AI'nın "çalışıp çalışmayacağını" belirleyen anahtar, uzun süredir göz ardı edilen CPU'ya doğru kayıyor.

Amerika Birleşik Devletleri yerel saatiyle 9 Nisan'da, Google, Intel'in "Xeon işlemcilerini" küresel AI veri merkezlerinde ölçekli bir şekilde kullanmak için yıllara yayılan bir anlaşma imzaladı; bu, tam olarak bu darboğazı aşmak için yapıldı. Intel CEO'su Chen Liwu, AI'nın tüm sistem üzerinde çalıştığını ve CPU ile IPU'nun performans, verimlilik ve esnekliğin anahtarı olduğunu açıkça belirtti. Başka bir deyişle, geçen iki yıl boyunca "ikincil rol" olarak görülen CPU'lar, AI'nın genişlemesini engelleyen bir boyun sıkıştırması haline geldi.

Google

Intel CEO Chen Liwu, sosyal medyada: Intel, geleneksel CPU'dan AI altyapısına (IPU gibi) genişleyerek Google ile iş birliğini derinleştiriyor ve AI ile bulut hesaplama kapasitelerini birlikte geliştiriyor.

CPU artık pasif bir yardımcı bileşen değil, AI altyapısının kritik değişkenlerinden biri haline geliyor.

01 Sessiz bir tedarik krizi

Herkes GPU teslimat sürelerine bakarken, CPU pazarındaki gerginlik zaten tamamen arttı.

Birden fazla IT dağıtım firmasının en son raporlarına göre, 2025 dördüncü çeyrekte sunucu CPU'larının ortalama satış fiyatı yaklaşık %30 arttı. Bu artış, nispeten olgun bir CPU piyasasında nadiren görülür.

AMD veri merkezi başkanı Forrest Norrod, geçen üç çeyrek boyunca CPU talebinin beklentilerin çok üzerinde olduğunu açıkladı. Şu anda AMD'nin teslimat süreleri, eski sekiz haftadan on haftanın üzerindeye uzadı ve bazı modellerde altı aya kadar gecikmeler yaşanıyor.

Bu kıtlık, "ikincil etkiler" nedeniyle kaynakların çekilişiyle başlamıştır. Sektör içi bir uzman, TSMC'nin 3nm üretim hattının son derece yoğun olması nedeniyle, orijinal olarak CPU'lar için ayrılan wafer kapasitesinin, daha karlı GPU siparişleri tarafından sürekli olarak yer değiştirdiğini belirtti. Bu, son derece ironik bir duruma yol açtı: AI laboratuvarlarının yeterli GPU'ya sahip olmasına rağmen, bu ekran kartlarını "harekete geçirmek" için piyasada yeterli üst düzey CPU bulamadılar.

Bu CPU satın alma dalgasında Elon Musk da var.

Intel CEO Chen Liwu, sosyal medya平台上, Musk'un Texas'taki "Terafab" projesi için özelleştirilmiş çipler tasarlamak ve üretmek üzere Intel'i görevlendirdiğini doğruladı. Bu büyük proje, xAI, SpaceX ve Tesla için tek bir hesaplama altyapısı sağlamayı amaçlıyor.

Elon Musk, Intel'in yerden veri merkezlerinden uzay yörüngesi hesaplamasına kadar her seviyeye kendi kendini entegre etmeye çalışmasından dolayı Intel'e güveniyor.

Google

Bu, Intel için kesinlikle bir destek olacak. Bazı sektör analistleri, AMD'nin sunucu CPU pazarındaki gelir payının 2026 yılında Intel'i geçeceğini tahmin ediyor; ancak Intel'in x86 ekosistemindeki derin köklü varlığı ve üretme kapasitesi, Musk gibi büyük müşterilerin göz ardı edemeyeceği bir avantaj olarak kalıyor.

Bu çoklu sektörlerdeki derin entegrasyon, CPU pazarındaki rekabeti yalnızca parametre karşılaştırmalarından daha fazla, ekosistem ve tedarik zinciri kararlılığı mücadelesine yükseltmektedir.

02 Neden CPU "darboğaz" olur?

CPU aniden bir darboğaz haline geldi, çünkü çekirdeğin üstlendiği işler, ajan eraında temel olarak değişti.

Geleneksel sohbet robotu modellerinde, CPU anahtarlamayı ve veri işleme görevlerini üstlenirken, GPU temel çıkarım hesaplamalarını yürütür. Hesaplama yoğunluğu GPU tarafında yoğunlaştığından, genel gecikme genellikle GPU tarafından belirlenir ve CPU nadiren bir performans engeli oluşturur.

Ancak agent iş yükü tamamen farklıdır. Bir agent, çok adımlı muhakeme yapmalı, API çağırmalı, veritabanını okumalı ve yazmalı, karmaşık iş akışlarını koordine etmeli ve ara sonuçları son çıktıya entegre etmelidir. Arama, API çağrısı, kod yürütme, dosya G/Ç ve sonuç koordinasyonu gibi görevlerin çoğu CPU ve ana sistem tarafında yer alır. GPU, token üretimi (yani “düşünme”) ile sorumludur, CPU ise “düşünme” sonuçlarını gerçek eylemlere dönüştürür.

Georgia Tech araştırmacıları, Kasım 2025'te yayımlanan "A CPU-Centric Perspective on Agentic AI" adlı makalesinde, ajan iş yüklerindeki gecikme dağılımını nicelleştirdi. Araştırma, CPU tarafı araç işleminin toplam gecikmenin %50 ile %90,6'sını kapladığını ortaya koydu. Bazı senaryolarda, GPU bir sonraki görev setini işlemeye hazırken, CPU hâlâ araç çağrısının dönüşünü bekliyor.

Diğer bir kritik faktör, bağlam penceresinin hızlı genişlemesidir. 2024 yılında, ana akım modeller genellikle 128K ila 200K token desteği sunuyordu. 2025'e girildiğinde, Gemini 2.5 Pro, GPT-4.1 ve Llama 4 Maverick gibi modeller 1 milyon tokenin üzerindeki desteği başlatmıştır. KV önbelleği (Key-Value Cache, Transformers modellerinin çıkarım sürecini hızlandırmak için kullanılır), token sayısıyla doğrusal olarak artar ve 1 milyon tokende yaklaşık 200 GB olur, bu da tek bir H100'un 80 GB bellek kapasitesini aşar.

Bu tür sorunlar için bir çözüm, KV önbelleğinin bir kısmını CPU belleğine yüklemektir. Bu, CPU'nun sadece düzenlemeyi ve araç çağrısını yönetmekle kalmayıp, GPU'da sığmayan verileri taşımak için de yardımcı olacağını anlamına gelir. Bu nedenle, CPU belleği kapasitesi, bellek bant genişliği ve CPU ile GPU arasındaki bağlantı hızı, sistemin performansı için kritik hale gelir.

Bu nedenle, agent neslinin gerektirdiği CPU, tekil çekirdek ölçeklendirmesinden ziyade düşük gecikme, tutarlı bellek erişimi ve daha güçlü sistem düzeyi iş birliği yeteneklerine ihtiyaç duyar.

03 Üreticiler ne yapıyor? Kimi yer kapıyor, kimi tasarımı değiştiriyor.

Aniden patlayan CPU talebine karşı birkaç büyük şirketin stratejileri tamamen farklı.

Intel, geleneksel sunucu CPU pazarında liderdir. Mercury Research verilerine göre, 2025 dördüncü çeyrekte Intel, sunucu CPU pazarında %60 paya sahiptir, AMD %24,3, NVIDIA ise %6,2 paya sahiptir. Ancak Intel, yıllardır yeni teknolojileri yakalamak için çaba göstermektedir; bu CPU talebinin patlaması, onlar için hem bir fırsat hem de bir testtir.

Intel'in şu anki stratejisi iki yönlü. Bir yandan Xeon işlemcilerini satmaya devam ederek Google gibi büyük ölçekli müşterilerle derin bağlantılara sahip oluyor; diğer yandan SambaNova ile iş birliği yaparak, Xeon işlemcileri ve kendi geliştirdiği RDU hızlandırıcılarının birleşimine dayalı bir çözüm sunuyor ve “GPU gerekmeden ajan çıkarımı çalıştırma” özelliğini vurguluyor. Xeon 6 Granite Rapids ve 18A proses rota planı, Intel'in dönüşümünü ölçmenin anahtarı olacak.

AMD, bu CPU talep patlamasının en büyük kazanımlarından biri oldu. 2025 dördüncü çeyrekte AMD'nin veri merkezi geliri 5,4 milyar ABD doları oldu ve bir önceki yılın aynı dönemine göre %39 artış sağladı. Beşinci nesil EPYC Turin, sunucu CPU gelirinin yarısından fazlasını oluşturdu ve EPYC çalıştıran bulut örneklerinin dağıtımında bir önceki yılın aynı dönemine göre %50'den fazla artış yaşandı. AMD'nin sunucu CPU gelirindeki payı ilk kez %40'ı aştı.

AMD CEO Lisa Su, büyümenin nedenini "akıllı ajan" gelişimine doğrudan bağladı—akıllı ajan iş yükleri, görevleri geleneksel CPU işlerine geri itti.

Şubat 2026'da AMD, MI450 GPU ve Venice EPYC CPU tedariki için Meta ile 100 milyar doların üzerinde bir potansiyel anlaşma duyurdu.

Ancak AMD, sistem düzeyi iş birliğinde hâlâ geliştirme alanına sahiptir ve NVLink C2C gibi olgun bir yüksek hızlı CPU-GPU bağlantısı eksikliğindedir. Agent sistemlerinin veri etkileşimi ve iş birliği verimliliği talepleri arttıkça, bu bileşenin önemi giderek artmaktadır.

NVIDIA'nın CPU tasarım yaklaşımı, Intel ve AMD'ninkinden tamamen farklıdır.

NVIDIA Grace CPU'nun sadece 72 çekirdeği varken, AMD EPYC ve Intel Xeon genellikle 128 çekirdeğe sahiptir. NVIDIA AI altyapısı müdürü Dion Harris, "Eğer bir ölçeklenebilir şirket iseniz, her CPU'daki çekirdek sayısını maksimize etmek istersiniz, bu da temelde maliyeti, yani her çekirdek başına dolar maliyetini düşürür. Bu nedenle bu bir iş modelidir." diye açıkladı.

Yani AI hesaplama sistemlerinde CPU'nun rolü, genel hesaplamanın ana gücü olmaktan çıkıp GPU'ya hizmet eden bir “koordinasyon merkezi” haline gelmiştir. CPU yavaş kalırsa, pahalı GPU'lar bekleme durumuna düşer ve genel verimlilik azalır.

Bu nedenle NVIDIA, CPU ile GPU arasındaki verimli iş birliğini tasarımda öncelikli hale getirir. Örneğin, NVLink C2C bağlantısı aracılığıyla CPU ile GPU arasındaki bant genişliği yaklaşık 1,8 TB/s'ye çıkarılır, bu da geleneksel PCIe'den çok daha yüksektir; CPU, GPU belleğine doğrudan erişebilir ve KV önbellek yönetimi çok daha basit hale gelir.

Şu anda NVIDIA, Vera CPU'yu bağımsız bir ürün olarak satıyor. CoreWeave ilk müşteri. Meta ile yapılan işlem daha da çarpıcı; bu, CPU'nun GPU ile eşleştirilmeden büyük ölçekli bağımsız dağıtımını temsil eden ilk büyük "sadece Grace dağıtımı".

Creative Strategies araştırmacı kuruluşunun baş analisti Ben Bajarin, yoğun sistem işbirliğinde CPU işleme kapasitesinin hızlandırıcıların yineleme hızıyla eşleşmesi gerektiğini belirtti. Veri kanalında yüzde bir bile gecikme yaşanırsa, tüm AI kümelerinin ekonomik verimliliği büyük ölçüde azalır. Bu uç sistem verimliliği arayışı, tüm büyük şirketlerin CPU performans göstergelerini yeniden gözden geçirmesini zorunlu hale getiriyor.

Constellation Research Başkan Yardımcısı ve Baş Analisti Holger Mueller, AI iş yüklerinin agent odaklı mimarilere doğru kaymasıyla CPU'nun konumunun giderek daha temel hale geldiğini belirtti. "Agent dünyasında, agenter API'leri ve çeşitli iş uygulamalarını çağırma ihtiyaçları duyar; bu görevler CPU tarafından en iyi şekilde yerine getirilir."

Ayrıca şunu ekledi: “Şu anda, GPU'nun mu yoksa CPU'nun mu çıkarım görevleri için daha uygun olduğu konusunda kesin bir fikir yok. GPU, model eğitimi konusunda üstünlük sağlıyor, ancak TPU gibi özel ASIC'lerin de kendi uzmanlık alanları var. Ancak bir şey kesin: Google, karışık işlemci mimarisi benimsemelidir. Bu nedenle, Google'ın Intel ile iş birliği yapma kararı mantıklıdır.”

04 Sonuç: Akıllı sistemler çağında hesaplama gücü dengesi yeniden kuruluyor

En son endüstri gözleminde dikkat etmemiz gereken bir veri var. Amazon AWS ile OpenAI arasında 38 milyar dolarlık iş birliği anlaşmasında, resmi olarak "on milyonlarca CPU" ölçeklendirmesine yer verildi.

Geçtiğimiz birkaç yıl boyunca, genellikle endüstrinin odak noktası her zaman “on binlerce GPU” olmuştur. Ancak OpenAI gibi öncü laboratuvarlar, CPU ölçeğini önemli bir planlama değişkeni olarak öne çıkararak, ajan iş yüklerinin ölçeklendirilmesinin büyük bir CPU altyapısı üzerine kurulması gerektiğini açık bir sinyal vermiştir.

Bank of America, 2030 yılına kadar küresel CPU pazarının mevcut 27 milyar dolarlık değerinden iki katına çıkarak 60 milyar dolara ulaşmasını öngörüyor. Bu ekstra payın neredeyse tamamı AI tarafından oluşturulacak.

Tamamen yeni bir altyapının genişlemesini gözlemliyoruz: büyük şirketler artık yalnızca GPU'ları biriktirmiyor, aynı zamanda AI akıllı ajanlar için çalışma desteği sağlayan tam bir "CPU zamanlama altyapısı" da genişletiyor.

Intel ve Google'ın ortaklığı ile Musk'ın özelleştirilmiş çiplere yaptığı büyük yatırımlar, bir gerçekliği kanıtlıyor: AI yarışmasının kazanım noktası öne kayıyor. Hesaplama gücü nadir olmadığında, sistem düzeyindeki "darboğazları" en önce çözen, bu trilyon dolarlık oyunda sonunda gülümseyecektir.

Bu makaleye özel katkıda bulunan Geyik de katkıda bulundu.

Bu yazı, WeChat hesabından "Tencent Technology" tarafından yayınlanmıştır; yazar: Li Helen, editör: Xu Qingyang