CPU Menjadi Hambatan Baru di Era AI karena Permintaan Melebihi Fokus pada GPU

Selama bertahun-tahun puncak perkembangan AI, industri hampir didominasi oleh satu logika: daya komputasi menentukan batas atas, dan GPU adalah inti dari daya komputasi.

Namun, memasuki tahun 2026, logika ini mulai berubah: inferensi model bukan lagi satu-satunya hambatan, kinerja sistem semakin bergantung pada kemampuan eksekusi dan penjadwalan. GPU tetap penting, tetapi kunci utama yang menentukan apakah AI "dapat berjalan" perlahan beralih ke CPU yang sebelumnya diabaikan.

Pada 9 April waktu setempat di Amerika Serikat, Google dan Intel mencapai kesepakatan bertahun-tahun untuk secara luas menerapkan prosesor "Xeon" milik Intel di pusat data AI global, tepatnya untuk mengatasi hambatan ini. CEO Intel, Chen Liwu, secara terbuka menyatakan bahwa AI berjalan di seluruh sistem, dan CPU serta IPU adalah kunci kinerja, efisiensi, dan fleksibilitas. Dengan kata lain, CPU yang selama dua tahun terakhir dianggap sebagai "pendukung" kini sedang menghambat pertumbuhan AI.

Google

CEO Intel, Victor Peng, menyatakan di media sosial: Intel sedang memperdalam kerja sama dengan Google, memperluas dari CPU tradisional ke infrastruktur AI (seperti IPU), untuk bersama-sama memajukan pembangunan kemampuan AI dan komputasi awan.

CPU tidak lagi hanya menjadi komponen pendukung pasif, tetapi sedang menjadi salah satu variabel kunci dalam infrastruktur AI.

01 Krisis pasokan yang "tenang"

Saat semua orang memperhatikan siklus pengiriman GPU, ketegangan di pasar CPU telah meningkat secara diam-diam.

Menurut laporan terbaru dari beberapa distributor TI, rata-rata harga jual CPU server naik sekitar 30% pada kuartal keempat tahun 2025. Kenaikan semacam ini sangat jarang terjadi di pasar CPU yang relatif matang.

Forrest Norrod, kepala pusat data AMD, mengungkapkan bahwa selama tiga kuartal terakhir, permintaan CPU tumbuh lebih cepat dari yang diperkirakan. Saat ini, masa pengiriman AMD telah memanjang dari delapan minggu menjadi lebih dari sepuluh minggu, dengan beberapa model mengalami penundaan hingga enam bulan.

Kekurangan ini terutama disebabkan oleh penarikan sumber daya akibat efek sekunder. Seorang ahli industri menyatakan bahwa karena lini produksi 3nm TSMC sangat padat, kapasitas wafer yang awalnya dialokasikan untuk CPU terus digantikan oleh pesanan GPU yang lebih menguntungkan. Hal ini menciptakan situasi yang sangat ironis: laboratorium AI memiliki cukup GPU, tetapi menemukan bahwa tidak ada cukup CPU kelas atas di pasar untuk “menggerakkan” kartu-kartu ini.

Dalam gelombang pembelian CPU kali ini, ada juga Elon Musk.

CEO Intel, Chen Liwu, mengonfirmasi di platform sosial bahwa Musk telah meminta Intel untuk merancang dan memproduksi chip khusus untuk proyek "Terafab" di Texas. Proyek besar ini bertujuan untuk menyediakan dasar komputasi terpadu bagi xAI, SpaceX, dan Tesla.

Kepercayaan Musk terhadap Intel sebagian besar karena Intel berusaha menanamkan dirinya di setiap lapisan, dari pusat data darat hingga komputasi di orbit luar angkasa.

Google

Bagi Intel, ini jelas menjadi dorongan kuat. Beberapa analis industri memprediksi pangsa pendapatan AMD di pasar CPU server akan melebihi Intel pada tahun 2026, tetapi daya tarik mendalam dan kapasitas manufaktur Intel dalam ekosistem x86 tetap menjadi faktor yang tidak bisa diabaikan oleh klien besar seperti Musk.

Pengikatan mendalam lintas industri ini sedang meningkatkan persaingan pasar CPU dari sekadar perbandingan parameter menjadi pertarungan antara ekosistem dan stabilitas rantai pasokan.

02 Mengapa CPU menjadi "bottleneck"?

CPU tiba-tiba menjadi bottleneck, karena pekerjaan yang harus dijalankannya mengalami perubahan mendasar di era agen.

Dalam model chatbot tradisional, CPU terutama bertanggung jawab atas penjadwalan dan pemrosesan data, sementara GPU menangani perhitungan inferensi inti. Karena tahap yang padat komputasi terkonsentrasi di sisi GPU, latensi keseluruhan biasanya didominasi oleh GPU, dan CPU jarang menjadi hambatan kinerja.

Namun, beban kerja agen sama sekali berbeda. Sebuah agen perlu melakukan inferensi multi-langkah, memanggil API, membaca dan menulis database, mengoordinasikan alur bisnis yang kompleks, serta mengintegrasikan hasil sementara menjadi output akhir. Tugas-tugas seperti pencarian, pemanggilan API, eksekusi kode, I/O file, dan pengaturan hasil sebagian besar jatuh pada CPU dan sisi sistem host. GPU bertanggung jawab atas generasi token (yaitu “berpikir”), sementara CPU bertanggung jawab mengubah hasil “berpikir” tersebut menjadi tindakan nyata.

Dalam makalah berjudul "A CPU-Centric Perspective on Agentic AI" yang diterbitkan pada November 2025 oleh para peneliti Georgia Tech, dilakukan analisis kuantitatif terhadap distribusi latensi dalam beban kerja agen. Penelitian menemukan bahwa waktu yang dihabiskan untuk pemrosesan alat di sisi CPU menyumbang 50% hingga 90,6% dari total latensi. Dalam beberapa skenario, GPU telah siap untuk memproses tugas berikutnya, sementara CPU masih menunggu respons dari panggilan alat.

Faktor kunci lainnya adalah perluasan cepat jendela konteks. Pada 2024, model utama sebagian besar mendukung 128K hingga 200K token. Memasuki 2025, model seperti Gemini 2.5 Pro, GPT-4.1, dan Llama 4 Maverick mulai mendukung lebih dari 1 juta token. KV cache (Key-Value Cache, yang digunakan untuk mempercepat proses inferensi model Transformers) tumbuh secara linier seiring jumlah token, mencapai sekitar 200 GB pada 1 juta token, jauh melebihi kapasitas memori GPU 80 GB dari satu H100.

Salah satu solusi untuk masalah semacam ini adalah meng-unload sebagian cache KV ke memori CPU. Ini berarti CPU tidak hanya harus mengelola orkestrasi dan pemanggilan alat, tetapi juga membantu menampung data yang tidak muat di memori GPU. Kapasitas memori CPU, bandwidth memori, serta kecepatan interkoneksi antara CPU dan GPU, kini menjadi kunci kinerja sistem.

Oleh karena itu, CPU yang cocok untuk era agen lebih membutuhkan kemampuan akses memori dengan latensi rendah dan konsisten, serta kemampuan kolaborasi tingkat sistem yang lebih kuat, daripada hanya ekspansi skala inti tunggal.

03 Apa yang sedang dilakukan para produsen? Ada yang merebut pasar, ada yang mengubah desain

Menghadapi permintaan CPU yang tiba-tiba meledak ini, beberapa perusahaan besar memiliki pendekatan yang berbeda-beda.

Intel adalah pemimpin pasar CPU server tradisional. Menurut data Mercury Research, pada kuartal keempat 2025, Intel masih menyumbang 60% pangsa pasar CPU server, AMD sebesar 24,3%, dan NVIDIA sebesar 6,2%. Namun, selama bertahun-tahun Intel terus mengejar teknologi baru, dan ledakan permintaan CPU kali ini menjadi peluang sekaligus ujian bagi mereka.

Strategi Intel saat ini adalah berjalan dengan dua kaki. Di satu sisi, mereka terus menjual prosesor Xeon dan menjalin kemitraan mendalam dengan pelanggan skala besar seperti Google; di sisi lain, mereka bekerja sama dengan SambaNova untuk meluncurkan solusi kombinasi berbasis prosesor Xeon dan accelerator RDU buatan sendiri, dengan menonjolkan keunggulan “bisa menjalankan inferensi agen tanpa GPU”. Rencana jalan Xeon 6 Granite Rapids dan proses 18A akan menjadi kunci untuk menguji apakah Intel bisa bangkit kembali.

AMD juga merupakan salah satu penerima manfaat terbesar dalam ledakan permintaan CPU kali ini. Pada kuartal keempat 2025, pendapatan pusat data AMD mencapai 5,4 miliar dolar AS, meningkat 39% secara tahunan. EPYC generasi kelima Turin menyumbang lebih dari setengah pendapatan CPU server, dengan peningkatan lebih dari 50% dalam penyebaran contoh cloud yang menjalankan EPYC. Pangsa pendapatan CPU server AMD pertama kali melampaui 40%.

CEO AMD, Lisa Su, secara langsung menyalahkan pertumbuhan tersebut pada perkembangan "agen" — beban kerja agen mendorong tugas kembali ke tugas CPU tradisional.

Pada Februari 2026, AMD juga mengumumkan potensi transaksi senilai lebih dari $100 miliar dengan Meta, menyediakan GPU MI450 dan CPU Venice EPYC.

Namun, AMD masih memiliki ruang untuk peningkatan dalam kolaborasi tingkat sistem, dan belum memiliki kemampuan interkoneksi CPU-GPU berkecepatan tinggi yang matang seperti NVLink C2C. Seiring meningkatnya persyaratan terhadap interaksi data dan efisiensi kolaborasi dalam sistem agen, pentingnya aspek ini pun terus meningkat.

Pendekatan NVIDIA dalam merancang CPU sama sekali berbeda dari Intel dan AMD.

CPU Grace dari NVIDIA hanya memiliki 72 inti, sementara AMD EPYC dan Intel Xeon biasanya memiliki 128 inti. Dion Harris, kepala infrastruktur AI NVIDIA, menjelaskan: "Jika Anda adalah perusahaan skala besar, Anda ingin memaksimalkan jumlah inti per CPU, yang pada dasarnya akan menurunkan biaya, yaitu biaya dolar per inti. Jadi ini adalah model bisnis."

Dengan kata lain, dalam sistem komputasi AI, peran CPU bukan lagi sebagai pusat komputasi umum, melainkan sebagai "pusat pengaturan" yang melayani GPU. Jika CPU tidak mampu mengikuti, GPU yang mahal akan terpaksa menunggu, sehingga efisiensi keseluruhan justru menurun.

Oleh karena itu, NVIDIA secara desain memprioritaskan kolaborasi efisien antara CPU dan GPU. Misalnya, melalui interkoneksi NVLink C2C, bandwidth antara CPU dan GPU ditingkatkan menjadi sekitar 1,8 TB/s, jauh lebih tinggi daripada PCIe tradisional, sehingga CPU dapat mengakses memori GPU secara langsung, dan manajemen cache KV menjadi jauh lebih sederhana.

Saat ini, NVIDIA telah menjual Vera CPU sebagai produk terpisah. CoreWeave adalah pelanggan pertama. Transaksi dengan Meta lebih spektakuler, ini adalah "deploymen Grace murni" pertama mereka dalam skala besar, yaitu CPU yang dideploy secara mandiri dalam skala besar tanpa pasangan GPU.

Analis utama Creative Strategies, Ben Bajarin, menunjukkan bahwa dalam kolaborasi sistem intensif, kapasitas pemrosesan CPU harus mampu menyamai kecepatan iterasi akselerator. Jika terjadi penundaan sekecil satu persen pada saluran data, efisiensi ekonomi seluruh klaster AI akan sangat terpengaruh. Pencarian terhadap efisiensi sistem maksimal ini memaksa semua perusahaan besar untuk meninjau ulang indikator kinerja CPU.

Holger Mueller, Wakil Presiden dan Analis Utama Constellation Research, menyatakan bahwa seiring pergeseran beban kerja AI ke arsitektur berbasis agen, peran CPU menjadi semakin sentral. Ia menunjukkan: "Dalam dunia agen, agen perlu memanggil API dan berbagai aplikasi bisnis, tugas-tugas ini paling cocok diselesaikan oleh CPU."

Dia juga menambahkan: "Saat ini, belum ada kesimpulan pasti mengenai apakah GPU atau CPU lebih cocok untuk menangani tugas inferensi. GPU memiliki keunggulan dalam pelatihan model, sementara ASIC khusus seperti TPU juga memiliki keunggulan tersendiri. Namun, satu hal yang jelas: Google perlu mengadopsi arsitektur prosesor hibrida. Oleh karena itu, keputusan Google untuk bekerja sama dengan Intel adalah wajar."

04 Penutup: Di era agen cerdas, timbangan daya komputasi kembali seimbang

Dalam pengamatan industri terbaru, ada satu data yang perlu kita perhatikan. Dalam kesepakatan kerja sama senilai hingga 38 miliar dolar AS antara Amazon AWS dan OpenAI, pihak resmi juga secara jelas menyebutkan skala ekspansi "puluhan juta CPU".

Dalam beberapa tahun terakhir, biasanya fokus industri selalu pada "ratusan ribu GPU". Namun, laboratorium terdepan seperti OpenAI secara aktif menjadikan skala CPU sebagai variabel perencanaan penting, mengirimkan sinyal jelas kepada publik: ekspansi beban kerja agen harus didasarkan pada infrastruktur CPU yang besar.

Bank Amerika memprediksi, pada tahun 2030, pasar global CPU berpotensi meningkat dua kali lipat dari saat ini sebesar $27 miliar menjadi $60 miliar. Sebagian besar pertumbuhan ini hampir seluruhnya akan didorong oleh AI.

Kami sedang menyaksikan infrastruktur baru mulai berkembang: perusahaan besar tidak lagi hanya menambah GPU, tetapi juga secara bersamaan memperluas lapisan "infrastruktur penjadwalan CPU" khusus untuk mendukung operasi agen AI.

Kolaborasi Intel dan Google, serta investasi besar Elon Musk pada chip khusus, semuanya membuktikan satu fakta: titik kemenangan dalam perlombaan AI sedang bergeser ke depan. Ketika daya komputasi tidak lagi langka, siapa yang pertama kali menyelesaikan "bottleneck" tingkat sistem, dialah yang akan menang dalam permainan bernilai triliunan ini.

*Artikel ini juga memiliki kontribusi dari penerjemah khusus Jinlu.

Artikel ini berasal dari akun WeChat "Tencent Tech", penulis: Li Helen, editor: Xu Qingyang