CPU Menjadi Penghalang Baru di Era AI Kerana Permintaan Melebihi Fokus pada GPU

Dalam beberapa tahun terakhir di mana AI meledak, industri hampir didominasi oleh satu logik: kuasa pengiraan menentukan had atas, dan GPU ialah inti kuasa pengiraan.

Namun, memasuki tahun 2026, logik ini mulai berubah: inferensi model bukan lagi satu-satunya bottleneck, kinerja sistem semakin bergantung pada kemampuan eksekusi dan penjadwalan. GPU masih penting, tetapi kunci utama yang menentukan “bolehkah AI berjalan” perlahan-lahan beralih kepada CPU yang selama ini diabaikan.

Pada 9 April, waktu tempatan AS, Google dan Intel menandatangani perjanjian bertahun-tahun untuk meluaskan penggunaan prosesor "Xeon" Intel secara global di pusat data AI, tepat untuk menyelesaikan sempadan ini. CEO Intel, Chen Liwu, secara terus terang menyatakan bahawa AI beroperasi keseluruhan sistem, dan CPU serta IPU adalah kunci kepada prestasi, kecekapan, dan fleksibiliti. Dengan kata lain, CPU yang selama dua tahun terakhir dianggap sebagai "watak sokongan" kini sedang menghambat pertumbuhan AI.

Google

CEO Intel, Chen Liwu, menyatakan di media sosial: Intel sedang memperdalam kerjasama dengan Google, memperluas dari CPU tradisional ke infrastruktur AI (seperti IPU), untuk bersama-sama memajukan pembangunan kemampuan AI dan komputasi awan.

CPU bukan lagi hanya komponen pelengkap pasif, tetapi sedang menjadi salah satu pemboleh ubah utama dalam infrastruktur AI.

01 Krisis bekalan yang "tenang"

Sementara semua orang memperhatikan tempoh penghantaran GPU, ketegangan pasaran CPU telah meningkat secara halus.

Menurut laporan terkini daripada pelbagai pembahagi IT, harga purata CPU pelayan meningkat sebanyak kira-kira 30% pada suku keempat tahun 2025. Kenaikan ini sangat jarang berlaku di pasaran CPU yang relatif matang.

Forrest Norrod, ketua pusat data AMD, mengungkapkan bahawa permintaan CPU telah meningkat lebih cepat daripada yang dijangka dalam tiga kuartal terakhir. Kini, tempoh penghantaran AMD telah meningkat dari lapan minggu kepada lebih daripada sepuluh minggu, dengan beberapa model mengalami penundaan sehingga enam bulan.

Kekurangan ini terutama disebabkan oleh penarikan sumber daya akibat "efek sekunder". Seorang pakar industri menyatakan bahawa kerana lini pengeluaran 3nm TSMC sangat ketat, kapasiti wafer yang sebelumnya diperuntukkan untuk CPU terus digantikan oleh pesanan GPU yang lebih menguntungkan. Ini mencipta situasi yang sangat ironis: makmal AI memiliki cukup GPU, tetapi mendapati bahawa tidak ada cukup CPU top-of-the-line di pasaran untuk "menggerakkan" kad-kad ini.

Dalam gelombang pembelian CPU ini, ada pula Elon Musk.

CEO Intel, Chen Liwu, mengesahkan di platform sosial bahawa Musk telah meminta Intel untuk merekabentuk dan menghasilkan cip khusus untuk projek “Terafab”nya di Texas. Projek besar ini bertujuan untuk menyediakan dasar pengiraan seragam untuk xAI, SpaceX, dan Tesla.

Kepercayaan Musk terhadap Intel sebahagian besarnya kerana Intel sedang berusaha untuk menanamkan dirinya di setiap peringkat, dari pusat data di tanah hingga pengkomputeran di orbit luar angkasa.

Google

Bagi Intel, ini jelas merupakan suntikan semangat. Walaupun analis industri meramalkan bahawa bahagian pendapatan AMD di pasaran CPU pelayan akan melebihi Intel pada tahun 2026, kekuatan dan kemampuan pengeluaran Intel yang mendalam dalam ekosistem x86 tetap menjadi faktor penting yang tidak boleh diabaikan oleh pelanggan besar seperti Musk.

Pengikatan mendalam antar industri ini sedang meningkatkan persaingan pasaran CPU dari perbandingan parameter semata kepada pertarungan ekosistem dan kestabilan rantaian bekalan.

02 Mengapa CPU menjadi “kelemahan”?

CPU tiba-tiba menjadi bottleneck, kerana sifat kerja yang perlu dipikulnya telah berubah secara mendasar di era agen.

Dalam model chatbot tradisional, CPU terutama bertanggung jawab atas pengendalian dan pemprosesan data, manakala GPU menjalankan pengiraan inferens utama. Oleh kerana bahagian yang intensif pengiraan berfokus di sisi GPU, latensi keseluruhan biasanya ditentukan oleh GPU, dan CPU jarang menjadi bottleneck prestasi.

Namun, beban kerja agen sama sekali berbeza. Satu agen perlu menjalankan penalaran berbilang langkah, memanggil API, membaca dan menulis pangkalan data, mengatur alur perniagaan yang kompleks, serta menggabungkan keputusan sementara menjadi output akhir. Tugas-tugas seperti carian, panggilan API, pelaksanaan kod, I/O fail, dan pengaturan keputusan kebanyakannya berlaku di sisi CPU dan sistem hos. GPU bertanggungjawab atas penghasilan token (iaitu “berfikir”), manakala CPU bertanggungjawab untuk menukar keputusan “berfikir” tersebut menjadi tindakan praktikal.

Dalam kertas kerja berjudul "A CPU-Centric Perspective on Agentic AI" yang diterbitkan pada November 2025 oleh akademik dari Georgia Institute of Technology, analisis kuantitatif telah dilakukan terhadap taburan latensi dalam beban kerja agen. Kajian mendapati bahawa masa yang diambil oleh alat di sisi CPU mengambil 50% hingga 90.6% daripada latensi keseluruhan. Dalam beberapa senario, GPU telah bersedia untuk memproses tugas seterusnya, manakala CPU masih menunggu respons daripada panggilan alat.

Faktor penting lain ialah pengembangan pantas jendela konteks. Pada 2024, model utama kebanyakannya menyokong 128K hingga 200K token. Memasuki 2025, model seperti Gemini 2.5 Pro, GPT-4.1, dan Llama 4 Maverick semuanya mula menyokong lebih daripada 1 juta token. Cache KV (Key-Value Cache, yang digunakan untuk mempercepat proses inferens model Transformers) bertambah secara linear mengikut bilangan token, dan pada 1 juta token ia kira-kira 200GB, jauh melebihi kapasiti memori GPU 80GB pada satu unit H100.

Salah satu penyelesaian untuk masalah ini ialah mengesampingkan sebahagian cache KV ke memori CPU. Ini bermakna CPU tidak hanya perlu menguruskan pengaturan dan pemanggilan alat, tetapi juga membantu menyimpan data yang tidak muat di memori GPU. Kapasiti memori CPU, lebar pita memori, dan kelajuan sambungan antara CPU dan GPU menjadi faktor penting dalam prestasi sistem.

Oleh itu, CPU yang sesuai untuk era agen memerlukan kemampuan akses memori latensi rendah dan konsisten, serta kemampuan kolaborasi peringkat sistem yang lebih kuat, bukan hanya penguatan skala inti tunggal.

03 Apa yang dilakukan oleh pengeluar? Ada yang merebut pasaran, ada yang mengubah reka bentuk

Menghadapi permintaan CPU yang tiba-tiba meledak, beberapa syarikat besar mengambil pendekatan yang berbeza.

Intel merupakan pemimpin lama dalam pasaran CPU server tradisional. Menurut data Mercury Research, pada Q4 2025, Intel masih memegang 60% pangsa pasaran CPU server, AMD memegang 24.3%, dan NVIDIA memegang 6.2%. Namun, selama bertahun-tahun, Intel terus mengejar teknologi baru, dan ledakan permintaan CPU kali ini merupakan peluang sekaligus ujian bagi mereka.

Strategi Intel sekarang adalah berjalan dengan dua kaki. Satu sisi, ia terus menjual prosesor Xeon dan mengikat erat dengan pelanggan skala besar seperti Google; sisi lainnya, ia bekerja sama dengan SambaNova untuk melancarkan solusi gabungan berdasarkan prosesor Xeon dan akselerator RDU buatan sendiri, menonjolkan jualan “bisa menjalankan inferensi agen tanpa GPU”. Rancangan jalan Xeon 6 Granite Rapids dan proses 18A akan menjadi ujian utama sama ada Intel mampu berbalik.

AMD pula merupakan salah satu penerima faedah terbesar dalam ledakan permintaan CPU ini. Pada kuartal keempat 2025, pendapatan pusat data AMD mencapai US$5.4 bilion, meningkat 39% secara tahunan. EPYC generasi kelima Turin menyumbang lebih daripada separuh pendapatan CPU pelayan, dengan pertumbuhan pelaksanaan contoh awan yang berjalan dengan EPYC melebihi 50%. Bahagian pendapatan CPU pelayar AMD pertama kali melepasi 40%.

CEO AMD, Lisa Su, secara langsung menyalin pertumbuhan kepada perkembangan "agen pintar" — beban kerja agen pintar mendorong tugas kembali kepada tugas CPU tradisional.

Pada Februari 2026, AMD juga mengumumkan kemungkinan transaksi dengan Meta bernilai lebih daripada US$100 bilion, membekalkan GPU MI450 dan CPU Venice EPYC.

Namun, AMD masih memiliki ruang untuk peningkatan dalam kerjasama peringkat sistem, dan kurang kemampuan sambungan CPU-GPU berkelajuan tinggi yang matang seperti NVLink C2C. Seiring dengan meningkatnya tuntutan terhadap interaksi data dan kecekapan kerjasama dalam sistem agen, kepentingan bahagian ini juga semakin meningkat.

Pendekatan NVIDIA dalam merekabentuk CPU berbeza sepenuhnya daripada Intel dan AMD.

CPU Grace milik NVIDIA hanya mempunyai 72 teras, manakala AMD EPYC dan Intel Xeon biasanya mempunyai 128 teras. Dion Harris, ketua infrastruktur AI NVIDIA, menjelaskan: "Jika anda adalah perusahaan berskala besar, anda ingin memaksimumkan jumlah teras setiap CPU, yang pada dasarnya akan mengurangkan kos, iaitu kos dolar setiap teras. Jadi ini adalah model perniagaan."

Dengan kata lain, dalam sistem kekuatan pengiraan AI, peranan CPU bukan lagi sebagai pengira utama serba guna, tetapi sebagai "pusat pengurusan" yang melayani GPU. Jika CPU tidak mampu mengikuti, GPU yang mahal akan dipaksa menunggu, dan kecekapan keseluruhan justru menurun.

Oleh itu, NVIDIA secara reka bentuk memberi keutamaan kepada kerjasama yang cekap antara CPU dan GPU. Sebagai contoh, melalui NVLink C2C interconnect, lebar pita antara CPU dan GPU ditingkatkan kepada sekitar 1.8TB/s, jauh melebihi PCIe tradisional, membolehkan CPU mengakses memori GPU secara langsung, yang membuat pengurusan cache KV menjadi jauh lebih mudah.

Sekarang, NVIDIA telah menjual Vera CPU sebagai produk berasingan. CoreWeave ialah pelanggan pertama. Perjanjian dengan Meta lebih mencolok, kerana ini merupakan "penghuraian Grace tulen" pertama mereka dalam skala besar, iaitu CPU ditempatkan secara berasingan dalam skala besar tanpa pasangan GPU.

Analis utama Creative Strategies, Ben Bajarin, menunjukkan bahawa dalam kolaborasi sistem berintensiti tinggi, kapasiti pemprosesan CPU mesti mampu menyesuaikan dengan kelajuan iterasi akselerator. Sekiranya terdapat sebarang penundaan sebanyak satu peratus dalam saluran data, kecekapan ekonomi seluruh kumpulan AI akan terjejas. Usaha untuk mencapai kecekapan sistem yang maksimum ini memaksa semua syarikat besar semula menilai indikator prestasi CPU.

Holger Mueller, Wakil Presiden dan Analis Utama Constellation Research, menyatakan bahawa seiring dengan peralihan beban kerja AI kepada arsitektur berbasis agen, peranan CPU menjadi semakin penting. Beliau menunjukkan: "Dalam dunia agen, agen perlu memanggil API dan pelbagai aplikasi perniagaan, tugas-tugas ini paling sesuai dilakukan oleh CPU."

Beliau juga menambahkan: "Saat ini, belum ada kesepakatan mengenai sama ada GPU atau CPU lebih sesuai untuk tugas inferens. GPU mempunyai kelebihan dalam latihan model, manakala ASIC khusus seperti TPU juga mempunyai kekuatan tersendiri. Tetapi satu perkara jelas: Google perlu mengadopsi arkaitektur pemproses hibrid. Oleh itu, keputusan Google untuk bekerjasama dengan Intel adalah munasabah."

04 Penutup: Era agen pintar, timbangan kuasa pengiraan berayun semula

Dalam pengamatan industri terkini, terdapat satu data yang perlu kita perhatikan. Dalam perjanjian kerjasama senilai US$38 bilion antara Amazon AWS dan OpenAI, pihak rasmi juga secara jelas menyebutkan skala pengembangan "puluhan juta CPU".

Dalam beberapa tahun terakhir, biasanya fokus industri selalu pada "ratusan ribu GPU". Namun, laboratorium terkemuka seperti OpenAI secara aktif menjadikan skala CPU sebagai pemboleh ubah perancangan penting, menghantar isyarat yang jelas kepada dunia: pengembangan beban kerja agen mesti dibina atas infrastruktur CPU yang besar.

Bank Amerika meramalkan, pada tahun 2030, pasaran global CPU berpotensi meningkat dua kali ganda dari nilai semasa sebanyak $27 bilion kepada $60 bilion. Sebahagian besar pertumbuhan ini hampir keseluruhannya akan didorong oleh AI.

Kami sedang menyaksikan infrastruktur baharu yang mulai berkembang: syarikat besar tidak lagi hanya menambah GPU, tetapi juga secara serentak memperluaskan satu lapisan "infrastructure pengagihan CPU" khas untuk menyokong operasi agen AI.

Kerjasama Intel dan Google, serta pelaburan besar oleh Musk dalam cip tersuai, semuanya membuktikan satu fakta: titik kemenangan dalam perlumbaan AI sedang bergerak ke hadapan. Apabila kuasa pengiraan tidak lagi jarang, siapa yang mampu menyelesaikan "bottleneck" peringkat sistem terlebih dahulu, dialah yang akan berjaya dalam permainan bernilai trilion dolar ini.

*Penyumbang khas terjemahan oleh Jinlu juga menyumbang kepada artikel ini.

Artikel ini berasal daripada akaun微信公众号 "Tencent Tech", penulis: Li Helen, penyunting: Xu Qingyang