Kedatangan era inferensi AI sedang membentuk semula secara mendasar格局 permintaan dalam industri penyimpanan semikonduktor. Dengan jumlah token output purata setiap soalan meningkat lebih daripada lima kali setiap tahun, permintaan memori yang diakibatkan oleh pengurusan KV cache dan pelaksanaan AI agen telah menjadi bidang baru yang paling mencabar dan paling berpotensi pasaran dalam infrastruktur AI.
Penulis artikel, sumber: Semiconductor Industry Watch
Pada konvensi GTC Taipei pada Jun 2026, Huang Renxun, pendiri dan CEO NVIDIA, menekankan bahawa sistem memori AI akan mengubah secara radikal sistem penyimpanan, serta menggolongkan sistem memori sebagai salah satu komponen paling mencabar dalam infrastruktur AI. Penilaian ini secara langsung menunjuk kepada dua pendorong keperluan struktur: pertama, keperluan untuk memindahkan cache KV yang dihasilkan oleh beban inferens, dan kedua, pengembangan keperluan memori CPU yang disebabkan oleh bangkitnya AI agen.
Kesan tren di atas terhadap rantai pasokan penyimpanan telah mula nampak. NVIDIA telah memperkenalkan platform perisian Dynamo dan platform penyimpanan ingatan konteks CMX secara berturut-turut, sementara pengeluar cip utama seperti Arm, Intel, dan AMD juga akan menerbitkan produk CPU generasi baharu yang ditujukan untuk AI agen pada tahun 2026. Industri sedang mempercepatkan peralihan dari arsitektur yang berorientasikan throughput ke arsitektur yang berorientasikan latensi rendah.
Pengembangan sisi inferensia: Pertumbuhan eksponensial token membentuk semula keperluan peranti keras. Keperluan peranti keras pada peringkat inferensia AI berbeza secara asas daripada peringkat latihan.
Berdasarkan data awam dari NVIDIA, jumlah token output purata setiap soalan telah meningkat lebih daripada lima kali ganda setiap tahun sejak separuh kedua tahun 2024, dan kini berada pada kira-kira 30,000 hingga 40,000 token. Tren ini menunjukkan bahawa industri telah memasuki peringkat penskalaan sisi inferens "berfikir" dalam "Tiga Hukum Penskalaan" NVIDIA (Test-time Scaling).
Menurut analisis TrendForce, inferens AI menuntut tiga keperluan utama peranti keras: kadar permintaan per saat (QPS) yang lebih tinggi, jendela konteks yang lebih panjang, serta lebih banyak langkah inferens dan kitaran agen. Ketiga-tiga keperluan ini masing-masing mendorong perubahan struktural dalam permintaan memori, yang secara khusus terwujud pada tiga aras: bobot model, cache KV, dan AI agen.
Bobot model merupakan alokasi memori statik, di mana penggunaannya berkaitan langsung dengan skala parameter model, dan formula pengiraannya ialah: Saiz total bobot model = jumlah parameter × bilangan bait setiap parameter. Seiring dengan pembesaran berterusan skala model, penggunaan statik ini membentuk asas permintaan memori sistem inferens.
KV cache: Pengembangan dinamik mendorong teknik pemindahan dan pasaran baru SSD POD
KV cache menyimpan vektor kunci-nilai yang dihasilkan pada fasa pra-isian inferens, untuk mengelakkan pengiraan berulang semasa fasa dekod, dan merupakan sebahagian daripada pengagihan memori dinamik. Saiz keseluruhan ditentukan oleh bilangan lapisan, bilangan kepala KV, dimensi setiap kepala, panjang urutan, saiz batch, dan ketepatan, serta meningkat secara bukan linear seiring dengan peningkatan panjang perbualan dan skala batch.

Dalam skenario inferens dengan konteks panjang dan pemprosesan berbilang, apabila kapasiti HBM GPU tidak mencukupi, sistem akan dipaksa membuang cache KV dan menjalankan semula pengiraan pra-isian, menyebabkan latensi meningkat dan jumlah kos kepemilikan (TCO) bertambah.
Untuk menyelesaikan bottleneck ini, NVIDIA melancarkan perisian KV cache offload, Dynamo, pada Mac 2025, mengalihkan KV cache yang kurang kerap diakses ke lapisan penyimpanan yang lebih besar dan lebih murah seperti memori CPU dan SSD, memastikan data kekal boleh diguna semula pada peringkat dekod.
Dengan integrasi Dynamo, NVIDIA melancarkan platform penyimpanan memori konteks CMX (CMX Context Memory Storage Platform) pada Januari 2026, yang dikelola oleh BlueField-4 DPU dan dibina berdasarkan rak BlueField-4 STX, menggunakan 64 unit BlueField-4 DPU untuk menguruskan kapasiti sekitar 9,600 TB setiap rak, serta menambahkan lapisan penyimpanan konteks per Pod pada aras G3.5 di antara SSD tempatan (aras G3) dan penyimpanan berkongsi (aras G4).

Perlu diperhatikan bahawa model struktur BlueField-4 DPU yang dipamerkan di COMPUTEX 2026 telah dilengkapi dengan sampel SSD E1.S PEB210 dan M.2 PE9010 dari SK Hynix. Seiring dengan pelancaran platform SSD POD oleh NVIDIA, Google dan pembuat lain, permintaan pasaran segmen ini dijangka terus meningkat.
Agen AI: Nisbah CPU terhadap GPU direkabentuk semula kepada 1:1, mendorong permintaan LPDRAM yang semakin meluas bagi pelaksanaan berskala agen AI.
Dalam alur kerja agen AI, model perlu secara aktif melaksanakan perancangan, pemanggilan alat, pengambilan keputusan, dan operasi agen, dengan semua tugas pengaturan, routing data, dan penilaian agen sub dijalankan oleh CPU. Huang Renxun menunjukkan bahawa agen hidup dalam dunia nanodetik, di mana latensi sangat rendah adalah keperluan utama, menjadikan kepentingan arsitektur CPU meningkat secara signifikan.
TrendForce meramalkan, dengan perluasan pelaksanaan AI agen, nisbah beban kerja CPU dan GPU akan berubah daripada 1:4 atau 1:8 secara tradisional kepada kira-kira 1:1, mencipta ruang pertumbuhan yang ketara untuk pasaran CPU, serta mendorong pertumbuhan struktural dalam permintaan memori CPU.
NVIDIA akan melancarkan Vera CPU pada 2026 yang direka khas untuk beban kerja AI agen, yang menurut spesifikasi asal, Vera menyokong kapasiti memori LPDDR5X sehingga 1.5 TB, tiga kali ganda berbanding CPU Grace generasi sebelumnya.
Namun, penyelidikan terkini dari TrendForce menunjukkan bahawa NVIDIA telah memutuskan untuk mengurangkan separuh kapasiti memori SOCAMM pada modul superchip Vera Rubin seterusnya, disebabkan oleh kekurangan kapasiti LPDRAM yang diperuntukkan kepada NVIDIA dalam pelan pengeluaran awal 2027 oleh pemasok; penyesuaian ini tidak mencerminkan penurunan permintaan memori keseluruhan NVIDIA.
Dalam pasaran CPU yang lebih luas, tahun 2026 sedang menjadi tahun penggantian produk menyeluruh untuk AI agen. Intel melancarkan Xeon 6+ (Clearwater Forest), AMD mengeluarkan EPYC Venice, Arm memperkenalkan Arm AGI CPU, dan AmpereOne MX dari Ampere dijangka memasuki pengeluaran berskala besar dalam tahun ini. Pembentukan persaingan pelbagai pihak akan mempercepat lagi pelepasan permintaan memori CPU.
Dua penggerak utama beresonansi, rantai pasokan penyimpanan mengalami peluang struktural. Secara keseluruhan, inferensi AI sedang membentuk semula peta permintaan memori melalui dua dimensi yang saling independen tetapi saling mendukung.
Pertama, beban inferensia mendorong penggunaan KV cache meningkat dengan cepat, dan teknik pemindahan KV cache mengalirkan sejumlah besar data ke memori CPU dan SSD POD. Seiring dengan percepatan pelaksanaan platform terkait, visibilitas permintaan di pasaran segmen ini terus meningkat.
Kedua, agen AI sedang mendorong nisbah beban kerja CPU dan GPU kepada 1:1, mencipta ruang pasaran tambahan yang sebelum ini tidak pernah wujud untuk CPU dan LPDRAM yang sepadan.
Bagi pelabur dalam rantai pasokan penyimpanan, tren di atas bermaksud bahawa SSD perniagaan, LPDRAM, dan produk penyimpanan berkaitan DPU sedang menjadi fokus baharu dalam pelaburan infrastruktur AI selain HBM.
