Ang AI Inference ay Nagdudulot ng Bagong Hiling sa Memorya sa Industriya ng Semiconductor

Ang pagdating ng panahon ng AI inference ay nagpapabago sa pamantayan ng pangangailangan sa industriya ng semiconductor memory. Habang ang average na bilang ng output token bawat tanong ay tumataas ng higit sa limang beses bawat taon, ang pangangailangan sa memory mula sa KV cache management at deployment ng AI agent ay naging isa sa pinakamahirap at pinakamalaking potensyal na emerging field sa AI infrastructure.

May-akda ng artikulo, pinagkukunan: Semiconductor Industry Observer

Sa GTC Taipei Conference noong Hunyo 2026, ipinakita ni Jensen Huang, tagapagtatag at CEO ng NVIDIA, na ang memory system ng AI ay magpapalit sa mga sistema ng pag-iimbak, at isinama niya ang memory system bilang isa sa pinakamahirap na bahagi ng AI infrastructure. Ang pagtataya na ito ay direktang tumutukoy sa dalawang structural demand drivers: ang pangangailangan para sa KV cache offloading na dulot ng inference workloads, at ang paglalawak ng pangangailangan sa CPU memory dulot ng pag-usbong ng agent-based AI.

Ang epekto ng mga trend na ito sa supply chain ng pag-iimbak ay nagsisimula nang makita. Ipinakilala ng NVIDIA ang Dynamo software platform at ang CMX context memory storage platform, habang ang mga pangunahing manufacturer ng chip tulad ng Arm, Intel, at AMD ay magpapalabas din ng mga bagong henerasyon ng CPU na nakatuon sa AI agent noong 2026. Ang industriya ay mabilis na lumilipat mula sa mga arkitekturang nakatuon sa throughput patungo sa mga arkitekturang nakatuon sa mababang latency.

Pagpapalawak sa pag-iisip: Ang pagpapalago ng token ay bumabagabag sa pangangailangan sa hardware. Ang mga pangangailangan sa hardware sa yugto ng AI inference ay may malaking pagkakaiba sa yugto ng pagtuturo.

Batay sa pampublikong data ni NVIDIA, ang average na bilang ng output tokens bawat tanong ay tumataas ng higit sa limang beses bawat taon mula pa noong ikalawang kalahati ng 2024, at kasalukuyang nasa halos 30,000 hanggang 40,000 na tokens. Ipapakita ng trend na ito na ang industriya ay nasa pagsisimula na ng "test-time scaling" sa mga "Three Scaling Laws" ni NVIDIA.

Ayon sa pag-aanalisa ng TrendForce, ang AI inference ay nagtataguyod ng tatlong pangunahing pangangailangan sa hardware: mas mataas na queries per second (QPS), mas mahabang context window, at mas maraming inference steps at agent cycles. Ang tatlong pangangailangan na ito ay nagdadala ng struktural na pagbabago sa pangangailangan sa memory, na nakikita sa tatlong antas: model weights, KV cache, at agent AI.

Ang mga timbang ng modelo ay kabilang sa static memory allocation, at ang kanilang paggamit ay diretso na nakadepende sa laki ng mga parameter ng modelo, na may pormula: Kabuuang laki ng mga timbang ng modelo = bilang ng mga parameter × bilang ng bytes bawat parameter. Habang patuloy na lumalaki ang laki ng modelo, ang static na paggamit na ito ay nagsisilbing pundasyon sa pangangailangan sa memorya ng sistema ng inference.

KV cache: Ang dinamikong pagpapalawak ay naglilikha ng teknolohiya para sa pag-transfer at bagong merkado para sa SSD POD. Ang KV cache ay ang pangunahing pinagkukunan ng presyur sa memorya sa pagkakaintindi.

Ang KV cache ay nag-iimbak ng mga key-value vector na ginawa sa pre-fill phase ng inference upang maiwasan ang redundant na computation sa decoding phase, at ito ay isang uri ng dynamic memory allocation. Ang kabuuang laki nito ay tinukoy ng bilang ng layers, bilang ng KV heads, dimensyon bawat head, haba ng sequence, laki ng batch, at precision, at lumalaki nang nonlinear kasabay ng pagdami ng haba ng usapan at laki ng batch.

Sa mga skenaryo ng pagpapatakbo na may mahabang konteksto at malaking batch, kapag kulang ang kapasidad ng HBM ng GPU, sasabihin ng sistema na tanggalin ang KV cache at muling pagsasagawa ng pre-fill computation, na nagdudulot ng pagtaas ng latency at pagdami ng total cost of ownership (TCO).

Upang lutasin ang bottleneck na ito, inilabas ng NVIDIA ang Dynamo, isang software para sa offloading ng KV cache, noong Marso 2025, na nag-o-offload ng mga mababang kalikasan na KV cache sa mas malaking at mas mura storage tier tulad ng CPU memory at SSD, upang siguraduhin ang pagkakaroon ng muling paggamit ng data sa dekodipikasyon phase.

Kasabay ng Dynamo, ipinakilala ng NVIDIA noong Enero 2026 ang CMX Context Memory Storage Platform, na pinagmamana ng BlueField-4 DPU, na binubuo ng BlueField-4 STX rack, na may 64 na BlueField-4 DPU na nagpapamahala sa halos 9,600 TB na kapasidad bawat rack, at nagdaragdag ng isang Pod-level context storage layer sa G3.5 sa pagitan ng lokal na SSD (G3 layer) at shared storage (G4 layer).

Mahalagang tandaan na ang modelo ng BlueField-4 DPU na ipinakita sa COMPUTEX 2026 ay may kasamang mga sample ng PEB210 E1.S at PE9010 M.2 SSD mula sa SK Hynix. Kasabay ng paglalabas ng SSD POD platform ng NVIDIA, Google, at iba pang mga kumpanya, inaasahan na patuloy na tataas ang pangangailangan sa segment na ito.

AI agent: Ang rasyo ng CPU at GPU ay muling binubuo sa 1:1, na nagdudulot ng paglalawak ng pangangailangan para sa LPDRAM sa mas malawak na pag-deploy ng AI agent.

Sa AI agent workflow, ang model ay dapat aktibong mag-execute ng pagpaplano, pagtawag ng mga tool, pagdedesisyon, at agent actions, at lahat ng orchestration, data routing, at pag-e-evaluate ng sub-agents ay ginagawa ng CPU. Sinabi ni Huang Renxun na ang mga agent ay nabubuhay sa mundo ng nanosecond, at ang ultra-low latency ay ang pangunahing pangangailangan, na nagpapataas ng kahalagahan ng CPU architecture.

Inaasahan ng TrendForce na habang lumalawak ang pag-deploy ng agent AI, ang ratio ng workload ng CPU at GPU ay magsisilbi mula sa tradisyonal na 1:4 o 1:8 patungo sa halos 1:1, na gumagawa ng malaking dagdag na espasyo para sa merkado ng CPU at nagtataguyod nang paralelo ng struktural na paglago sa pangangailangan ng CPU memory.

Ang NVIDIA ay maglalabas ng Vera CPU noong 2026 na disenyo para sa mga workload ng agent AI; ayon sa orihinal na spesipikasyon, ang Vera ay sumusuporta sa hanggang 1.5 TB ng LPDDR5X memory capacity, na tatlong beses ang dami ng nakaraang henerasyon ng Grace CPU.

Gayunpaman, ayon sa pinakabagong pag-aaral ng TrendForce, desisyon na ng NVIDIA na bawasan ng kalahati ang memorya ng SOCAMM sa susunod na henerasyon ng Vera Rubin superchip module dahil sa kakulangan ng kapasidad ng LPDRAM na nakalaan para sa NVIDIA sa kanilang unang produksyon plan para sa 2027—ang pagbabagong ito ay hindi nagpapakita ng pagbaba sa pangkabuuang pangangailangan ng NVIDIA sa memorya.

Sa mas malawak na merkado ng CPU, ang 2026 ay naging taon ng komprehensibong pagbabago ng produkto para sa agent AI. Ipinakilala ni Intel ang Xeon 6+ (Clearwater Forest), inilunsad ni AMD ang EPYC Venice, ipinakilala ni Arm ang Arm AGI CPU, at inaasahan na mabubukas na ng produksyon ng Ampere ang AmpereOne MX sa loob ng taon. Ang pagkakaroon ng maraming kalahati ay magpapabilis pa sa paglalabas ng pangangailangan sa CPU memory.

Ang dalawang pangunahing drive ay nagkakatugma, at ang chain ng pag-iimbak ay dumating sa estruktural na pagkakataon. Sa kabuuan, ang AI inference ay nagbabago sa landscape ng pangangailangan sa memorya mula sa dalawang magkakaibangunit ngunit nagkakasundong dimensyon.

Una, ang mga workloads ng pagdededebate ay nagdudulot ng mabilis na paglaki ng paggamit ng KV cache; ang teknolohiya ng pag-offload ng KV cache ay nagdadala ng malaking dami ng data patungo sa CPU memory at SSD POD, at kasabay ng pagpapabilis ng pagpapatupad ng mga kaugnay na platform, patuloy na tumataas ang pagkakakilanlan ng pangangailangan sa segment na ito.

Pangalawa, ang AI agent ay nagpapadala ng ratio ng workload ng CPU at GPU patungo sa 1:1, gumagawa ng bagong market space para sa CPU at kasamang LPDRAM na dating hindi umiiral.

Para sa mga investor sa supply chain ng pag-iimbak, ang mga trend na ito ay nangangahulugan na ang enterprise SSD, LPDRAM, at kaugnay na mga produkto ng pag-iimbak para sa DPU ay nagsisimula nang maging bagong tulong sa pag-invest sa infrastruktura ng AI, maliban sa HBM.