การประมวลผลปัญญาประดิษฐ์ขับเคลื่อนความต้องการหน่วยความจำใหม่ในอุตสาหกรรมเซมิคอนดักเตอร์

การมาถึงยุคของการประมวลผลด้วยปัญญาประดิษฐ์กำลังเปลี่ยนแปลงโครงสร้างความต้องการในอุตสาหกรรมหน่วยความจำเซมิคอนดักเตอร์อย่างพื้นฐาน ด้วยจำนวน Token ที่ออกเฉลี่ยต่อคำถามที่เพิ่มขึ้นกว่า 5 เท่าต่อปี ความต้องการหน่วยความจำจากบริหารจัดการ KV cache และการปรับใช้ตัวแทนปัญญาประดิษฐ์ ได้กลายเป็นสาขาใหม่ที่ท้าทายที่สุดและมีศักยภาพทางตลาดสูงสุดในโครงสร้างพื้นฐานของปัญญาประดิษฐ์

ผู้เขียนบทความ แหล่งที่มา: Semiconductor Industry Observer

ในงาน GTC ไทเปที่จัดขึ้นในเดือนมิถุนายน 2026 ฮวง เหรินซว่ย ผู้ก่อตั้งและซีอีโอของ NVIDIA ได้ชี้ให้เห็นอย่างชัดเจนว่า ระบบหน่วยความจำของ AI จะเปลี่ยนแปลงระบบการจัดเก็บข้อมูลอย่างสิ้นเชิง และจัดให้ระบบหน่วยความจำเป็นหนึ่งในส่วนที่ท้าทายที่สุดของโครงสร้างพื้นฐานด้าน AI การตัดสินใจนี้ชี้ไปที่แรงผลักดันทางโครงสร้างสองประการ: ความต้องการในการถ่ายโอน KV cache ที่เกิดจากงานโหลดการให้เหตุผล และการขยายตัวของความต้องการหน่วยความจำ CPU ที่เกิดจากความเติบโตของ AI ตัวแทน

แนวโน้มข้างต้นได้เริ่มแสดงผลกระทบต่อห่วงโซ่อุตสาหกรรมการจัดเก็บข้อมูลแล้ว NVIDIA ได้เปิดตัวแพลตฟอร์มซอฟต์แวร์ Dynamo และแพลตฟอร์มการจัดเก็บหน่วยความจำบริบท CMX ตามลำดับ ผู้ผลิตชิปชั้นนำเช่น Arm, Intel และ AMD ก็จะเปิดตัวผลิตภัณฑ์ CPU รุ่นใหม่ที่ออกแบบมาสำหรับ AI แบบเอเจนต์อย่างหนาแน่นในปี 2026 อุตสาหกรรมกำลังเร่งเปลี่ยนผ่านจากสถาปัตยกรรมที่เน้นปริมาณการผ่านข้อมูลไปสู่สถาปัตยกรรมที่เน้นความล่าช้าต่ำ

การขยายด้านการอนุมาน: การเติบโตอย่างระเบิดของโทเค็นได้เปลี่ยนแปลงความต้องการฮาร์ดแวร์ ความต้องการฮาร์ดแวร์ในระยะการอนุมานของ AI แตกต่างจากระยะการฝึกอย่างสิ้นเชิง

ตามข้อมูลที่ NVIDIA เปิดเผย ตั้งแต่ครึ่งหลังของปี 2024 จำนวน Token ที่เฉลี่ยออกต่อคำถามได้เพิ่มขึ้นกว่าห้าเท่าต่อปี และปัจจุบันอยู่ที่ประมาณ 30,000 ถึง 40,000 Token แนวโน้มนี้แสดงให้เห็นว่าอุตสาหกรรมได้เข้าสู่ระยะการขยายด้านการให้เหตุผล (Test-time Scaling) ตาม "กฎการขยายสามข้อ" ของ NVIDIA

ตามการวิเคราะห์ของ TrendForce การประมวลผลการอนุมานด้วย AI ต้องการฮาร์ดแวร์ที่มีความต้องการหลักสามประการ: อัตราการสอบถามต่อวินาที (QPS) ที่สูงขึ้น หน้าต่างบริบทที่ยาวนานขึ้น และจำนวนขั้นตอนการอนุมานและวัฏจักรตัวแทนที่มากขึ้น ความต้องการทั้งสามประการนี้ขับเคลื่อนการเปลี่ยนแปลงเชิงโครงสร้างของความต้องการหน่วยความจำในมิติที่แตกต่างกัน โดยแสดงออกอย่างชัดเจนในสามระดับ ได้แก่ น้ำหนักโมเดล แคช KV และตัวแทน AI

น้ำหนักโมเดลเป็นการจัดสรรหน่วยความจำแบบคงที่ ซึ่งปริมาณการใช้งานขึ้นอยู่กับขนาดพารามิเตอร์ของโมเดล โดยมีสูตรคำนวณว่า: ขนาดรวมของน้ำหนักโมเดล = จำนวนพารามิเตอร์ × จำนวนไบต์ต่อพารามิเตอร์ เมื่อขนาดของโมเดลขยายตัวอย่างต่อเนื่อง การใช้งานแบบคงที่นี้จึงกลายเป็นพื้นฐานของความต้องการหน่วยความจำในระบบการให้บริการ

KV cache: การขยายตัวแบบไดนามิกผลักดันเทคโนโลยีการถ่ายโอนและตลาดใหม่สำหรับ SSD POD KV cache เป็นแหล่งที่มาหลักของแรงกดดันด้านหน่วยความจำในขั้นตอนการให้เหตุผล

การจัดเก็บ KV cache เก็บเวกเตอร์กุญแจและค่าที่สร้างขึ้นในขั้นตอนการเติมล่วงหน้าของการอนุมาน เพื่อหลีกเลี่ยงการคำนวณซ้ำซ้อนในขั้นตอนการถอดรหัส ซึ่งเป็นการจัดสรรหน่วยความจำแบบไดนามิก ขนาดรวมของมันถูกกำหนดโดยจำนวนชั้น จำนวนหัว KV ขนาดของแต่ละหัว ความยาวลำดับ ขนาดของชุดข้อมูล และความแม่นยำ โดยจะขยายตัวแบบไม่เป็นเชิงเส้นตามความยาวของการสนทนาและขนาดของชุดข้อมูล

ในสถานการณ์การให้เหตุผลที่มีบริบทยาวและปริมาณงานจำนวนมาก เมื่อหน่วยความจำ HBM ของ GPU ไม่เพียงพอ ระบบจะถูกบังคับให้ทิ้งแคช KV และดำเนินการคำนวณการเติมล่วงหน้าใหม่ ทำให้เกิดความล่าช้าและต้นทุนรวมในการเป็นเจ้าของ (TCO) เพิ่มขึ้น

เพื่อแก้ไขข้อจำกัดนี้ NVIDIA ได้เปิดตัวซอฟต์แวร์ KV Cache Offload ชื่อ Dynamo ในเดือนมีนาคม 2025 ซึ่งจะย้าย KV cache ที่มีการเข้าถึงน้อยไปยังหน่วยความจำ CPU และ SSD ฯลฯ ซึ่งเป็นระดับการจัดเก็บที่มีความจุมากกว่าและต้นทุนต่ำกว่า เพื่อให้มั่นใจว่าข้อมูลยังคงสามารถใช้ซ้ำได้ในขั้นตอนการถอดรหัส

ร่วมกับ Dynamo, NVIDIA จะเปิดตัวแพลตฟอร์มหน่วยความจำบริบท CMX (CMX Context Memory Storage Platform) ในเดือนมกราคม 2026 ซึ่งได้รับการจัดการโดย BlueField-4 DPU และสร้างบนโครงสร้างพื้นฐาน BlueField-4 STX ใช้ BlueField-4 DPU 64 ตัวจัดการความจุประมาณ 9,600 TB ต่อชั้น พร้อมเพิ่มชั้นการจัดเก็บบริบทระดับ Pod ใหม่ที่เรียกว่า G3.5 ระหว่าง SSD แบบท้องถิ่น (ระดับ G3) กับการจัดเก็บแบบร่วมกัน (ระดับ G4)

น่าสังเกตว่าในแบบจำลองโครงสร้าง BlueField-4 DPU ที่แสดงที่ COMPUTEX 2026 ได้ติดตั้งตัวอย่าง SSD PEB210 E1.S และ PE9010 M.2 ของ SK Hynix แล้ว พร้อมกับที่ผู้ผลิตอย่าง NVIDIA และ Google ต่างเปิดตัวแพลตฟอร์ม SSD POD ความต้องการในตลาดนี้คาดว่าจะยังคงเพิ่มขึ้นอย่างต่อเนื่อง

ตัวแทน AI: อัตราส่วน CPU ต่อ GPU ถูกปรับใหม่เป็น 1:1 ทำให้ความต้องการ LPDRAM ขยายตัวตามการปรับใช้ตัวแทน AI ในขนาดใหญ่

ในกระบวนการทำงานของตัวแทนปัญญาประดิษฐ์ โมเดลต้องดำเนินการอย่างแข็งขัน เช่น การวางแผน การเรียกใช้เครื่องมือ การตัดสินใจ และการดำเนินการของตัวแทน งานทั้งหมดที่เกี่ยวข้องกับการจัดการ การส่งข้อมูล และการประเมินตัวแทนย่อยจะถูกดำเนินการโดย CPU ฮวง เหรินซวีชี้ว่า ตัวแทนอาศัยอยู่ในโลกที่มีความล่าช้าในระดับนาโนวินาที ความล่าช้าต่ำมากเป็นความต้องการหลัก ซึ่งทำให้ความสำคัญของสถาปัตยกรรม CPU เพิ่มขึ้นอย่างมาก

TrendForce คาดการณ์ว่า พร้อมกับการขยายขนาดการปรับใช้ AI Agent สัดส่วนภาระงานของ CPU และ GPU จะเปลี่ยนจากเดิมที่อยู่ที่ 1:4 หรือ 1:8 เป็นประมาณ 1:1 สร้างพื้นที่การเติบโตที่สำคัญสำหรับตลาด CPU และกระตุ้นการเติบโตเชิงโครงสร้างของความต้องการหน่วยความจำ CPU ไปพร้อมกัน

NVIDIA จะเปิดตัว Vera CPU ที่ออกแบบมาเฉพาะสำหรับงานโหลด AI ตัวแทนในปี 2026 โดยตามสเปกเดิม Vera รองรับหน่วยความจำ LPDDR5X สูงสุดถึง 1.5 TB ซึ่งมากกว่ารุ่นก่อนหน้า Grace CPU สามเท่า

อย่างไรก็ตาม การสำรวจล่าสุดจาก TrendForce ชี้ให้เห็นว่า NVIDIA ได้ตัดสินใจลดความจุหน่วยความจำ SOCAMM ของโมดูลซูเปอร์ชิป Vera Rubin รุ่นถัดไปลงครึ่งหนึ่ง เนื่องจากกำลังการผลิต LPDRAM ที่ผู้จัดหาจัดสรรให้ NVIDIA ในแผนการผลิตเบื้องต้นปี 2027 ไม่เพียงพอ การปรับเปลี่ยนนี้ไม่ได้สะท้อนถึงการลดลงของความต้องการหน่วยความจำโดยรวมของ NVIDIA

ในตลาด CPU ที่กว้างขึ้น ปี 2026 กำลังกลายเป็นปีของการเปลี่ยนโฉมผลิตภัณฑ์อย่างครบวงจรเพื่อ AI แบบเอเจนต์ Intel เปิดตัว Xeon 6+ (Clearwater Forest) AMD เปิดตัว EPYC Venice Arm เปิดตัว Arm AGI CPU และ AmpereOne MX ของ Ampere ก็คาดว่าจะเข้าสู่การผลิตเชิงพาณิชย์ภายในปีนี้ การก่อตัวของโครงสร้างการแข่งขันแบบหลายฝ่ายจะเร่งการปลดปล่อยความต้องการหน่วยความจำของ CPU ต่อไป

แรงขับเคลื่อนสองประการทำงานร่วมกัน ทำให้产业链การจัดเก็บข้อมูลได้รับโอกาสเชิงโครงสร้าง โดยรวมแล้ว การประมวลผล AI กำลังเปลี่ยนแปลงแผนที่ความต้องการหน่วยความจำในสองมิติที่แยกจากกันแต่สอดคล้องกัน

ประการแรก ภาระงานการให้เหตุผลขับเคลื่อนการใช้งาน KV cache อย่างรวดเร็ว โดยเทคโนโลยีการปลดโหลด KV cache จะดึงข้อมูลจำนวนมากไปยังหน่วยความจำ CPU และ SSD POD พร้อมกับการเร่งการนำไปใช้งานบนแพลตฟอร์มที่เกี่ยวข้อง ความต้องการในตลาดย่อยนี้จึงมีความชัดเจนเพิ่มขึ้นอย่างต่อเนื่อง

ประการที่สอง ตัวแทน AI กำลังผลักดันสัดส่วนภาระงานของ CPU และ GPU ให้ใกล้เคียง 1:1 สร้างพื้นที่ตลาดเพิ่มเติมที่ไม่เคยมีมาก่อนสำหรับ CPU และ LPDRAM ที่เกี่ยวข้อง

สำหรับนักลงทุนในห่วงโซ่อุตสาหกรรมการจัดเก็บข้อมูล แนวโน้มข้างต้นหมายความว่า นอกเหนือจาก HBM แล้ว SSD ระดับองค์กร LPDRAM และผลิตภัณฑ์การจัดเก็บข้อมูลที่เกี่ยวข้องกับ DPU กำลังกลายเป็นจุดสนใจใหม่ในการลงทุนในโครงสร้างพื้นฐาน AI