ข้อจำกัดในห่วงโซ่อุปทานการคำนวณด้วยปัญญาประดิษฐ์เปลี่ยนจาก GPU เป็นพลังงานและการระบายความร้อน

ผู้เขียน: qinbafrank

ในเดือนกุมภาพันธ์ ได้พูดถึงในหัวข้อ “การใช้ทุนด้านการลงทุนในครั้งนี้มีความหมายอย่างไร?” ว่า ขั้นตอนสำคัญในห่วงโซ่อุตสาหกรรมพลังการคำนวณยังคงสามารถแสวงหาค่ามากที่สุด เช่น ชิป การบรรจุและทดสอบ การจัดเก็บ โมดูลแสง เป็นต้น ความสามารถในการผลิตที่ไม่สามารถขยายตัวได้อย่างรวดเร็ว และสิ่งที่มีกำแพงกันแข่งขันสูงมาก จะได้รับประโยชน์จากเงินทุนจำนวนมาก

ยังมีพื้นที่ในการปรับปรุงประสิทธิภาพอีกมาก: การลดขนาดแบบเรียนรู้จากโมเดล การลดความละเอียดแบบควอนตัม MoE ชิปเฉพาะทาง การระบายความร้อนด้วยของเหลว และฟิวชันนิวเคลียร์ (ระยะยาว) อาจลดการใช้พลังงานและต้นทุนต่อหน่วยการประมวลผลลงอีก 10–100 เท่า ควรค้นหาโอกาสในขั้นตอนเหล่านี้

ธนาคารการลงทุนชั้นนำหลายแห่ง ได้แก่ Morgan Stanley, JPMorgan Chase, Bank of America, Goldman Sachs, UBS, Citigroup, Bernstein และ HSBC ได้เผยแพร่รายงานอัปเดตเกี่ยวกับ AI/เซมิคอนดักเตอร์/พลังงาน/การจัดเก็บข้อมูล ข้อจำกัดของฮาร์ดแวร์ AI ได้ขยายจากมิติเดียวคือ "การจัดหา GPU" ไปสู่ความตึงตัวร่วมกันในห้ามิติ ได้แก่ พลังงาน ชิป การจัดเก็บข้อมูล อุปกรณ์ และวัสดุ

ความต้องการด้าน AI ได้ vượtพ้นช่วงการพยากรณ์ทั้งหมดของแผนการใช้พลังงานแบบดั้งเดิม กำลังการผลิตอุปกรณ์เซมิคอนดักเตอร์ แบบจำลองราคาหน่วยความจำ และสมมติฐานการติดตั้งหุ่นยนต์

รายงานทบทวนหัวข้อระดับโลกของมอร์แกน สแตนลีย์ ชี้ให้เห็นว่า ปริมาณ token ที่ใช้ไปต่อสัปดาห์ของโมเดลภาษาขนาดใหญ่ทั่วโลกเพิ่มขึ้นจาก 6.4 ล้านล้านไปยัง 22.7 ล้านล้านภายในเวลา 3 เดือน หรือเพิ่มขึ้น 2.5 เท่า โดยมีช่องว่างด้านไฟฟ้าสำหรับศูนย์ข้อมูลในสหรัฐอเมริกาในช่วงปี 2025-2028 อยู่ที่ 55 กิกะวัตต์; รายงานการออกพันธบัตรสำหรับโครงการคอมพิวเตอร์ประสิทธิภาพสูงของศูนย์ข้อมูลจากโจนส์ แอนด์ แม็กซ์ ซึ่งให้การประเมินครั้งแรก ระบุช่องว่างการระดมทุนที่ "122 กิกะวัตต์ในอีก 5 ปีข้างหน้า" โดยแผนการจัดหาไฟฟ้าของสหรัฐอเมริกาในระยะ 5 ปีเพิ่มขึ้นจาก 101 กิกะวัตต์เป็น 230 กิกะวัตต์ และ 44% ของโครงการใหม่ต้องรอเวลาเชื่อมต่อเข้าระบบมากกว่า 4 ปี; ในรายงานราคาเป้าหมายล่าสุดของแบงก์ ออฟ อเมริกาสำหรับอัลฟาเบท ค่าใช้จ่ายด้านทุนในปี 2026 ถูกปรับขึ้นเป็น 181.5 พันล้านดอลลาร์สหรัฐ เพิ่มขึ้นเป็นสองเท่าเมื่อเทียบปีก่อนหน้า และกระแสเงินสดเสรีลดลง 62% เหล่านี้คือข้อมูลสามชุดที่ไม่ได้มาจากกรอบแนวคิดเดียวกัน แต่เป็นภาพวาดอิสระจากสถาบันสามแห่งที่ดำเนินการวิจัยด้วยแนวทางที่ต่างกัน

การพัฒนาของข้อจำกัดในห่วงโซ่อุตสาหกรรมเซมิคอนดักเตอร์ (โดยเฉพาะในด้านพลังการคำนวณ AI) ได้ดำเนินไปตามลำดับที่ชัดเจนจาก “การคำนวณ (GPU) → การจัดเก็บข้อมูล (HBM ฯลฯ) → การเชื่อมต่อแบบแสง → ไฟฟ้า/การระบายความร้อนด้วยของเหลว” นี่คือข้อตกลงของอุตสาหกรรมในปี 2025-2026 เมื่อคลัสเตอร์การฝึกอบรม/การให้บริการ AI ขยายตัวจากหนึ่งตู้ (หลายสิบ GPU) ไปสู่ขนาดใหญ่ยิ่ง (หลายพันถึงหลายแสน GPU) การแก้ไขข้อจำกัดในแต่ละขั้นตอนจะเปิดเผยข้อจำกัดทางกายภาพหรือห่วงโซ่อุปทานถัดไปทันที สร้างข้อจำกัดแบบเสริมกันแบบ “เลออนตีฟ” (Leontief-style) — ขาดหนึ่งส่วนก็ไม่สามารถส่งมอบสินค้าได้

ออปติคัล มอดูล

จำเป็นต้องเข้าใจว่าทำไมการเปลี่ยนแปลงนี้จึงเกิดขึ้น สถานการณ์ปัจจุบัน และเหตุผลทางฟิสิกส์/วิศวกรรมที่อยู่เบื้องหลัง:

1. ข้อจำกัดระยะแรก: การคำนวณด้วย GPU (เป็นที่โดดเด่นในปี 2022-2024) ข้อจำกัดหลัก:

กำลังการผลิตวเฟอร์ของ GPU ระดับสูง (เช่น NVIDIA Hopper H100 → Blackwell B200 → Rubin) บวกกับการแพ็กเกจขั้นสูง

เหตุผลที่เป็นข้อจำกัด: โมเดล AI ขนาดใหญ่ต้องการการคำนวณแบบขนานปริมาณมหาศาล กำลังการผลิตของกระบวนการโลจิก TSMC 4nm/3nm/2nm ร่วมกับ CoWoS (การแพ็คเกจ 2.5D/3D) 一度กลายเป็นจุดคอขวดที่ใหญ่ที่สุด แม้ว่าจะมีวัสดุซิลิคอนด้านหน้าเพียงพอ แต่ความสามารถในการแพ็คเกจแบบเรียงซ้อนชิปโลจิกกับ HBM ด้านหลังยังตามไม่ทัน ส่งผลให้ GPU ทั้งตัวไม่สามารถผลิตออกมาได้

การบรรเทาสถานการณ์: TSMC ขยายกำลังการผลิต CoWoS อย่างมาก (เพิ่มเป็นสองเท่าในปี 2024-2025) และ NVIDIA Blackwell ได้ส่งออกในปริมาณใหญ่แล้ว แต่นี่เป็นเพียงการปลดล็อกส่วน “การคำนวณ” เท่านั้น ซึ่งจะเปิดเผยปัญหาใหม่ทันทีถัดไป

2. ขั้นตอนที่สอง: ข้อจำกัดด้านการจัดเก็บ (HBM หน่วยความจำแบนด์วิดธ์สูง จะกลายเป็นสิ่งที่ขาดแคลนที่สุดในปี 2024-2025)

ข้อจำกัดหลัก: กำลังการผลิต HBM3/HBM3e/HBM4

เหตุผลที่การส่งต่อกลายเป็นข้อจำกัด: ความสามารถในการประมวลผลของ GPU เพิ่มขึ้น แต่พารามิเตอร์ของโมเดลเติบโตอย่างระเบิด (ถึงล้านล้านหรือสิบล้านล้านพารามิเตอร์) ทำให้การย้ายข้อมูล (memory bandwidth) กลายเป็น “กำแพงหน่วยความจำ” HBM สามารถถ่ายโอนข้อมูลได้หลายเทราไบต์ต่อวินาที รวดเร็วกว่าหน่วยความจำ DDR ทั่วไปกว่า 20 เท่า เนื่องจาก HBM อยู่ใกล้กับชิปโลจิก ข้อมูลจึงไม่ต้องเดินทางไกล จึงช่วยลดการใช้พลังงาน

GPU หนึ่งตัว B200 ต้องการ HBM3e มากกว่า 192GB โดยรวม HBM ต่อตู้เครื่องเดียว (NVL72) 已达 30-40TB และความต้องการแบนด์วิดธ์สูงกว่า DRAM แบบดั้งเดิมมาก

สถานการณ์ห่วงโซ่อุปทานปัจจุบัน: มีเพียง SK Hynix, Samsung และ Micron เท่านั้นที่สามารถผลิต HBM ในปริมาณใหญ่ กระบวนการซับซ้อน (TSV + การเรียงซ้อน) ปี 2025 หมดสต็อกหมดแล้ว ปี 2026 ยังคงขาดแคลนต่อเนื่อง ราคาพุ่งขึ้น 246% เมื่อเทียบปีก่อน แม้ชิป GPU จะพร้อม แต่หากไม่มี HBM ก็ไม่สามารถประกอบและจัดส่งได้ ส่งผลให้การติดตั้งคลัสเตอร์ AI ล่าช้า

ผลลัพธ์: การจัดเก็บข้อมูลได้เปลี่ยนจากสินค้าธรรมดาเป็นจุดที่ถูกจำกัดเชิงยุทธศาสตร์ ค่าใช้จ่ายด้านทุนสำหรับการจัดเก็บข้อมูลสามารถสูงถึง 30%

3. ข้อจำกัดในระยะที่สาม: การเชื่อมต่อด้วยแสง (กำลังเปลี่ยนผ่านในปี 2025-2026)

ข้อจำกัดหลัก: สายทองแดง (NVLink/NVSwitch) มีขีดจำกัดทางกายภาพในด้านแบนด์วิดธ์ ระยะทาง การใช้พลังงาน และน้ำหนัก

เหตุผลที่ต้องเปลี่ยนไปใช้แสง: ในหนึ่งตู้เดียว (72 หน่วย GPU) ยังสามารถใช้สายทองแดงได้ แต่เมื่อขยายไปยังหลายตู้หรือเชื่อมต่อ GPU นับพันหน่วย สายทองแดงจะมีการสูญเสียสัญญาณอย่างรุนแรง (ระยะทางที่มีประสิทธิภาพน้อยกว่า 1 เมตรภายใต้แบนด์วิดธ์ 1.8 TB/s) น้ำหนักเพิ่มขึ้นอย่างมหาศาล (ตู้ NVL72 ใช้สายทองแดงมากกว่า 5,000 เส้น น้ำหนักรวม 1.36 ตัน) และใช้พลังงานสูง (การแทนที่สายทองแดงด้วยโมดูลแสงแบบถอดเปลี่ยนได้จะเพิ่มการใช้พลังงานอีก 20,000 วัตต์) ความสมบูรณ์ของสัญญาณ ความล่าช้า และการระบายความร้อน ไม่สามารถรองรับคลัสเตอร์ขนาดใหญ่ขึ้นได้

วิธีแก้ไข: เปลี่ยนไปใช้การเชื่อมต่อด้วยแสง (CPO: Co-Packaged Optics + เทคโนโลยีฟอตอนิกส์บนซิลิคอน) โดยติดตั้งอีนจินแสงไว้ใกล้กับ GPU/ASIC โดยใช้ไฟเบอร์ออปติกสำหรับการขยายขนาด (Scale-Out) ซึ่งมีความหนาแน่นแบนด์วิดธ์สูงขึ้น ใช้พลังงานต่อบิตต่ำลง และสามารถส่งสัญญาณได้ไกลขึ้น

ออปติคัล มอดูล

NVIDIA ได้ลงทุนอย่างหนักในบริษัทออปติคัลสำหรับ GTC 2026 ทำให้ความต้องการโมดูลออปติคัล 800G/1.6T เพิ่มขึ้นอย่างก้าวกระโดด ผู้ชนะรายใหม่ได้แก่ Lite, Broadcom, Coherent, Ayar Labs เป็นต้น

ความคืบหน้าปัจจุบัน: สายทองแดง已达极限 แสงเชื่อมต่อกำลังเปลี่ยนจาก “ตัวเลือก” เป็น “สิ่งจำเป็น” และกำลังทำลายขีดจำกัดประสิทธิภาพของศูนย์ข้อมูล AI

4. ข้อจำกัดระยะที่สี่ (ขอบเขตล่าสุดปัจจุบัน): ไฟฟ้า + การระบายความร้อนด้วยของเหลว (จะกลายเป็นข้อจำกัดทางกายภาพสุดท้ายตั้งแต่ปี 2026) ข้อจำกัดหลัก: กำแพงกำลังไฟฟ้า + กำแพงการระบายความร้อน + การเชื่อมต่อกริดไฟฟ้า

ทำไมจึงเป็นข้อจำกัดสุดท้าย: แต่ละ GPU เพิ่มจาก 300W เป็น 700-1200W ขณะที่ตู้เครื่องเดียวพุ่งจาก 10-20kW (ยุค CPU) เป็น 120-200kW+ หรือสูงกว่านั้น อีกทั้งขีดจำกัดทางกายภาพของระบบระบายความร้อนด้วยอากาศแบบดั้งเดิมอยู่ที่เพียง 20-50kW เสียงรบกวน ปริมาณลม และการใช้พลังงานล้วนไม่สามารถยอมรับได้

ด้านพลังงาน: ศูนย์ข้อมูลต้องการพลังงานระดับกิกะวัตต์ การเชื่อมต่อกับโครงข่ายไฟฟ้าอาจต้องรอเป็นปีๆ ระยะเวลาการจัดส่งอุปกรณ์เช่น เทอร์บินและเทอร์บินสถานะของแข็งยืดออกเป็น 100 สัปดาห์ ซีอีโอของไมโครซอฟท์เคยกล่าวอย่างตรงไปตรงมาว่า “มี GPU แต่ไม่มีปลั๊กไฟ”

ด้านการระบายความร้อนด้วยของเหลว: ต้องเปลี่ยนไปใช้ระบบ Direct-to-Chip (การระบายความร้อนด้วยของเหลวโดยตรงกับชิป) หรือการจุ่มชิปในของเหลว ร่วมกับเทคโนโลยีเช่น ไมโครฟลูอิดิกส์ และแผ่นระบายความร้อน เทสซีได้แสดงตัวอย่างการระบายความร้อนด้วยซิลิคอนบนแพลตฟอร์ม CoWoS ซึ่งรองรับ TDP มากกว่า 2.6kW ผู้ผลิตระบบการจัดการความร้อนและของเหลว เช่น Vertiv (VRT) จึงกลายเป็นหัวใจหลักใหม่ของโครงสร้างพื้นฐาน

ผลกระทบแบบลูกโซ่: ข้อกำหนดด้าน PUE (ประสิทธิภาพการใช้พลังงาน) ต้องน้อยกว่า 1.2 การรีไซเคิลความร้อนที่เหลือ การเชื่อมต่อพลังงานนิวเคลียร์/พลังงานใหม่จึงกลายเป็นหัวข้อใหม่ แม้ว่าทุกขั้นตอนก่อนหน้านี้จะแก้ไขได้แล้ว แต่หากไม่มีไฟฟ้าและระบบระบายความร้อน เครื่องเซิร์ฟเวอร์ก็ไม่สามารถติดตั้งและดำเนินการได้

ออปติคัล มอดูล

แก่นหลักของความเป็นจุดติดขัดในห่วงโซ่อุตสาหกรรมพลังการคำนวณ AI ไม่ใช่ปัญหา “จุดเดียว” แต่เป็นฟังก์ชันการผลิตเลออนตีฟในระดับระบบ—GPU, HBM, การเชื่อมต่อ, ไฟฟ้า, และการระบายความร้อน ต้องถูกจับคู่ตามข้อจำกัดของส่วนที่อ่อนแอที่สุด เมื่อผู้ให้บริการรายใหญ่ (เช่น Google, Microsoft, Meta) แก้ไขปัญหาหนึ่ง พวกเขาจะทันทีผลักดันทุนและนวัตกรรมไปยังขั้นตอนถัดไป

ในปัจจุบัน (ปี 2026) อยู่ในช่วงเปลี่ยนผ่านระหว่าง “การเร่งการนำไปใช้งานของ optical interconnects” กับ “การใช้งานเชิงพาณิชย์ในขนาดใหญ่ของพลังงาน/การระบายความร้อนด้วยของเหลว” อนาคตอาจเกิดข้อจำกัดใหม่ขึ้นอีก (เช่น เลเซอร์ วัสดุไฟเบอร์ออปติก หรือหม้อแปลงไฟฟ้า) แต่ห่วงโซ่ “การคำนวณ → การจัดเก็บ → แสง → ไฟฟ้า/การระบายความร้อน” นี้ได้รับการยอมรับเป็นทางเดินมาตรฐานของอุตสาหกรรม

สิ่งนี้ยังอธิบายว่าทำไมตรรกะการลงทุนจึงเปลี่ยนจาก NVIDIA/TSMC เป็นผู้ผลิต HBM สามรายใหญ่ (เช่น SK Hynix) ผู้ผลิตอุปกรณ์แสงออปติคัล (Lumentum, Coherent) และโครงสร้างพื้นฐานการระบายความร้อนด้วยของเหลว/พลังงาน (Vertiv บริษัทจ่ายไฟที่เกี่ยวข้อง)

ทุกครั้งที่เกิดการเปลี่ยนแปลงจุดคอขวด กำลังเปลี่ยนการจัดสรรค่าของ产业链 ทั้งเซมิคอนดักเตอร์และศูนย์ข้อมูล