Nút thắt chuỗi cung ứng tính toán AI chuyển từ GPU sang điện và làm mát

Tác giả: qinbafrank

Tháng 2, trong bài viết “Điều gì đang ẩn sau cuộc chiến chi tiêu vốn này?” đã đề cập đến các khâu then chốt trong chuỗi giá trị tính toán vẫn có thể thu hút giá trị lớn nhất: chip, đóng gói và kiểm thử, lưu trữ, mô-đun quang, v.v.; những năng lực sản xuất khó mở rộng nhanh chóng và những lĩnh vực có hàng rào cạnh tranh cực kỳ cao sẽ được hưởng lợi từ nguồn chi tiêu vốn khổng lồ;

Vẫn còn nhiều không gian để tối ưu hiệu suất: các phương pháp như tri thức học sinh, lượng tử hóa, MoE, chip chuyên dụng, làm mát bằng chất lỏng, phản ứng nhiệt hạch (dài hạn) có thể giảm thêm 10–100 lần mức tiêu thụ năng lượng và chi phí trên mỗi đơn vị tính toán. Cần tìm kiếm cơ hội tại các khâu này.

Gần đây, nhiều ngân hàng đầu tư như Morgan Stanley, JPMorgan Chase, Bank of America, Goldman Sachs, UBS, Citigroup, Bernstein và HSBC đã công bố các báo cáo cập nhật liên quan đến AI/semiconductor/điện lực/lưu trữ. Sự khan hiếm trong nền tảng phần cứng AI đã lan rộng từ chỉ một yếu tố là "nguồn cung GPU" sang sự căng thẳng đồng thời ở năm khía cạnh: điện lực, chip, lưu trữ, thiết bị và vật liệu.

Nhu cầu về AI đã vượt quá tất cả các khoảng dự đoán của quy hoạch điện truyền thống, năng lực sản xuất thiết bị bán dẫn, mô hình giá bộ nhớ và giả định lắp đặt robot.

Báo cáo tổng quan về chủ đề toàn cầu của Morgan Stanley chỉ ra, lượng token được tiêu thụ hàng tuần bởi các mô hình ngôn ngữ lớn toàn cầu đã tăng vọt từ 6,4 nghìn tỷ lên 22,7 nghìn tỷ trong vòng 3 tháng, tăng 2,5 lần; khoảng hụt điện năng cho trung tâm dữ liệu tại Mỹ giai đoạn 2025-2028 là 55 gigawatt; JPMorgan lần đầu tiên đánh giá các khoản nợ cho dự án tính toán hiệu năng cao trong trung tâm dữ liệu và đưa ra con số khoảng hụt "122 gigawatt cần huy động vốn trong 5 năm tới"; kế hoạch điện của Mỹ trong 5 năm tăng từ 101 gigawatt lên 230 gigawatt, 44% các dự án mới đang chờ thời gian kết nối lưới vượt quá 4 năm; trong báo cáo điều chỉnh giá mục tiêu mới nhất dành cho Alphabet, Bank of America đã nâng chi tiêu vốn năm 2026 lên 181,5 tỷ USD, tăng gấp đôi so với cùng kỳ, trong khi dòng tiền tự do giảm 62% so với năm trước. Ba bộ dữ liệu này không phải là kết quả từ cùng một khung phân tích, mà là những bức tranh độc lập được tạo ra bởi ba tổ chức riêng biệt trên các lộ trình nghiên cứu khác nhau.

Sự tiến hóa của các điểm nghẽn trong chuỗi công nghiệp bán dẫn (đặc biệt là lĩnh vực năng lực tính toán AI) đang tuân theo trình tự rõ ràng: “tính toán (GPU) → lưu trữ (HBM, v.v.) → quang kết nối → điện năng/làm mát bằng chất lỏng”. Đây là sự đồng thuận của ngành vào năm 2025-2026; khi các cụm đào tạo/dự đoán AI mở rộng từ một tủ máy (vài chục GPU) lên quy mô siêu lớn (hàng ngàn đến hàng trăm nghìn GPU), mỗi khi giải quyết một điểm nghẽn, giới hạn vật lý hoặc chuỗi cung ứng tiếp theo sẽ lập tức lộ ra, tạo thành các ràng buộc bổ sung kiểu “Leontief” (thiếu một yếu tố đều không thể giao hàng).

Optical module

Cần hiểu rõ lý do tại sao sự phát triển này xảy ra, tình trạng hiện tại và các nguyên nhân vật lý/kỹ thuật đằng sau nó:

1. Nút thắt giai đoạn đầu: Tính toán GPU (chi phối năm 2022-2024) Giới hạn cốt lõi:

Công suất wafer của GPU cao cấp (như NVIDIA Hopper H100 → Blackwell B200 → Rubin) + đóng gói tiên tiến.

Tại sao lại là điểm nghẽn: Các mô hình AI quy mô lớn yêu cầu tính toán song song khổng lồ, công suất sản xuất của các quy trình logic 4nm/3nm/2nm của TSMC kết hợp với CoWoS (đóng gói 2.5D/3D) từng trở thành điểm nghẽn lớn nhất. Ngay cả khi wafer phía trước đủ, khả năng đóng gói chồng xếp logic chip với HBM ở khâu sau vẫn không theo kịp, dẫn đến không thể sản xuất được toàn bộ GPU.

Tình hình được giải quyết: TSMC mở rộng mạnh mẽ CoWoS (công suất tăng gấp đôi trong năm 2024-2025), NVIDIA Blackwell đã được giao hàng quy mô lớn. Nhưng đây chỉ là việc mở khóa khâu “tính toán”, ngay sau đó sẽ phơi bày các vấn đề mới.

2. Giai đoạn hai: Nút thắt - Lưu trữ (HBM - Bộ nhớ băng thông cao, trở nên khan hiếm nhất vào năm 2024-2025)

Giới hạn cốt lõi: Công suất sản xuất HBM3/HBM3e/HBM4.

Tại sao việc truyền dữ liệu trở thành điểm nghẽn: Công suất tính toán của GPU đã tăng lên, nhưng số lượng tham số mô hình tăng bùng nổ (hàng nghìn tỷ thậm chí hàng chục nghìn tỷ tham số), việc di chuyển dữ liệu (bandwidth bộ nhớ) trở thành “bức tường bộ nhớ”. HBM có thể truyền tải hàng chục TB dữ liệu mỗi giây, nhanh hơn 20 lần so với bộ nhớ DDR thông thường. Do HBM nằm gần chip logic, dữ liệu không cần di chuyển xa, nhờ đó tiết kiệm năng lượng.

Một GPU B200 cần 192GB+ HBM3e, tổng lượng HBM trong một tủ máy (NVL72) đã đạt 30-40TB, và nhu cầu băng thông vượt xa DRAM truyền thống.

Hiện trạng chuỗi cung ứng: Chỉ có SK Hynix, Samsung và Micron có thể sản xuất HBM quy mô lớn, quy trình phức tạp (lỗ xuyên silicon TSV + xếp chồng), năm 2025 đã bán hết sạch, năm 2026 vẫn tiếp tục thiếu hụt, giá tăng 246% so với cùng kỳ. Ngay cả khi chip GPU đã sẵn sàng, nếu không có HBM thì không thể lắp ráp và giao hàng, dẫn đến việc triển khai toàn bộ cụm AI bị hoãn lại.

Kết quả: Lưu trữ đã trở thành khâu then chốt chiến lược, tỷ lệ chi tiêu vốn dành cho lưu trữ có thể đạt tới 30%.

3. Giai đoạn ba: Nút thắt - quang liên kết (đang chuyển đổi trong năm 2025-2026)

Giới hạn cốt lõi: Dây đồng (NVLink/NVSwitch) có giới hạn vật lý về băng thông, khoảng cách, công suất và trọng lượng.

Tại sao phải chuyển sang quang học: Trong một tủ máy (72 GPU), cáp đồng vẫn có thể sử dụng, nhưng khi mở rộng sang nhiều tủ máy và kết nối hàng ngàn GPU, cáp đồng sẽ suy giảm nghiêm trọng (khoảng cách hiệu quả dưới 1 mét ở băng thông 1,8 TB/s), trọng lượng tăng đột biến (hơn 5.000 sợi cáp đồng trong tủ NVL72, tổng trọng lượng 1,36 tấn), và tiêu thụ điện năng cao (việc thay thế cáp đồng bằng mô-đun quang có thể làm tăng thêm 20.000 watt). Tính toàn vẹn tín hiệu, độ trễ và tản nhiệt đều không thể hỗ trợ các cụm lớn hơn.

Giải pháp: Chuyển sang quang liên kết (CPO - Quang học đóng gói chung + Công nghệ quang silicon). Đóng gói trực tiếp động cơ quang bên cạnh GPU/ASIC, sử dụng sợi quang để mở rộng quy mô, mật độ băng thông cao hơn, công suất trên mỗi bit thấp hơn và khoảng cách xa hơn.

Optical module

NVIDIA đã đầu tư mạnh vào các công ty quang học cho GTC 2026, dẫn đến nhu cầu bùng nổ đối với các mô-đun quang 800G/1.6T. Các công ty như lite, Broadcom, Coherent, Ayar Labs trở thành những người chiến thắng mới.

Tiến độ hiện tại: Cáp đồng đã đạt đến giới hạn, kết nối quang đang từ “tùy chọn” trở thành “yêu cầu bắt buộc” và đang phá vỡ trần hiệu năng của trung tâm dữ liệu AI.

4. Giai đoạn 4: Nút thắt (biên giới hiện tại nhất): Điện năng + Làm mát bằng chất lỏng (trở thành ràng buộc vật lý cuối cùng từ năm 2026 trở đi). Ràng buộc cốt lõi: Bức tường công suất + Bức tường tản nhiệt + Kết nối lưới điện.

Tại sao lại là điểm nghẽn cuối cùng: Công suất của mỗi GPU tăng từ 300W lên 700-1200W, công suất của một tủ máy tăng từ 10-20kW (thời kỳ CPU) lên 120-200kW+ hoặc cao hơn nữa. Giới hạn vật lý của làm mát bằng không khí truyền thống chỉ đạt 20-50kW, tiếng ồn, lưu lượng gió và mức tiêu thụ năng lượng đều không thể chấp nhận được.

Phía điện lực: Trung tâm dữ liệu cần nguồn điện cấp GW, thời gian xếp hàng nối lưới điện có thể kéo dài đến vài năm, chu kỳ giao hàng của các thiết bị như máy biến áp, máy biến áp trạng thái rắn đã kéo dài lên đến 100 tuần. CEO của Microsoft từng thẳng thắn nói: “Có GPU nhưng không có ổ cắm điện”.

Phía làm mát bằng chất lỏng: Phải chuyển sang làm mát bằng chất lỏng trực tiếp lên chip (Direct-to-Chip) hoặc làm mát bằng ngâm chìm, kết hợp với các công nghệ như vi lưu khiển, tấm làm mát, v.v. TSMC đã trình diễn làm mát bằng chất lỏng trên nền tảng CoWoS, hỗ trợ TDP >2,6 kW. Các nhà cung cấp làm mát bằng chất lỏng/quản lý nhiệt như Vertiv (VRT) trở thành trung tâm mới của cơ sở hạ tầng.

Hiệu ứng dây chuyền: Yêu cầu về PUE (hiệu suất sử dụng năng lượng) <1,2, thu hồi nhiệt thải và kết nối với điện hạt nhân/năng lượng mới trở thành những chủ đề mới. Ngay cả khi tất cả các khâu trước đó đều được giải quyết, nếu không có điện và làm mát, tủ máy chủ cũng không thể lắp đặt và vận hành.

Optical module

Bản chất logic của việc chuyển dịch điểm nghẽn trong chuỗi công nghiệp tính toán AI: Tính toán AI không phải là vấn đề “điểm đơn lẻ”, mà là hàm sản xuất Leontief cấp hệ thống — GPU, HBM, kết nối, điện năng, làm mát phải được cân bằng theo yếu tố yếu nhất. Mỗi khi một hyperscaler (như Google, Microsoft, Meta...) giải quyết một khâu, họ ngay lập tức đẩy vốn và sự đổi mới sang khâu tiếp theo.

Hiện tại (năm 2026) đang ở giai đoạn chuyển tiếp giữa “việc triển khai nhanh chóng của kết nối quang” và “việc thương mại hóa quy mô lớn về điện/làm mát bằng chất lỏng”, trong tương lai có thể xuất hiện các điểm nghẽn mới (như máy phát laser, vật liệu sợi quang hoặc máy biến áp lưới điện), nhưng chuỗi “tính toán → lưu trữ → quang → điện/làm mát” đã trở thành con đường được ngành công nghiệp công nhận.

Điều này cũng giải thích tại sao logic đầu tư đã chuyển từ NVIDIA/TSMC sang ba ông lớn HBM (như SK Hynix), các nhà sản xuất quang học (Lumentum, Coherent), và cơ sở hạ tầng làm mát bằng chất lỏng/điện lực (Vertiv, các công ty nguồn điện liên quan).

Mỗi lần chuyển dịch điểm nghẽn đều đang tái cấu trúc sự phân bổ giá trị trong toàn bộ chuỗi công nghiệp bán dẫn + trung tâm dữ liệu.