CPU trở thành điểm nghẽn mới trong thời đại AI khi nhu cầu vượt quá sự tập trung vào GPU

Trong những năm qua, khi AI bùng nổ, ngành công nghiệp gần như bị chi phối bởi một logic: năng lực tính toán quyết định giới hạn, và GPU chính là lõi của năng lực tính toán.

Tuy nhiên, khi bước vào năm 2026, logic này bắt đầu thay đổi: suy luận mô hình không còn là điểm nghẽn duy nhất, hiệu suất hệ thống ngày càng phụ thuộc vào khả năng thực thi và lập lịch. GPU vẫn quan trọng, nhưng yếu tố quyết định liệu AI “có thể chạy được hay không” đang dần chuyển sang CPU – một thành phần từng bị bỏ qua trong thời gian dài.

Vào ngày 9 tháng 4 theo giờ Mỹ, Google và Intel đã đạt được thỏa thuận nhiều năm để triển khai quy mô lớn các bộ xử lý "Xeon" của Intel tại các trung tâm dữ liệu AI toàn cầu, nhằm giải quyết điểm nghẽn này. CEO của Intel, Chen Liwu, thẳng thắn cho rằng AI vận hành trên toàn bộ hệ thống, và CPU cùng IPU mới là chìa khóa cho hiệu suất, hiệu quả và linh hoạt. Nói cách khác, CPU từng bị coi là "nhân vật phụ" trong hai năm qua hiện đang kìm hãm sự mở rộng của AI.

Google

CEO của Intel, Chen Liwu, cho biết trên mạng xã hội: Intel đang tăng cường hợp tác với Google, mở rộng từ CPU truyền thống sang cơ sở hạ tầng AI (như IPU), cùng nhau thúc đẩy xây dựng năng lực AI và điện toán đám mây.

CPU không còn chỉ là một thành phần phụ trợ bị động, mà đang trở thành một trong những biến số then chốt trong cơ sở hạ tầng AI.

01 Một cuộc khủng hoảng nguồn cung “im lặng”

Khi mọi người đều đang chú ý đến chu kỳ giao hàng của GPU, không khí căng thẳng trên thị trường CPU đã悄然 tăng lên.

Theo báo cáo mới nhất từ nhiều nhà phân phối IT, giá trung bình của CPU máy chủ đã tăng khoảng 30% trong quý tư năm 2025. Mức tăng này rất hiếm gặp trong thị trường CPU tương đối trưởng thành.

Forrest Norrod, trưởng bộ phận dữ liệu trung tâm của AMD, tiết lộ rằng trong ba quý qua, nhu cầu về CPU đã tăng trưởng nhanh hơn dự kiến. Hiện tại, chu kỳ giao hàng của AMD đã kéo dài từ tám tuần lên hơn mười tuần, với một số mẫu thậm chí gặp phải độ trễ lên tới sáu tháng.

Sự thiếu hụt này chủ yếu do hiện tượng “hiệu ứng phụ” gây ra tình trạng cạn kiệt nguồn lực. Một số chuyên gia trong ngành cho biết, do dây chuyền sản xuất 3nm của TSMC cực kỳ căng thẳng, công suất wafer vốn được phân bổ cho CPU đang liên tục bị các đơn hàng GPU mang lại lợi nhuận cao hơn lấn át. Điều này dẫn đến một tình huống đầy tính讽刺: các phòng thí nghiệm AI đã có đủ GPU, nhưng lại không thể mua được đủ CPU cấp cao để “kích hoạt” những card đồ họa này.

Trong đợt mua sắm CPU này, còn có Elon Musk.

CEO của Intel, Chen Lihwu, đã xác nhận trên nền tảng mạng xã hội rằng Musk đã ủy thác cho Intel thiết kế và sản xuất chip tùy chỉnh cho dự án “Terafab” tại Texas. Dự án quy mô lớn này nhằm tạo ra một nền tảng tính toán thống nhất cho xAI, SpaceX và Tesla.

Sự tin tưởng của Musk vào Intel phần lớn là do Intel đang nỗ lực tích hợp chính mình vào mọi cấp độ, từ trung tâm dữ liệu dưới mặt đất đến tính toán trên quỹ đạo không gian.

Google

Đối với Intel, đây chắc chắn là một liều thuốc kích thích mạnh mẽ. Một số chuyên gia phân tích ngành dự đoán thị phần doanh thu của AMD trong thị trường CPU máy chủ sẽ vượt qua Intel vào năm 2026, nhưng sự phụ thuộc sâu rộng và năng lực sản xuất của Intel trong hệ sinh thái x86 vẫn là những lợi thế không thể bỏ qua đối với các khách hàng lớn như Musk.

Sự ràng buộc sâu rộng xuyên ngành này đang thúc đẩy cạnh tranh trên thị trường CPU từ việc so sánh thông số đơn thuần lên thành cuộc chơi về hệ sinh thái và tính ổn định của chuỗi cung ứng.

02 Tại sao CPU lại trở thành “điểm yếu”?

CPU đột ngột trở thành điểm nghẽn, vì công việc mà nó phải đảm nhiệm đã thay đổi căn bản trong thời đại tác nhân thông minh.

Trong mô hình chatbot truyền thống, CPU chủ yếu đảm nhiệm việc điều phối và xử lý dữ liệu, trong khi GPU thực hiện các phép tính suy luận cốt lõi. Do các khâu yêu cầu nhiều tính toán tập trung ở phía GPU, độ trễ tổng thể thường do GPU chi phối, và CPU hiếm khi trở thành điểm nghẽn hiệu năng.

Nhưng tải trọng của tác nhân hoàn toàn khác biệt. Một tác nhân cần thực hiện suy luận đa bước, gọi API, đọc ghi cơ sở dữ liệu, sắp xếp các luồng nghiệp vụ phức tạp và tổng hợp các kết quả trung gian thành đầu ra cuối cùng. Các nhiệm vụ như tìm kiếm, gọi API, thực thi mã, I/O tệp và sắp xếp kết quả phần lớn rơi vào CPU và phía hệ thống chủ. GPU chịu trách nhiệm tạo token (tức là “suy nghĩ”), trong khi CPU chịu trách nhiệm chuyển đổi kết quả “suy nghĩ” thành hành động thực tế.

Trong bài báo nghiên cứu mang tên "A CPU-Centric Perspective on Agentic AI" được công bố vào tháng 11 năm 2025 bởi các học giả tại Georgia Tech, đã tiến hành phân tích định lượng phân bố độ trễ trong các tải công việc của tác nhân. Nghiên cứu phát hiện rằng thời gian dành cho xử lý công cụ trên CPU chiếm từ 50% đến 90,6% tổng độ trễ. Trong một số tình huống, GPU đã sẵn sàng xử lý lô nhiệm vụ tiếp theo, trong khi CPU vẫn đang chờ phản hồi từ việc gọi công cụ.

Một yếu tố then chốt khác là sự mở rộng nhanh chóng của cửa sổ ngữ cảnh. Năm 2024, các mô hình phổ biến chủ yếu hỗ trợ từ 128K đến 200K token. Sang năm 2025, các mô hình như Gemini 2.5 Pro, GPT-4.1 và Llama 4 Maverick đều bắt đầu hỗ trợ hơn 1 triệu token. Bộ nhớ đệm KV (Key-Value Cache, dùng để tăng tốc quá trình suy luận của mô hình Transformers) tăng tuyến tính theo số lượng token, khi đạt 1 triệu token sẽ vào khoảng 200GB, vượt xa dung lượng bộ nhớ GPU 80GB của một card H100.

Một trong những giải pháp cho vấn đề này là chuyển một phần bộ nhớ đệm KV sang bộ nhớ CPU. Điều này có nghĩa là CPU không chỉ phải quản lý sắp xếp và gọi công cụ, mà còn hỗ trợ lưu trữ dữ liệu không thể chứa trong bộ nhớ GPU. Dung lượng bộ nhớ CPU, băng thông bộ nhớ và tốc độ kết nối giữa CPU và GPU trở thành các yếu tố then chốt ảnh hưởng đến hiệu suất hệ thống.

Do đó, CPU phù hợp với thời đại tác nhân cần khả năng truy cập bộ nhớ có độ trễ thấp, ổn định và khả năng phối hợp ở cấp hệ thống mạnh mẽ hơn là việc mở rộng quy mô lõi đơn lẻ.

03 Các nhà sản xuất đang làm gì? Có người tranh giành thị phần, có người thay đổi thiết kế

Trước nhu cầu CPU bùng nổ đột ngột này, các công ty lớn có cách tiếp cận hoàn toàn khác nhau.

Intel là nhà dẫn đầu thị trường CPU máy chủ truyền thống. Theo dữ liệu từ Mercury Research, trong quý IV năm 2025, Intel vẫn chiếm 60% thị phần thị trường CPU máy chủ, AMD chiếm 24,3% và NVIDIA chiếm 6,2%. Tuy nhiên, trong những năm qua, Intel đã không ngừng theo đuổi các công nghệ mới, và đợt bùng nổ nhu cầu CPU lần này vừa là cơ hội, vừa là thách thức đối với họ.

Chiến lược hiện tại của Intel là đi song song hai hướng. Một bên là tiếp tục bán các bộ xử lý Xeon, gắn kết sâu với các khách hàng quy mô lớn như Google; bên kia hợp tác với SambaNova để ra mắt giải pháp kết hợp bộ xử lý Xeon và bộ tăng tốc RDU tự phát triển, nhấn mạnh điểm bán hàng “không cần GPU vẫn có thể chạy suy luận tác nhân”. Đường đi của Xeon 6 Granite Rapids và quy trình 18A sẽ là yếu tố then chốt để kiểm tra liệu Intel có thể đảo ngược tình thế hay không.

AMD là một trong những người hưởng lợi lớn nhất trong đợt bùng nổ nhu cầu CPU lần này. Trong quý 4 năm 2025, doanh thu dữ liệu trung tâm của AMD đạt 5,4 tỷ USD, tăng 39% so với cùng kỳ năm trước. Thế hệ EPYC thứ năm Turin chiếm hơn một nửa doanh thu CPU máy chủ, và việc triển khai các instance đám mây chạy EPYC tăng hơn 50% so với cùng kỳ. Tỷ lệ doanh thu CPU máy chủ của AMD lần đầu tiên vượt quá 40%.

CEO của AMD, Lisa Su, đã trực tiếp ghi nhận sự tăng trưởng vào sự phát triển của “agent” — các tải công việc agent đã đẩy các nhiệm vụ trở lại vào các công việc truyền thống của CPU.

Tháng 2 năm 2026, AMD còn công bố một giao dịch tiềm năng với Meta, trị giá hơn 100 tỷ USD, cung cấp GPU MI450 và CPU Venice EPYC.

Tuy nhiên, AMD vẫn còn khoảng cách trong việc hợp tác ở cấp hệ thống, thiếu khả năng kết nối CPU-GPU tốc độ cao như NVLink C2C. Khi các hệ thống tác nhân (Agent) yêu cầu ngày càng cao về hiệu suất trao đổi và hợp tác dữ liệu, tầm quan trọng của khâu này đang dần tăng lên.

Cách tiếp cận thiết kế CPU của NVIDIA hoàn toàn khác với Intel và AMD.

英伟达Grace CPU chỉ có 72 lõi, trong khi AMD EPYC và Intel Xeon thường có 128 lõi. Dion Harris, trưởng bộ phận cơ sở hạ tầng AI của NVIDIA, giải thích: “Nếu bạn là doanh nghiệp quy mô siêu lớn, bạn muốn tối đa hóa số lượng lõi trên mỗi CPU, điều này về cơ bản sẽ giảm chi phí, tức là chi phí bằng đô la trên mỗi lõi. Vì vậy, đây là một mô hình kinh doanh.”

Nói cách khác, trong hệ thống tính toán AI, vai trò của CPU không còn là trung tâm tính toán phổ dụng, mà là “trung tâm điều phối” phục vụ GPU. Nếu CPU không theo kịp, GPU đắt tiền sẽ buộc phải chờ đợi, làm giảm hiệu suất tổng thể.

Do đó, NVIDIA đã thiết kế để ưu tiên đảm bảo sự phối hợp hiệu quả giữa CPU và GPU. Ví dụ, thông qua kết nối NVLink C2C, băng thông giữa CPU và GPU được tăng lên khoảng 1,8 TB/s, cao hơn nhiều so với PCIe truyền thống, cho phép CPU truy cập trực tiếp vào bộ nhớ GPU, giúp quản lý bộ nhớ đệm KV trở nên đơn giản hơn nhiều.

Hiện tại, NVIDIA đã bán Vera CPU như một sản phẩm độc lập. CoreWeave là khách hàng đầu tiên. Giao dịch với Meta còn ấn tượng hơn, đây là lần đầu tiên họ triển khai quy mô lớn “chỉ Grace”, tức là CPU được triển khai độc lập quy mô lớn mà không cần cặp với GPU.

Chuyên gia phân tích hàng đầu của công ty nghiên cứu Creative Strategies, Ben Bajarin, chỉ ra rằng trong các hệ thống hợp tác cường độ cao, khả năng xử lý của CPU phải có thể theo kịp tốc độ lặp lại của bộ tăng tốc. Nếu kênh dữ liệu gặp bất kỳ độ trễ nào dù chỉ 1%, lợi ích kinh tế của toàn bộ cụm AI sẽ bị giảm đáng kể. Sự theo đuổi hiệu suất hệ thống tối ưu này đang buộc tất cả các công ty lớn phải xem xét lại các chỉ số hiệu năng của CPU.

Holger Mueller, Phó chủ tịch và Phân tích viên trưởng của Constellation Research, cho biết khi các tải công việc AI chuyển sang kiến trúc do tác nhân điều khiển, vai trò của CPU đang trở nên ngày càng cốt lõi. Ông nhấn mạnh: “Trong thế giới tác nhân, các tác nhân cần gọi API và các ứng dụng doanh nghiệp khác nhau, những nhiệm vụ này phù hợp nhất để CPU thực hiện.”

Anh ấy còn bổ sung: “Hiện tại, vẫn chưa có kết luận rõ ràng về việc GPU hay CPU nào phù hợp hơn để xử lý các nhiệm vụ suy luận. GPU có lợi thế trong việc huấn luyện mô hình, trong khi các ASIC tùy chỉnh như TPU cũng có những ưu điểm riêng của mình. Nhưng có một điểm rõ ràng: Google cần áp dụng kiến trúc bộ xử lý lai. Do đó, việc Google lựa chọn hợp tác với Intel là hợp lý.”

04 Kết luận: Thời đại tác nhân thông minh, cân nặng tính toán đang trở lại

Trong quan sát ngành mới nhất, có một dữ liệu cần chúng ta lưu ý. Trong thỏa thuận hợp tác trị giá 38 tỷ USD giữa Amazon AWS và OpenAI, chính thức họ cũng đề cập đến quy mô mở rộng “hàng chục triệu CPU”.

Trong vài năm qua, thông thường, trọng tâm của ngành luôn là “hàng trăm nghìn GPU”. Tuy nhiên, các phòng thí nghiệm tiên tiến như OpenAI đã chủ động coi quy mô CPU là một biến kế hoạch quan trọng, gửi đi tín hiệu rõ ràng rằng việc mở rộng tải công việc của tác nhân phải dựa trên cơ sở hạ tầng CPU quy mô lớn.

Ngân hàng Mỹ dự đoán, đến năm 2030, quy mô thị trường CPU toàn cầu có thể tăng gấp đôi từ mức 27 tỷ USD hiện tại lên 60 tỷ USD. Phần tăng trưởng này gần như hoàn toàn sẽ do AI thúc đẩy.

Chúng ta đang chứng kiến một cơ sở hạ tầng hoàn toàn mới bắt đầu mở rộng: các công ty lớn không còn chỉ tập trung vào việc tích lũy GPU, mà còn đồng thời mở rộng cả một lớp “cơ sở hạ tầng điều phối CPU” dành riêng để hỗ trợ vận hành các tác nhân AI.

Sự hợp tác giữa Intel và Google, cùng với khoản đầu tư lớn của Musk vào chip tùy chỉnh, đều chứng minh một thực tế: điểm then chốt để chiến thắng trong cuộc đua AI đang dịch chuyển về phía trước. Khi sức tính toán không còn khan hiếm, ai giải quyết được các “nút thắt” cấp hệ thống sớm nhất, người đó mới có thể chiến thắng trong trò chơi trị giá hàng nghìn tỷ này.

*Đóng góp bài viết từ biên tập viên đặc biệt Kim Lộc.

Bài viết này đến từ tài khoản chính thức WeChat "Tencent Tech", tác giả: Li Helen, biên tập: Xu Qingyang