Văn | AIDeepDive
Hôm nay, "công ty đầu tiên trên thế giới về mô hình lớn" Zhipu (02513.HK) lại tăng mạnh.
Biến động trong phiên có lúc tăng hơn 30%. Đóng cửa ở mức 1.282 đô la Hồng Kông, tăng hơn 26% trong ngày, vốn hóa thị trường đạt 571,57 tỷ đô la Hồng Kông, lần nữa lập kỷ lục mới.

Yếu tố kích hoạt đợt tăng giá này là một chỉ báo kỹ thuật cụ thể: 400 tokens/s.
Ngày 22 tháng 5, Zhipu chính thức mở rộng API phiên bản tốc độ cao GLM-5.1 (GLM-5.1-highspeed) cho khách hàng doanh nghiệp, thông số cốt lõi quan trọng nhất chỉ có một: tốc độ đầu ra của mô hình đạt 400 token mỗi giây, phá vỡ giới hạn tốc độ của các nhà cung cấp API mô hình lớn toàn cầu.
Tôi từng nghĩ đây lại chỉ là một chiến dịch truyền thông của mô hình lớn trong nước, nhưng sau khi xem kỹ các chi tiết kỹ thuật, tôi cuối cùng đã hiểu được logic đằng sau thị trường vốn.
400 tokens/giây là gì?
Mô hình có thể tạo ra khoảng 200 ký tự Hán mỗi giây, tương đương với sản lượng cao độ của một nhà văn chuyên nghiệp trong một phút, được nén vào chỉ một giây.
Số lượng văn bản mà một nhà sáng tạo phải ngồi viết liên tục nhiều ngày mới hoàn thành, GLM-5.1 phiên bản tốc độ cao có thể hoàn thành trong 1 phút; nhiệm vụ tái cấu trúc hệ thống mà một kỹ sư phải cắm đầu làm trong 3 ngày, nó có thể hoàn thành trong thời gian uống một tách cà phê.
01 Tốc độ, quan trọng hơn bạn nghĩ
Tốc độ, từ trước đến nay, là chiều cạnh dễ bị bỏ qua nhất trong cuộc cạnh tranh giữa các mô hình AI.
Trong ba năm qua, cuộc chạy đua vũ trang về mô hình lớn tập trung vào hai tuyến đường: quy mô tham số (mô hình lớn hơn, thông minh hơn) và chiến tranh giá (Token rẻ hơn và phổ cập hơn). "Nhanh" chưa bao giờ là nhân vật chính.
Đó là vì trước đây, việc “nhanh” thường được thực hiện bằng cách giảm tham số mô hình. Để tăng tốc độ, phải sử dụng mô hình nhỏ hơn và tối giản hơn, với chi phí là khả năng bị suy giảm.
Phiên bản tốc độ cao GLM-5.1 có ý nghĩa ở chỗ, nó duy trì khả năng nền tảng đầy đủ cấp cao nhất đồng thời đẩy tốc độ lên 400 token/s.
Dù xét từ góc độ mô hình trong nước hay trên phạm vi quốc tế, "năng lực hàng đầu" và "độ trễ cực thấp" lần đầu tiên đã được thực hiện mà không cần hy sinh điều gì.

Tại sao tốc độ lại quan trọng đến vậy? Vì trận địa chính của AI đang trải qua sự chuyển dịch căn bản.
Khi AI bước vào thời đại Agent từ ChatBot, việc trả lời câu hỏi đã không còn là cảnh quan chính của AI, mà một Agent để hoàn thành một nhiệm vụ thường cần mô hình thực hiện hàng chục đến hàng trăm vòng tự gọi lại: viết mã, gọi giao diện, tìm kiếm thông tin, sử dụng công cụ…
Trong chế độ làm việc này, độ trễ giữa các lần gọi sẽ bị tích lũy và khuếch đại một cách vô tình. Một tác vụ yêu cầu 50 lần gọi, nếu mỗi lần tiết kiệm được 1 giây, toàn bộ tác vụ sẽ nhanh hơn gần 1 phút. Đối với trợ lý lập trình AI, tương tác bằng giọng nói và hệ thống ra quyết định kinh doanh, sự khác biệt này có thể quyết định sự sống còn.
Ở cấp độ sâu hơn, trong ngân sách thời gian cố định, suy luận nhanh hơn có nghĩa là mô hình có thể thực hiện các đường dẫn suy luận sâu hơn và nhiều vòng tự xác minh hơn. Tốc độ đang dần trở thành chính giới hạn thông minh.
02 Việc tốc độ thì khó đến mức nào?
Hiện nay, ngành này đang ở mức độ tốc độ nào?
Trong số các nhà sản xuất hàng đầu, GPT-4o của OpenAI đạt khoảng 100–150 tokens/s, loạt Claude Sonnet của Anthropic đạt khoảng 80–120 tokens/s, và các API mô hình chủ lực phổ biến trong nước chủ yếu nằm trong khoảng 50–100 tokens/s. 400 tokens/s khoảng gấp 3 đến 5 lần mức trung bình ngành.
Quan trọng hơn, khoảng cách này không thể bù đắp chỉ bằng cách đầu tư thêm sức mạnh tính toán.
Một máy chủ trang bị 8 card H200 có thể di chuyển lên đến 38TB dữ liệu mỗi giây về mặt lý thuyết. Đối với GLM-5.1, mỗi lần tạo một token chỉ cần đọc khoảng 42GB tham số kích hoạt, theo tính toán lý thuyết thuần túy, có thể đạt gần 1000 tokens/s.
Tuy nhiên, các hệ thống thực tế thường chỉ có thể xử lý vài chục tokens/giây.

Đây là một khoảng cách về quy mô. GPU không chậm đủ, mà là rất nhiều thời gian bị lãng phí vào việc chờ đợi, chạy không tải và lập lịch không hiệu quả.
Zhizhu lần này đã đồng thời đổi mới trên ba cấp độ: động cơ suy luận, chiến lược song song và kiến trúc mạng, đạt được bước đột phá về tốc độ cuối cùng.

03 Ba lớp công nghệ chồng lên nhau, tiến gần đến giới hạn vật lý của phần cứng
Mô hình lớn hoạt động theo cách này: mô hình lớn được chia thành từng phép toán độc lập, mỗi phép toán khởi động một lần lõi tính toán (kernel), sau khi tính toán xong sẽ dừng lại, đồng bộ chờ đợi, rồi khởi động phép toán tiếp theo.
Trong giai đoạn huấn luyện, mỗi lần tính toán mất hàng giây thậm chí vài phút, chi phí khởi động và chờ đợi hoàn toàn có thể bỏ qua. Nhưng trong giai đoạn suy luận, mỗi lần tạo một token, một bước quan trọng có thể chỉ mất vài chục micro giây, khi đó chi phí khởi động và chờ đợi trở nên đáng kể tương đối.
Ý tưởng cốt lõi của TileRT: Biên dịch toàn bộ mô hình thành một động cơ chạy liên tục, khởi động một lần và không bao giờ ngừng.
TileRT trong giai đoạn biên dịch mã sẽ tĩnh triển khai toàn bộ logic tính toán của mô hình thành một đường ống liên tục, trong quá trình chạy GPU luôn hoạt động ở tốc độ cao, các thao tác tính toán, di chuyển dữ liệu và giao tiếp được tiến hành song song, các kết quả trung gian được giữ tối đa trong bộ nhớ đệm tốc độ cao của GPU, không còn phải ghi lại liên tục vào bộ nhớ video chậm rồi đọc lại.

Có một chi tiết thiết kế then chốt: Sự chuyên biệt hóa Warp.
Để hiểu Warp, trước tiên cần hiểu cách GPU hoạt động. Sự khác biệt lớn nhất giữa GPU và CPU là GPU bên trong có hàng ngàn đơn vị tính toán tương đối đơn giản, những đơn vị này được nhóm lại theo từng nhóm 32, và mỗi nhóm này được gọi là Warp.
32 đơn vị trong cùng một Warp phải luôn hành động đồng bộ và thực hiện cùng một lệnh, giống như một tiểu đội trong quân đội, khi đội trưởng ra lệnh, tất cả cùng thực hiện một động tác.
Trong các khung truyền thống, tất cả các Warp thực hiện cùng một chuỗi lệnh; TileRT cho phép các nhóm Warp khác nhau đảm nhận các nhiệm vụ khác nhau: một nhóm chuyên chịu trách nhiệm di chuyển dữ liệu cho lô tiếp theo vào trước, một nhóm chuyên thực hiện các phép tính toán học, và một nhóm chuyên giao tiếp với các GPU khác. Ba nhóm cùng làm việc đồng thời, phối hợp theo dây chuyền, không chờ nhau.
Giống như từ việc "một công nhân lần lượt vận chuyển gạch, xây tường và kiểm tra nghiệm thu", đã chuyển thành "nhóm vận chuyển gạch, nhóm xây tường và nhóm kiểm tra nghiệm thu cùng hoạt động song song".
Đã giải quyết hiệu suất trong một card, nhưng việc song song nhiều card lại mang đến thách thức mới.
Thực hành phổ biến trong ngành là song song tensor (Tensor Parallel): chia ma trận trọng số mô hình thành nhiều phần, mỗi GPU phụ trách một phần, sau khi tính toán xong sẽ tổng hợp kết quả thông qua kết nối tốc độ cao (NVLink).
Giải pháp này rất hiệu quả đối với các phép tính dày đặc có cấu trúc như nhân ma trận và là phương án đa card tiêu chuẩn hiện nay của hầu hết các khung công tác suy luận mô hình lớn.
GLM-5.1 sử dụng **MLA (Multi-head Latent Attention), một cơ chế chú ý do DeepSeek đề xuất.
Cơ chế chú ý truyền thống cần lưu trữ đầy đủ tất cả dữ liệu trung gian được tính toán ở từng bước (KV Cache) để sử dụng sau này, tiêu tốn rất nhiều bộ nhớ GPU; cách tiếp cận của MLA là nén các dữ liệu trung gian này thành một "vectơ tiềm ẩn" gọn gàng để lưu trữ, và giải nén phục hồi khi cần sử dụng, từ đó giảm đáng kể nhu cầu bộ nhớ GPU và tăng hiệu suất suy luận.
Tuy nhiên, trong quy trình tính toán của MLA có một bước đặc biệt: cần tạo chỉ mục thưa thớt từ lượng lớn thông tin lịch sử: giống như việc nhanh chóng tìm ra vài cuốn sách liên quan nhất trong một thư viện khổng lồ, sau đó đọc kỹ những cuốn sách đó.
Bước "tìm sách" phụ thuộc vào thông tin toàn cục, không phù hợp để chia đều trên nhiều card; chỉ có bước "đọc kỹ" mới là tính toán dày đặc phù hợp để xử lý song song trên nhiều card. Nếu ép tất cả 8 GPU tham gia vào bước "tìm sách", một lượng lớn thời gian sẽ bị lãng phí vào việc đồng bộ hóa và giao tiếp giữa các GPU.
Giải pháp của TileRT là cho GPU chạy không đồng nhất: GPU 0 đảm nhiệm vai trò "nhân viên tra cứu thư viện", phụ trách chỉ mục thưa và quyết định định tuyến; GPU 1–7 đảm nhiệm vai trò "nhân viên phân tích đọc kỹ", phụ trách các phép tính chú ý dày đặc và các phép toán ma trận. Hai nhóm nhân viên này mỗi nhóm sử dụng chiến lược song song phù hợp nhất với mình để phối hợp hoàn thành toàn bộ lớp tính toán.

Tiếp theo, TileRT tích hợp trực tiếp các thao tác giao tiếp giữa các GPU vào đường ống thực thi, thay vì xử lý như một bước độc lập. Về mặt bên ngoài, toàn bộ hệ thống 8 GPU chỉ cần khởi động một kernel để hoàn thành một lớp tính toán chú ý, trong khi giao tiếp và tính toán bên trong được thực hiện liền mạch trong đường ống liên tục.
Hai lớp trên giải quyết các vấn đề trong phạm vi một máy. Khi cụm được mở rộng lên hàng trăm乃至 hàng ngàn GPU, việc truyền dữ liệu giữa các GPU chính trở thành một rào cản mới.
Phương thức phổ biến trong ngành là ROFT (Rail-Optimized Fat-Tree), đây là giải pháp được NVIDIA khuyến nghị chính thức và là tiêu chuẩn tuyệt đối trong ngành.
Cấu trúc của nó là một cây: máy chủ kết nối trước tiên với các switch Leaf cấp dưới (lớp tiếp nhập, trực tiếp kết nối với máy chủ), sau đó Leaf kết nối lên các switch Spine (lớp xương sống, chịu trách nhiệm kết nối giữa các Leaf khác nhau, giống như nút giao thông cao tốc). Dữ liệu truyền giữa hai GPU phải “đi lên Spine trước, rồi đi xuống Leaf đích”, ít nhất qua 3 bước nhảy.
Để tránh lưu lượng tập trung vào một vài liên kết, kiến trúc này dựa vào thuật toán ECMP để phân phối dữ liệu giữa nhiều đường đi, hoạt động hiệu quả dưới điều kiện lưu lượng internet "phân bố đều về mặt thống kê".
Tuy nhiên, lưu lượng trong các kịch bản suy luận hoàn toàn không đồng đều. Độ dài ngữ cảnh giữa các yêu cầu khác nhau có thể chênh lệch tới vài chục lần, hướng truyền tải KV Cache giữa các GPU gần như ngẫu nhiên, một số công tắc Leaf nhất định sẽ định kỳ trở thành điểm nóng, kích hoạt cơ chế phản áp, khiến tình trạng ùn tắc lan rộng từ cục bộ đến toàn bộ đường truyền. Tình trạng ùn tắc này không thể giải quyết bằng cách điều chỉnh tham số giao thức, mà là sản phẩm vốn có của kiến trúc mạng.

Sự đột phá cốt lõi của ZCube: ngăn chặn tình trạng tắc nghẽn này về mặt vật lý từ cấp độ kiến trúc.
Thiết kế cốt lõi được chia làm hai bước:
Bước đầu tiên, hủy bỏ lớp xương sống Spine, toàn bộ mạng trở nên phẳng. Chia tất cả các switch Leaf thành hai nhóm theo số chẵn và lẻ, hai nhóm này kết nối hoàn toàn với nhau, bất kỳ switch lẻ nào cũng kết nối với tất cả các switch chẵn và ngược lại. Bất kỳ hai GPU nào cũng có thể kết nối với nhau qua tối đa hai switch, giảm số bước nhảy từ 3 xuống 2.

Bước thứ hai, cũng là điểm tinh vi nhất: mỗi thẻ mạng GPU được kết nối với hai nhóm công tắc theo hai cách hoàn toàn khác nhau. Kiến trúc đặc biệt này mang lại một tính chất toán học then chốt: giữa bất kỳ hai GPU nào trong toàn bộ mạng, chỉ có đúng một đường đi tối ưu.

"Đường duy nhất" loại bỏ trực tiếp nguồn gốc của tình trạng tắc nghẽn. Kiến trúc truyền thống dễ xảy ra điểm nóng chính vì có nhiều đường lựa chọn; nếu thuật toán cân bằng tải chọn sai sẽ dẫn đến tập trung lưu lượng. ZCube loại bỏ hoàn toàn việc "lựa chọn" ngay từ thiết kế: không cần cân bằng, vì chẳng có lối rẽ nào cả.
04 Trong cùng điều kiện phần cứng, tính toán thế nào?
Sau khi ZhiPu nâng cấp cụm sản xuất GLM-5.1 từ ROFT truyền thống lên ZCube, họ nhận được ba con số:
Tóm lại, với cùng một khoản đầu tư GPU, cụm máy có thể phục vụ nhiều người dùng hơn; với cùng yêu cầu trải nghiệm người dùng, cụm máy có thể mua ít đi một phần ba thiết bị mạng. Hiệu quả và chi phí đều được cải thiện.

Cụ thể, việc tăng thông lượng 15% tương đương với việc có thêm 15% sức mạnh tính toán miễn phí. Trong khi số lượng GPU không thay đổi, thông lượng tăng 15% tương đương với chi phí phần cứng trung bình cho mỗi token giảm khoảng 13%, hoặc nói cách khác, với cùng một chi phí, bạn có thể phục vụ thêm 15% người dùng.
Nếu một cụm có 1000 GPU, đợt nâng cấp này tương đương với việc tăng thêm 150 card về công suất, tính theo giá thị trường hiện tại của các card suy luận cao cấp, đây là giá trị tính toán ở mức hàng trăm triệu nhân dân tệ.
Độ trễ đuôi giảm 40,6%, giải quyết vấn đề ổn định chứ không phải tốc độ trung bình. Một tác vụ Agent yêu cầu 50 vòng gọi, nếu độ trễ đuôi mỗi lần giảm 1 giây, thời gian hoàn thành tồi tệ nhất của toàn bộ tác vụ sẽ được rút ngắn gần 1 phút.
Chi phí giảm một phần ba, là khoản tiết kiệm trực tiếp ở cấp độ xây dựng. ZCube đã loại bỏ lớp Spine, giúp giảm trực tiếp một phần ba số lượng switch và module quang cần thiết trong cùng quy mô cụm. Theo tính toán của ZhiPu, trong cụm quy mô vạn card, riêng khoản này có thể tiết kiệm khoảng 210 triệu đến 640 triệu nhân dân tệ.
Trong dài hạn, khi quy mô cụm tăng theo cấp số nhân, độ phức tạp trong giao tiếp giữa các GPU tăng lên nhiều lần, đồng thời xác suất và tác động của tình trạng nghẽn mạch cũng tăng theo. Điều này có nghĩa là giá trị của các sáng kiến cấp kiến trúc như ZCube sẽ nhanh chóng được thể hiện rõ hơn khi các cụm suy luận tiếp tục mở rộng. Lợi ích từ các cụm quy mô vạn GPU vào ngày mai có thể không chỉ dừng lại ở mức 15% như hôm nay.
05 Ghi chú cuối
Sau khi đọc báo cáo kỹ thuật của Zhipu, tôi đang tự hỏi liệu điều này có sẽ tạo ra một cơn bão trong ngành giống như DeepSeek xuất hiện không?
Hãy suy nghĩ kỹ, tác động của hai điều này dường như nằm ở những khía cạnh khác nhau. Khi DeepSeek ra đời, nó chứng minh rằng cùng một mức độ trí tuệ có thể được thực hiện bằng lượng tính toán ít hơn nhiều. Thị trường lo ngại rằng “số GPU cần thiết sẽ giảm xuống”, do đó vốn hóa thị trường của NVIDIA đã bay hơi gần 600 tỷ USD trong ngày hôm đó.
Nhưng hôm nay, bằng chứng kỹ thuật của Zhipu cho thấy: cùng một sức mạnh tính toán, có thể tạo ra nhiều hơn. Nó đang tái cấu trúc "Ngoài GPU, các cơ sở hạ tầng khác nên trông như thế nào".
Trong ngắn hạn, NVIDIA sẽ không bị ảnh hưởng, nhưng về dài hạn, hàng rào bảo vệ gồm GPU + kết nối NVLink + mạng InfiniBand + hệ sinh thái phần mềm CUDA đang bị “xới tung”, đặc biệt là InfiniBand mà NVIDIA đã mua lại với giá 6,9 tỷ USD vào năm 2019 từ Mellanox, lợi nhuận từ mảng mạng của NVIDIA sẽ bị suy giảm đáng kể.
Ngoài ra, ZCube đã loại bỏ lớp Spine, nhưng lại yêu cầu mật độ cổng cao hơn đối với các switch Leaf. Những nhà sản xuất có khả năng sản xuất switch Leaf mật độ cao, nhiều cổng (Ruijie, Arista, chip switch Broadcom) sẽ được hưởng lợi, trong khi những nhà sản xuất chủ yếu dựa vào switch cấp cao lớp Spine để thu lợi nhuận cao sẽ bị tổn hại.
Năm 2025, Celestica và NVIDIA cùng chiếm khoảng 50% thị phần bộ chuyển mạch mạng hậu kỳ AI, và cấu trúc này sẽ bị xáo trộn sau khi mô hình ZCube lan rộng.
Bộ quang là hướng hưởng lợi trực tiếp nhất trong sự thay đổi của chuỗi công nghiệp, với logic rất rõ ràng. Đối với các nhà sản xuất bộ quang trong nước (như Zhongji Chuangchuang, Tianfu Communications...), đây là một lợi thế có tính cấu trúc: không chỉ tổng lượng tăng lên, mà nhu cầu đối với bộ quang tốc độ cao (800G, 1.6T) trong mô hình ZCube còn tập trung và cấp thiết hơn so với kiến trúc truyền thống.
Dù là kiến trúc TileRT hay ZCube, đây đều là một bộ máy suy luận thuần phần mềm chạy trên GPU tiêu chuẩn, không phụ thuộc vào các tính năng phần cứng độc quyền của NVIDIA, về lý thuyết có thể được di chuyển sang các chip trong nước như Huawei Ascend. Một khi hướng này được thực hiện thành công, nó sẽ giảm đáng kể rào cản phần mềm cho các chip AI trong nước trong các tình huống suy luận.
Đây có lẽ mới là ý nghĩa lớn hơn đằng sau sự đổi mới công nghệ này.
