DeepSeek V4 thể hiện hiệu suất ổn định trên các chip AI trong nước

Bài viết | Thế giới mô hình xưởng

DeepSeek V4, một lần nữa khiến cả Trung Quốc chấn động.

Quy mô tham số, độ dài ngữ cảnh, điểm chuẩn… những chỉ số kỹ thuật này đã được các bài báo so sánh lặp đi lặp lại.

Nhưng nếu chỉ dừng lại ở các dữ liệu bề mặt, bạn sẽ bỏ lỡ điểm cốt lõi mang tính chiến lược nhất của đợt ra mắt này.

Trong ba năm qua, các mô hình lớn của Trung Quốc luôn rơi vào một thực tế lúng túng: đào tạo phụ thuộc vào NVIDIA, suy luận cũng phụ thuộc vào NVIDIA, còn chip trong nước chỉ được coi là lựa chọn dự phòng.

Khi NVIDIA ngừng cung cấp, toàn bộ cộng đồng mô hình Trung Quốc sẽ lo lắng.

Nhưng hôm nay, DeepSeek V4 đã chứng minh bằng thực lực:

Một mô hình lớn cấp nghìn tỷ tham số tiên tiến, cũng có thể chạy ổn định và hiệu quả trên năng lực tính toán trong nước.

Ý nghĩa của việc này đã vượt xa các chỉ số kỹ thuật của mô hình.

Sự phá vỡ của việc nội địa hóa

Để thực sự hiểu được độ khó của việc thích nghi hóa bản địa lần này, trước tiên phải hiểu rõ đế chế chip của NVIDIA.

NVIDIA không chỉ sở hữu các con chip, mà còn là một hệ sinh thái khép kín hoàn chỉnh:

Về phần cứng, có gia đình chip GPU, kết hợp với NVLink và NVSwitch để tạo mạng kết nối tốc độ cao giữa các chip;

Trên phần mềm, CUDA là hệ điều hành AI do NVIDIA dày công phát triển trong hơn một thập kỷ.

Nó giống như một nhà máy được tối ưu hóa cao, từ các toán tử cơ bản (đơn vị tính toán mô hình) ở cấp độ thấp nhất, đến tính toán song song, quản lý bộ nhớ và giao tiếp phân tán, đều được thiết kế riêng cho GPU của NVIDIA.

Nói cách khác, NVIDIA không chỉ bán động cơ, mà còn sửa chữa luôn đường xá, trạm xăng, xưởng bảo trì và hệ thống định vị.

Hầu hết các mô hình lớn hàng đầu thế giới đều phát triển trên hệ sinh thái này.

Chuyển sang sức mạnh tính toán trong nước, nhưng lại đối mặt với tình hình hoàn toàn khác biệt.

Kiến trúc phần cứng khác nhau, cách kết nối khác nhau, mức độ trưởng thành của stack phần mềm khác nhau, hệ sinh thái công cụ vẫn đang nhanh chóng đuổi theo.

DeepSeek muốn tối ưu cho chip trong nước, không đơn giản chỉ là thay đổi động cơ, mà là đổi sang một con đường núi đang được thi công cho một chiếc xe đua đang chạy với tốc độ cao trên cao tốc.

Chỉ cần một chút bất cẩn, xe sẽ bị rung lắc, mất tốc độ, thậm chí không thể di chuyển được.

Lần này, DeepSeek V4 không chọn chỉ tiếp tục tối ưu theo đường dẫn CUDA, mà bắt đầu đồng thời thích ứng với chuỗi phần mềm của năng lực tính toán trong nước.

Từ các thông tin công khai, V4 đã đạt được bước đột phá trên các chip suy luận trong nước, được tối ưu sâu cho chip Huawei Ascend 950 và có thể chạy ổn định trên chip Cambricon ngay trong ngày ra mắt mô hình, thực sự đạt được sự tương thích Day 0.

Điều này có nghĩa là các mô hình tiên tiến bắt đầu có khả năng được triển khai trong hệ sinh thái chip nội địa.

DeepSeek V4 đã làm thế nào để thực hiện điều đó?

Bước đầu tiên xảy ra ở cấp độ kiến trúc mô hình.

V4 không chọn cách để chip trong nước chịu áp lực xử lý ngữ cảnh 1M, mà trước tiên đã tối ưu hóa chính mô hình để tiết kiệm hơn.

Thiết kế quan trọng nhất trong báo cáo kỹ thuật chính là cơ chế chú ý hỗn hợp CSA + HCA và các tối ưu hóa ngữ cảnh dài như nén KV Cache.

Nói đơn giản, suy luận ngữ cảnh dài truyền thống là khiến mô hình mỗi khi trả lời câu hỏi đều phải mở ra toàn bộ một thư viện, khiến bộ nhớ hiển thị, băng thông và sức mạnh tính toán đều nhanh chóng bị tiêu thụ hết.

Cách làm của V4 là trước tiên tái lập chỉ mục, nén và lọc các tài liệu trong thư viện, chỉ gửi những thông tin quan trọng nhất vào chuỗi tính toán.

Như vậy, ngữ cảnh 1M không còn hoàn toàn phụ thuộc vào sức mạnh phần cứng, mà trước tiên sử dụng thuật toán để giảm kích thước tài khoản tính toán và tài khoản bộ nhớ hiển thị.

This is crucial for domestic chips.

Nếu mô hình vẫn phụ thuộc mạnh vào băng thông bộ nhớ GPU và các thư viện CUDA chín muồi, thì ngay cả khi chip trong nước có thể chạy được, cũng rất khó để chạy với chi phí thấp và ổn định.

V4 trước tiên giảm tải suy luận, về bản chất là giảm áp lực cho năng lực tính toán trong nước.

Bước thứ hai xảy ra ở cấp độ kiến trúc MoE và lớp tham số kích hoạt.

Mặc dù tổng tham số của V4-Pro đạt 1,6 nghìn tỷ, nhưng mỗi lần suy luận chỉ kích hoạt khoảng 49 tỷ tham số; tổng tham số của V4-Flash là 284 tỷ, mỗi lần kích hoạt khoảng 13 tỷ tham số.

Điều này có nghĩa là nó không lấy tất cả các tham số để tính toán mỗi lần gọi, mà giống như một đội ngũ chuyên gia lớn, khi có nhiệm vụ chỉ gọi các chuyên gia liên quan vào làm việc.

Đối với chip trong nước, điều này cũng rất quan trọng.

Nó giảm bớt áp lực tính toán mà mỗi lần suy luận phải gánh chịu, đồng thời giúp các cảnh dài và agent dễ dàng được card suy luận xử lý.

Bước thứ ba là điều chỉnh ở cấp độ operator và kernel.

Điểm mạnh nhất của hệ sinh thái CUDA là các phép tính cơ bản đã được NVIDIA tinh chỉnh chín muồi, cho phép nhiều tính toán hiệu năng cao có thể gọi trực tiếp.

Ý nghĩa của V4 nằm ở chỗ, một số phép tính then chốt được lấy ra khỏi hộp đen của NVIDIA và chuyển thành các đường dẫn tính toán tùy chỉnh dễ di chuyển và thích ứng hơn.

Nói một cách đơn giản hơn, V4 giống như việc tháo rời những bộ phận quan trọng nhất của động cơ, để các nhà sản xuất như Huawei Ascend và Cambricon có thể điều chỉnh lại theo cấu trúc chip của riêng họ.

Bước thứ tư là khung suy luận và lớp dịch vụ.

Nếu việc tích hợp chip trong nước chỉ dừng lại ở mức “chạy demo”, thì ý nghĩa công nghiệp sẽ không lớn. Điều đáng quan tâm thực sự là liệu nó có thể được tích hợp vào hệ thống dịch vụ có thể gọi và tính phí hay không.

Theo kiểm thử nội bộ, trên Ascend 950PR, tốc độ suy luận của V4 đã được cải thiện đáng kể so với các phiên bản trước đó, đồng thời tiêu thụ năng lượng cũng giảm rõ rệt, hiệu năng trên một card đạt hơn 2 lần so với NVIDIA H20 đặc biệt trong các cảnh huống độ chính xác thấp.

DeepSeek chính thức cho biết, hiện tại V4-Pro bị hạn chế bởi năng lực tính toán cao cấp, khả năng xử lý dịch vụ còn hạn chế; dự kiến sau khi các siêu nút Ascend 950 được sản xuất hàng loạt vào nửa cuối năm, giá sẽ giảm mạnh.

Điều này cho thấy, khi các phần cứng trong nước như Ascend được sản xuất hàng loạt, khả năng thông qua và hiệu quả chi phí của V4 trong tương lai sẽ tiếp tục được tối ưu hóa.

Tuy nhiên, cần lưu ý rằng V4 chưa hoàn toàn thay thế GPU và CUDA của NVIDIA. Việc huấn luyện mô hình có thể vẫn cần đến NVIDIA, nhưng việc suy luận đã có thể dần được nội địa hóa.

Đây thực sự là một con đường kinh doanh rất thực tế.

Huấn luyện là đầu tư theo từng giai đoạn, mỗi lần huấn luyện, điều chỉnh và lặp lại một lần. Suy luận là chi phí liên tục, với hàng triệu, hàng tỷ người dùng truy cập mỗi ngày, mỗi lần đều tiêu tốn tài nguyên tính toán.

Chi phí lớn nhất mà các công ty mô hình tiêu tốn sẽ ngày càng nghiêng về推理 trong dài hạn. Ai có thể đáp ứng nhu cầu推理 với chi phí rẻ hơn và ổn định hơn, người đó sẽ có lợi thế thực sự trong ứng dụng công nghiệp.

DeepSeek V4 lần đầu tiên mang đến một con đường triển khai suy luận cho các mô hình tiên tiến của Trung Quốc mà không lấy CUDA của NVIDIA làm giả định mặc định.

Bước này đã đủ trọng lượng.

V4 ảnh hưởng đến ứng dụng công nghiệp

Nếu việc thích nghi chip trong nước trả lời câu hỏi liệu có thể chạy được hay không, thì giá cả trả lời cho một vấn đề thực tế hơn:

Do doanh nghiệp có chi trả được không?

Điểm mạnh nhất trước đây của DeepSeek chính là khả năng giảm giá xuống cực thấp trong khi vẫn duy trì hiệu năng gần với các mô hình tiên tiến nhất.

Thời kỳ V3 và R1 đã vậy, V4 vẫn vậy.

Sự khác biệt là lần này nó không phải cạnh tranh giá trong cửa sổ ngữ cảnh thông thường, mà tiếp tục giảm giá trong điều kiện ngữ cảnh 1M cộng với khả năng Agent.

Theo giá chính thức của DeepSeek:

V4-Flash: đầu vào khi hit cache là 0,2 nhân dân tệ / triệu token, đầu vào khi miss cache là 1 nhân dân tệ / triệu token, đầu ra là 2 nhân dân tệ / triệu token;

Đầu vào bộ nhớ đệm trúng của V4-Pro là 1 nhân dân tệ / triệu token, đầu vào bộ nhớ đệm không trúng là 12 nhân dân tệ / triệu token, đầu ra là 24 nhân dân tệ / triệu token.

Đặt nó vào nhóm các mô hình trong nước cùng loại để xem:

So với阿里Qwen3.6-Plus ở mức 256K-1M, giá đầu ra của V4-Pro khoảng một nửa, V4-Flash còn thấp hơn.

So sánh với dòng Xiaomi MiMo Pro ở mức 256K-1M, cả V4-Flash và V4-Pro đều rẻ hơn rõ rệt.

Kimi K2.6 có ngữ cảnh 256K, so với đó, V4-Pro có ngữ cảnh dài hơn và giá thấp hơn; V4-Flash thì trực tiếp giảm chi phí gọi lặp lại xuống một cấp độ khác.

This has tremendous significance for enterprise applications.

Vì 1M ngữ cảnh có nghĩa là mô hình có thể đọc toàn bộ kho mã nguồn, bộ hợp đồng dày cộm, bản prospectus hàng trăm trang, biên bản cuộc họp dài, hoặc trạng thái lịch sử tích lũy khi một Agent thực hiện liên tục các nhiệm vụ.

Trước đây, nhiều doanh nghiệp đã bị mắc kẹt ở điểm này: năng lực mô hình đủ, nhưng ngữ cảnh không đủ; ngữ cảnh đủ, nhưng giá lại quá đắt; giá có thể chấp nhận được, nhưng năng lực mô hình lại không ổn định.

Ví dụ, một doanh nghiệp xây dựng Agent nghiên cứu và đầu tư, cần cho mô hình đồng thời đọc báo cáo thường niên của công ty, cuộc gọi báo cáo tài chính, báo cáo ngành, tin tức về đối thủ cạnh tranh và biên bản nội bộ.

Khi ngữ cảnh chỉ có 128K hoặc 256K, hệ thống thường phải liên tục cắt nhỏ, truy vấn và tóm tắt, dẫn đến việc thông tin bị mất đi qua nhiều lần nén.

Bối cảnh 1M giúp mô hình giữ lại nhiều tài liệu gốc hơn, giảm thiểu việc bỏ sót và đứt đoạn.

Ví dụ khác là Agent mã.

Nó không phải là viết vài dòng mã một lần, mà cần đọc kho lưu trữ, hiểu các phụ thuộc, sửa đổi tệp, chạy kiểm thử và sửa lỗi dựa trên thông báo lỗi. Quá trình này sẽ tiêu tốn tokens lặp đi lặp lại.

Nếu mỗi bước đều tốn kém, agent chỉ có thể thực hiện các bản trình diễn, nhưng nếu tokens đủ rẻ, nó mới có thể bước vào quy trình nghiên cứu và phát triển thực tế.

Đây cũng là giá trị công nghiệp của V4.

Nó không nhất thiết là mô hình mạnh nhất, nhưng có thể trở thành mô hình được doanh nghiệp sử dụng nhiều nhất.

DeepSeek một lần nữa biến AI từ món đồ chơi độc quyền của vài công ty lớn thành công cụ năng suất có thể triển khai quy mô lớn trong mọi ngành nghề.

Giá trị thực sự của V4

Khi ngữ cảnh 1M được đưa đến tuyến đầu ngành với giá cực kỳ thấp, trọng lượng thực sự của DeepSeek V4 mới được bộc lộ.

Tất cả những điều này đều được xây dựng trên nền tảng năng lực tính toán trong nước chưa trưởng thành.

Trước sự chênh lệch hệ thống trong hệ sinh thái chip trong nước, đội ngũ DeepSeek đã không chọn cách chờ đến khi hệ sinh thái trưởng thành mới ra mắt.

Họ đã liên tục trì hoãn thời gian phát hành, dành hàng tháng để phối hợp sâu rộng với các đối tác như Huawei, mức độ khó khăn kỹ thuật này vượt xa sự tưởng tượng của bên ngoài.

Chính vì vậy, việc V4 đạt được khả năng suy luận và Agent gần với các mô hình đóng nguồn hàng đầu trên sức mạnh tính toán trong nước mới trở nên đặc biệt khó khăn.

V4 tự chứng minh rằng, ngay cả khi đối mặt với khoảng cách giai đoạn trong hệ sinh thái phần cứng, đội ngũ Trung Quốc vẫn có thể đạt được hiệu năng cạnh tranh thông qua đầu tư kỹ thuật tối ưu và đổi mới đồng bộ phần mềm-hardware.

Of course, there is still a gap from full maturity.

Chuỗi công cụ của nền tảng Ascend, độ ổn định của cụm siêu lớn, cùng với sự tối ưu hóa sâu hơn cho nhiều bối cảnh chuyên biệt, đều cần sự nỗ lực chung từ các bên trong ngành.

Tuy nhiên, thành công của V4 đã mở ra một con đường có thể học hỏi cho các mô hình tiếp theo.

Nó đã tiêm một liều thuốc tăng lực vào sự tự chủ và kiểm soát toàn bộ chuỗi cung ứng AI.

Trong bối cảnh môi trường bên ngoài đầy bất định, sự bền bỉ vượt qua giới hạn này đáng được tôn trọng hơn những chỉ số thông số đơn thuần.

Không bị cám dỗ bởi lời khen, không bị đe dọa bởi lời chê bai, đi theo con đường chính đạo, giữ mình ngay thẳng.

Câu này từ chính thức của DeepSeek, chính là lời chú giải tốt nhất cho nó.