DeepSeek V4 在國產 AI 芯片上展現穩定表現

文｜世界模型工場

DeepSeek V4，又一次讓全中國震動了。

參數規模、上下文長度、基準分數……這些技術指標已被各種報導反覆比較。

但如果只停留在表面數據，就錯過了這次發佈最具戰略意義的核心。

過去三年，中國大模型始終困在一個尷尬的現實裡：訓練靠英偉達，推理也靠英偉達，國產晶片只算備份選項。

NVIDIA 一斷供，整個中國模型圈都要為之焦慮。

但今天，DeepSeek V4 用實力證明：

一個前沿的萬億參數級大模型，也可以在國產算力上穩定高效地跑起來。

The significance of this matter has gone beyond the model's technical indicators themselves.

國產化的突破

要真正理解這次國產化適配的難度，就得先明白英偉達的晶片帝國。

英偉達擁有的不只是晶片，而是一個高度閉環的完整生態：

在硬體方面，有 GPU 芯片家族，搭配 NVLink 和 NVSwitch 實現芯片間互聯的高速網絡；

在軟體上，CUDA 是英偉達歷時十幾年精心打造的 AI 操作系統。

它就像一座高度優化的工廠，從最底層的運算子（模型計算的基本單元），到平行計算、記憶體管理、分散式通訊，全鏈路都為 NVIDIA GPU 量身定制。

In other words, NVIDIA doesn’t just sell engines—it has also built the roads, gas stations, repair shops, and navigation systems.

幾乎所有全球頂級大模型都生長於這片生態系統上。

切換至國產算力，面臨的卻是完全不同的情況。

硬體架構不同、互聯方式不同、軟體棧成熟度不同，工具生態仍在快速追趕。

DeepSeek 想要適配國產晶片，根本不是簡單地更換引擎，而是給一輛已經在高速公路上高速行駛的賽車，切換到一條仍在鋪設中的山路。

稍有不慎，就會出現抖動、失速，甚至整車無法前行。

這次，DeepSeek V4 沒有選擇僅沿著 CUDA 路徑繼續優化，而是開始同時進入國產算力的軟體棧適配鏈路。

從公開資訊來看，V4 已在基於國產推理晶片上實現突破，深度適配華為昇騰 950 晶片，寒武紀在模型發布當日亦可穩定運行，真正實現 Day 0 適配。

This means that advanced models are now beginning to have the potential to be deployed within China's domestic chip ecosystem.

DeepSeek V4 是如何做到的？

第一步，發生在模型架構層。

V4 沒有選擇讓國產晶片硬扛 1M 上下文，而是先讓模型本身變得更省。

官方技術報告中最關鍵的設計，是 CSA + HCA 混合注意力機制，以及 KV Cache 壓縮等長上下文優化。

簡單來說，傳統的長上下文推理，是讓模型每次回答問題時，都把一整座圖書館攤開來翻，顯存、頻寬和算力都會被迅速耗盡。

V4 的做法是先將圖書館中的資料重新索引、壓縮和篩選，只將最關鍵的資訊送入計算鏈路。

這樣一來，1M 上下文不再完全依賴硬體蠻力，而是先透過算法把計算賬和顯存賬做小。

This is crucial for domestic chips.

如果模型仍高度依賴顯存頻寬和成熟的 CUDA 庫，即使國產晶片能運行，也難以實現低成本和穩定運行。

V4 首先降低推理負擔，本質上是為國產算力減壓。

第二步發生在 MoE 架構和激活參數層。

V4-Pro 的總參數達 1.6 兆，但每次推理僅激活約 490 億參數；V4-Flash 的總參數為 2840 億，每次激活約 130 億參數。

這意味著它並非每次調用都將所有參數拉出來計算，而是像一個大型專家團隊，任務來臨時只叫相關專家上場。

對國產晶片來說，這同樣重要。

它減少了每次推理必須承受的計算壓力，也讓長上下文和 Agent 場景更容易被推理卡承接。

第三步，是算子和 Kernel 層的適配。

CUDA 生態最強的地方，在於大量底層計算已被英偉達打磨成熟，許多高性能計算可直接調用。

V4 的意義在於，它將部分關鍵計算從英偉達的黑盒中抽出，轉變為更可遷移、可適配的自定義計算路徑。

簡單來說，V4 就像是把引擎裡最關鍵的零件拆開，讓華為昇騰、寒武紀等廠商可以根據自己的晶片架構重新調校。

第四步，是推理框架與服務層。

如果國產晶片的適配僅停留在「跑Demo」，產業意義並不重大。真正值得關注的是，它能否進入可調用、可計費的服務體系。

根據內部測試，在昇騰950PR 上，V4 的推理速度較早期版本顯著提升，能耗也明顯降低，單卡性能在特定低精度場景下達到英偉達特供 H20 的 2 倍以上。

DeepSeek 官方提到，目前 V4-Pro 受限於高端算力，服務吞吐有限，預計下半年昇騰 950 超節點批量上市後，價格會大幅下调。

This indicates that as domestic hardware such as Ascend reaches mass production, the future throughput and cost-performance of V4 will be further optimized.

但值得注意的是，V4 並未全面替代 NVIDIA 的 GPU 和 CUDA。模型訓練可能仍離不開 NVIDIA，但推理已可逐步國產化。

這其實是非常現實的商業路徑。

訓練是階段性投入，訓練一次、調整一次、迭代一次。推理是持續性成本，每天有千萬、億級用戶調用，每次都需要消耗算力。

模型公司真正燒錢的大頭，長期會越來越偏向推理。誰能更便宜、更穩定地承接推理需求，誰就能在產業應用裡獲得真實優勢。

DeepSeek V4 首次讓中國前沿模型的推理部署，出現了一條不以英偉達 CUDA 為預設前提的路線。

This step is already substantial.

V4 對產業應用的衝擊

如果國產晶片的相容性回答的是能否運行，那麼價格回答的則是另一個更現實的問題：

企業用得起嗎？

過去 DeepSeek 最厲害的地方，正是它能把接近前沿模型的能力壓到極低價格。

V3、R1 時代如此，V4 依然如此。

區別在於，這次它不是在普通上下文窗口中進行價格戰，而是在 1M 上下文 + Agent 能力的前提下繼續壓價。

根據 DeepSeek 官方價格：

V4-Flash 的快取命中輸入為 0.2 元/百萬 tokens，快取未命中輸入為 1 元/百萬 tokens，輸出為 2 元/百萬 tokens；

V4-Pro 的快取命中輸入為 1 元/百萬 tokens，快取未命中輸入為 12 元/百萬 tokens，輸出為 24 元/百萬 tokens。

將其放入同類國產模型中比較：

與阿里 Qwen3.6-Plus 在 256K-1M 檔位相比，V4-Pro 的輸出價格約為其一半，V4-Flash 則更低。

Compared to the Xiaomi MiMo Pro Series in the 256K-1M tier, both V4-Flash and V4-Pro are significantly cheaper.

Kimi K2.6 的上下文為 256K，相比之下，V4-Pro 的上下文更長、價格更低；V4-Flash 則直接將高頻調用成本壓至另一個量級。

This has tremendous significance for enterprise applications.

因為 1M 上下文，意味著模型可以一次讀取整個程式碼倉、厚厚的合約包、幾百頁的招股書、長期會議紀錄，或是一個 Agent 在連續執行任務時累積下來的歷史狀態。

過去許多企業應用都卡在這裡：模型能力夠，但上下文不足；上下文足，價格又太貴；價格能接受，模型能力又不夠穩定。

例如，一家企業製作投研 Agent，需讓模型同時閱讀公司年報、財報電話會議、行業報告、競爭對手新聞和內部紀要。

當上下文僅為 128K 或 256K 時，系統往往需要不斷切片、檢索與摘要，資訊在多次壓縮中遺失。

1M 上下文可讓模型保留更多原始材料，減少看漏和斷片。

再比如代碼 Agent。

這不是一次性寫幾行代碼，而是要讀取倉庫、理解依賴、修改文件、運行測試，並根據錯誤進行修復。這個過程會反覆消耗 tokens。

如果每一步都很貴，Agent 就只能做演示，但如果 tokens 足夠便宜，它才可能進入真實研發流程。

這也是 V4 的產業價值。

It may not be the most powerful model, but it could become the most frequently used model by enterprises.

DeepSeek 再次將 AI 從少數大廠的專屬玩具，轉變為各行業都能規模化部署的生產力工具。

V4 的真正價值

當 1M 上下文以極低價格走向產業一線時，DeepSeek V4 的真正分量才顯露出來。

這一切，都是建立在國產算力尚未成熟的基礎之上。

面對國產晶片生態的系統性差距，DeepSeek 團隊沒有選擇等生態成熟再上線。

他們一再推遲發佈窗口，投入數個月時間，與華為等合作夥伴進行深度聯合調試，這種工程難度遠超外界想像。

Thus, achieving inference and Agent capabilities close to those of top-tier proprietary models on domestic computing power is particularly remarkable.

V4 以自身為例證明，即使面對硬體生態的階段性差距，中國團隊仍能透過極致的工程投入與軟硬體協同創新，實現具有競爭力的效能。

Of course, there is still a gap before full maturity.

昇騰平台的工具鏈完善度、超大規模集群的穩定性，以及更多垂直場景的深度優化，都需要產業各方繼續共同努力。

But the success of V4 has paved a referenceable path for subsequent models.

It has injected a strong boost into the autonomy and controllability of the entire AI supply chain.

在外部環境充滿不確定性的當下，這份在限制中仍能突破的韌性，比單純的參數指標更值得尊重。

不為譽譽所誘，不為謗言所懼，循道而行，端然正己。

This sentence from DeepSeek's official statement is the perfect footnote to it.