中國在高端訓練晶片存取和運算能力方面落後於美國

算力受限

自去年底以來，摩爾線程、沐曦股份、壁仞科技、天數智芯等國產GPU掀起資本熱浪。然而，在二級市場財富盛宴之下，一條不容忽視的暗線正變得越來越明晰，其所引發的問題也愈發迫切。

過去幾年，國產AI晶片主要集中在相對安全且較為邊緣的「推理側」，例如近期豆包計劃豪購天數智芯5萬塊晶片用於推理運算任務，以滿足這家中國最大AI APP終端的高頻調用。

而在 AI 訓練這一算力金字塔頂端序列中，國產晶片目前只能參與邊緣「打雜」任務。

AI 訓練晶片主要用於人工智慧模型的訓練，期間會進行大量的矩陣運算和參數調整，因此需要具備強大的計算能力和高能效比，性能更強大且價格也十分高昂，如英偉達 A100、H100、H200 以及 AMD 的 MI300 系列等；

Compared to this, the task of inference chips is much lighter. Used in the deployment phase after model training, they are primarily responsible for executing model inference tasks, requiring high real-time performance. Inference chips must ensure accuracy while also featuring fast response times and low power consumption.

一個恰當的比喻是，訓練是讓 AI 模型「學會知識」，推理是讓大模型「運用知識」。在學習階段，訓練晶片需調用海量數據來「餵養」十億、萬億乃至十萬億級參數的動態更新，不僅要具備強大的算力，還需配備高效的頻寬和通訊能力，並保障萬卡級叢集下的穩定性。

中美模型差距的根源就在這些「看不見的地方」，尤其是高端訓練晶片的缺席。

在大模型 Scaling Law 規律下，模型參數越大，算力需求相應線性增長，而指數級膨脹的算力及硬體成本開支，讓訓練大模型成為極少數科技巨頭的「專屬遊戲」。

在美國科技巨頭中，僅 Meta 一家就計劃於 2026 年底部署超過 120 萬張高端 GPU，年投入超過 1450 億美元；另據估算，谷歌擁有的 AI 總算力相當於 500 萬塊英偉達 H100，一家企業佔據了全球總量的 1/4。

Amazon、Microsoft、Alphabet、Meta 四家公司今年的資本開支高達 7250 億美元，同比猛增 77%，這一規模相當於美國全年私人國內總投資的 13%。大摩更預測，到 2027 年，美國科技企業資本開支有望達到 1.1 萬億美元的歷史紀錄。

目前美國掌控全球七成以上高端 GPU，芯片禁令後國內可用的高端芯片只有美國的 1/8。斯坦福 AI 指數報告 2026 中指出，美國數據中心數量（5427 個）是中國 10 倍有餘。

根據中國信息通信研究院（CAICT）的測算，截至2025年初，美國算力規模為2400 EFLOPS，中國為1053 EFLOPS，美國是中國的2倍以上。

The computing power held by the above four tech giants, each one alone, already exceeds the total computing power of all AI companies in China.

這種壓倒性的算力優勢，使美國企業可以在一年內完成十幾輪大模型迭代實驗。

馬斯克甚至更為奢侈，其旗下的 xAI 擁有被稱為全球「首個 GW 級 AI 集群」的 Colossus 2。因此，他有底氣宣稱正在同時訓練 7 個模型——兩個 1 兆、兩個 1.5 兆、一個 6 兆和一個 10 兆參數模型，這種「暴力美學」，只有在算力極度充裕的情況下才能做到。

與此同時，由於美國限制晶片出口，近年來出貨的高端 AI 晶片中，中國企業獲得的份額持續下滑（根據 epoch.AI 統計）。

It is no exaggeration to say that the enormous gap in computing power will cause China's AI to remain in a catching-up phase for the long term, and will make it even more difficult for domestic large models to catch up with their American counterparts.

代際之差

「中國創新的步伐不可阻擋」，「誰要是覺得中國做不出（晶片），那就真的看走眼了。中美之間的差距只是納秒級別」。

NVIDIA 創辦人黃仁勳不止一次在公開場合讚揚中國半導體的進步。

馬斯克也經常在 X 上表達類似的觀點——「中國一定會解決晶片卡脖子問題，在人工智慧算力領域，必將遠超全球其他國家」，「中國會贏下地球上的 AI 競賽」。

科技界聲名顯赫的大佬對中國AI發展極盡讚美之詞，很容易讓人信以為真。這些言論明顯有捧殺之嫌。部分美國媒體不斷宣揚中美模型差距極小的輿論，試圖混淆事實，掩蓋一些客觀真相。

For this, all domestic AI-related fields should remain clear-headed and calm.

如果說如今中國先進大模型在解決標準化問題時與美國競品差別不大，那麼在複雜工業和企業環境下，差距就會顯得更加明顯。

與美國 Anthropic 等公司的前沿模型相比，中國仍屬於追趕者。美國 CAISI 評估認為，國內最強的 DeepSeek V4 Pro 落後美國前沿約 8 個月。

李開復近期在接受《華爾街日報》採訪時指出，以 Anthropic 推出的 Claude Fable 5 等美國頂尖模型為標杆，美國目前領先中國約 15 個月。

大模型遵循 Scaling Law 規律，模型參數量越大、訓練數據越多、投入的算力越大，模型的性能就越好。如今，美國最前沿大模型已進入十萬億參數時代，且迭代速度還在加快。

Anthropic 最強大的 Mythos 已達 10 兆參數，訓練它便需耗費 100 億美元；xAI 的 Colossus 2 正同時訓練 7 個模型，包含 6 兆和 10 兆參數模型；OpenAI 迭代一輪 4 兆參數模型的週期僅為一個月。

中國最強模型 DeepSeek V4 Pro 的總參數量為 1.6 萬億，與美國十萬億級前沿相差約 6 倍。

Anthropic 旗下的 Claude 系列，已被公認為近兩年最強的 AI 編程大模型，Mythos 則再次刷新了公眾的認知，其性能比此前的旗艦 Oups 4.6 更加強大。

OpenBSD 在業界享有最安全系統的美譽，但 Mythos 卻發現了一個長達 27 年都未被發現的漏洞，還在 FFmpeg 和 Linux 核心中找到了數年甚至十幾年都未被發現的漏洞，而且全程自主發現，未依賴人類。

要知道，大模型的「預訓練」決定了模型能力的上限，無法透過「後訓練」將萬億級參數模型調至達到十萬億參數模型的能力水平。而預訓練的決定因素就是高端運算晶片，它決定了參數規模和訓練迭代速度。

科大訊飛董事長劉慶峰坦言，目前各家頂尖大模型廠商，特別是美國的巨頭，都在建設超大規模算力平台。而國產算力目前確實面臨陣痛期，導致在訓練超長文本上下文時遇到了限制。

It is evident that the gap in computing power is the root cause of the difference between Chinese and U.S. models.

國產崛起

一家企業壟斷了全球高端AI訓練晶片90%的市場份額——這助力英偉達保持全球市值最高公司的地位。其總市值一度超過全球第三大經濟體德國2025年的GDP。

集邦諮詢數據顯示，2026年Q1全球GPU伺服器市場，英偉達一家佔據68%，AMD佔據5%-6%，而國產GPU廠商整體不足4%。

憑藉先發優勢、強大的技術壁壘、高速互聯、軟件生態以及與台積電先進製程的綁定，英偉達獨霸天下。在高端訓練場景中，英偉達 GB300 的性能優於 AMD MI325，也優於寒武紀思元 690 和摩爾線程 MTT40，尤其在萬億參數大模型訓練中，性能比競爭對手高出 30% 以上。

在出口禁令之下，黃仁勳此前已表示，英偉達在中國的市場份額（新增）已基本歸零，僅剩存量市場。在國產替代政策的支持下，包括華為昇騰910、海光DCU深算2號、寒武紀思元370/590，以及摩爾、沐曦等企業相繼湧現。

其中昇騰910是華為最強算力晶片，昇騰910B的算力達到640TOPS（INT8），可媲美英偉達A100晶片。

在絕對性能層面，國產 GPU 雖仍有差距，但可先從推理與邊緣場景入手，目前國產 GPU 基本滿足國內政企通用推理需求，與英偉達中端產品差距縮小至 15%-20%，具備替代可行性。

需要特別指出的是，算力性能固然重要，而其背後的技術軟體生態才是國產GPU的軟肋。正如CUDA才是鑄造英偉達GPU帝國的根基，中國工程院院士鄭緯民就指出，國產AI晶片核心問題是生態不夠好，如果生態好，性能做到60%也有人用。

可以说，軟體生態是 GPU 賽道最硬核的壁壘，在這方面英偉達的能力同樣難以替代。

CUDA 生態經過十餘年深耕，已擁有超過 400 萬開發者、數十萬個開源模型及全類別第三方工具鏈，涵蓋 AI 訓練、推理、圖形渲染和科學計算，生態壁壘強大無比。

IDC 數據顯示，目前全球 95% 以上的 AI 模型基於 CUDA 生態開發。而國產 GPU 在依托政策支持下，需要與產業鏈進行長期協同，需要媒體輿論、資本市場給予足夠的耐心。

今年1月，智譜就聯合華為開源新一代圖像生成模型 GLM-Image，該模型基於華為昇騰 Atlas 800T A2 設備與昇思 MindSpore AI 框架，完成從數據處理到模型訓練的全流程閉環，是首個依托國產晶片實現全程訓練的 SOTA 多模態模型；

摩爾線程還與北京智源人工智慧研究院合作，基於 MTT S5000 智算集群與 FlagOS-Robo 框架，完成智源自研具身大腦模型 RoboBrain 2.5 的全流程訓練。這一成果首次驗證了國產算力集群在具身智慧大模型訓練中的可用性。

It can be seen that domestic GPUs have made breakthroughs in compatibility and ecosystem building, transitioning from "single-point breakthroughs" on the inference side to "gradual adaptation" on the training side—a significant advancement.

總結

Overall, against the backdrop of obstacles in importing advanced overseas chips, it is advisable to adopt a “combination of East and West” approach, walking on two legs by simultaneously focusing on supporting domestic AI chips to meet urgent market demands.

需求的真實性毋庸置疑，“泡沫論”仍然存在，但聲音並沒有越來越大。全球市場對於 AI 建設的熱情，已經超越了此前以往任何一個產業早期的發展歷程。

今年以來，全球資本市場再度掀起超級AI週期，三星、SK海力士、博通、台積電股價屢創新高；在國內市場上，以寒武紀等為代表的硬科技也漲勢兇猛，光模組巨頭中際旭創市值更一度超過茅台。

回顧韓國半導體發展史，韓國以舉國之力支持存儲芯片產業，熬過至暗時刻，並最終擊敗日本，成為世界存儲產業絕對王者。

無論是存儲晶片、手機晶片，還是當下的AI晶片，中國都仍處於追趕階段，這絕非一朝一夕之功。但憑藉巨大的市場、不斷湧現的AI人才和龐大的資本實力，國產GPU已開始展現出一定的適配性，能夠滿足眾多AI企業的實際需求。

在這場關於國運的 AI 對弈中，中美兩國既是對手，同時也有對方所需的技術、市場和資源。

本文來自微信公眾號：巨潮WAVE，編輯：楊旭然，作者：謝澤鋒，原文標題：《中美AI對弈之下的算力難題 | 巨潮》