DeepSeek V4 與美團 LongCat 2.0 突破萬億參數大關

中國內地的 AI 企業開始嘗試佈局自己的軌道。

今年伊始，海外科技圈都在關注中國的算力問題。

1 月，馬斯克在播客中稱，中國在 AI 算力上「將遠超世界其他地區」。2 月，OpenAI 首席执行官奧特曼說，中國在人工智慧領域的技術進步「快得驚人」。英偉達 CEO 黃仁勳也多次公開表示：「限制中國的 AI 技術，反而會加速其自主研發」。

2025 年可謂是供給端的集結之年。摩爾線程、沐曦股份等國產 GPU 緊接登陸資本市場，國產大模型的產業基礎進一步深化。2026 年，變化向產業鏈下游傳導，4 月下旬，多款國產大模型發布新版本。

4 月 20 日，月之暗面推出擅長長程程式碼編寫的 Kimi K2.6 模型；4 月 24 日，DeepSeek V4 發布；隨後美團 LongCat-2.0-Preview 開放測試，兩者總參數規模均突破萬億，且均支援 1M 超長上下文。

值得一提的是，DeepSeek V4 完成了從英偉達體系向華為昇騰平台的遷移與適配；而美團 LongCat2.0 則是訓練推理全程基於國產算力的萬億參數大模型，使用了 50,000 至 60,000 張國產算力晶片。

長久以來，中國 AI 從業者普遍的策略是搭上現有的成熟方案。現在，國內 AI 企業開始嘗試鋪設自己的軌道。

在荒野修路

你該如何完成一次艱難的任務呢？

科幻作家阿瑟·克拉克的答案是：「唯一的辦法是讓不可能本身，成為前進的起點。」

DeepSeek V4 從最初定檔到最終發布，時間多次調整。外界普遍推測，其中一個原因，是需要將核心代碼從英偉達的 CUDA 遷移出來。

CUDA 生態經過十幾年的打磨，已是一個功能強大、工具完備的開發平台。國產算力生態尚在構建初期。遷移代碼的過程，意味著開發團隊需要做大量底層框架的重構工作。

最終 DeepSeek 做到了，V4 發布兩日後，摩根大通在報告中指出，V4 成功適配華為昇騰晶片，驗證了國產算力在前沿 AI 推理上的可行性；且 DeepSeek 通過混合注意力架構等底層技術創新，顯著降低了推理成本。

DeepSeek 以技術極客的方式降低成本並提升效率，透過重寫一半大模型的工作量完成硬核遷移。同日開放測試的美團 LongCat-2.0-Preview，則是直接運行於國產算力之上。

在工程層面，國產算力面臨哪些難點？不妨以 LongCat-2.0-Preview 為例來看看。

第一個難點在於物理層面。國產硬體底座的顯存容量和頻寬與英偉達晶片存在差異，在訓練和部署萬億參數模型時，美團團隊在工程方面面臨不小挑戰，需投入更多精力調試並行策略、優化顯存。

第二個難點是軟體生態的成熟度，為針對國產晶片的特性，確保訓練全程的精確可重現，團隊需要重寫和優化核心運算子，以及自研全確定性的運算子。

第三個難點是萬卡集群的穩定性，在動用 5 萬–6 萬張國產算力卡的超大規模集群上，硬體故障難以避免。為此，團隊構建了一套完整的容錯與自動恢復體系。

Finally, tailored for the characteristics of domestic hardware, the team implemented affinity-focused designs in the training framework and model architecture, overcoming the compatibility limitations of general-purpose frameworks and enhancing computational performance.

DeepSeek 的算法優化降低了算力門檻，降低了模型價格；美團的工程實踐則證明了國產晶片的可行性。這些探索，也為國產晶片生態積累了工程能力和經驗。

梁文鋒曾說：「我們不是有意成為一條鯰魚，只是不小心成了一條鯰魚」，而今「鯰魚效應」已經顯現，DeepSeek 並不獨行。

從單點到系統

騰訊雲的湯道生曾有這樣一個比喻：「大模型是發動機，使用者是駕駛員」。使用者很容易注意到發動機的性能，但優秀的駕駛員，會意識到燃料與底盤同樣重要。

中國算力的發展，依賴的是整條產業鏈的協同進步。各個環節的核心企業，都在持續補足短板。

在製造端，公開數據顯示，中國晶片產量節節攀升，但卻是「啞鈴型」結構，28nm 以上成熟製程佔絕對主力，14nm 及以下先進製程產能依然稀缺。

面對 EUV 光刻機缺位的現實，中芯國際、華虹半導體等企業正推進多重曝光等工藝攻關，試圖在物理極限中尋找平衡點。多方報導顯示，中芯國際的 N+2 工藝（等效 7nm）良率已經突破 80%，這意味著已經跨過了商業化量產的門檻。

在算力端，國產晶片在單卡算力上與英偉達仍存在差距。華為昇騰 910C 等產品的實踐表明，通過極致的叢集線性加速比，也能跑通體量巨大的模型訓練。

「得生態者得天下」。英偉達 CUDA 所建立的護城河之所以深厚，一個重要原因是形成了普適性的軟硬體兼容標準。

Industry professionals have also recognized this. For example, Cambricon has launched a foundational software platform compatible with mainstream frameworks, lowering the migration barrier for developers. The open-source system led by the Beijing Academy of Artificial Intelligence has established a unified underlying interface, enabling upper-layer models to run on various domestic chips.

國內互聯網大廠也有許多動向，百度的雙軌戰略、字節跳動的千億投入，都在為算力底座尋找更優解。

根據公開資料梳理，過去幾年中，美團至少布局了 21 家涵蓋半導體/智能硬體和通用大模型領域的相關公司。其中，既包括芯片算力層的摩爾線程、沐曦股份，以及視覺芯片領域的愛芯元智；也包括新材料等細分賽道的廣州眾山、東方算芯等多家企業。

在持續跟進技術的同時，產業資本也成為算力的投資者與共建者，逐漸形成正向循環。

從數字世界，到現實任務

Currently, artificial intelligence is at a critical turning point in its third wave, with large models driving it from narrow AI toward general AI. More importantly, they are propelling robots from the 1.0 era of specialized robots into the 2.0 era of general embodied intelligence.

北京智源人工智能研究院院長王仲遠表示，AI 能力的重要落點是物理世界。

一方面，眾多國產廠商正致力於讓大模型在雲端「讀萬卷書」，提升模型的智慧與邏輯推理的嚴密性；另一方面，也要讓大模型「行萬里路」，例如文心大模型已被植入自動駕駛的決策系統中；混元大模型的工業檢測方案，已應用於多個生產線場景。

美團的外賣、到店、酒旅等業務，構成了日常生活中最複雜的任務執行網絡。這裡有海量的真實場景：從商家後廚的出餐速度，到騎手在暴雨中的配送路徑，再到用戶深夜的一句「想吃火鍋」。

王興曾明確提出，要將美團 App 率先升級成「AI-powered App」。這意味著，LongCat 的訓練目標不僅是回答「哪家的小炒肉好吃」，更要「找到這家店，選出最佳的團購券，然後預定 2 個週五晚上 7 點鐘的座位」。

這意味著任務交付的效果尤為重要，也解釋了美團為何強調要打造物理世界的 AI 底座。

From parameter scaling to computational power optimization, domestic large models are advancing from “usable” to “user-friendly”.

這條路沒有捷徑。未來，當演算法、算力、資金與場景持續產生化學反應，中國 AI 的故事，也將從「單點突破」翻到「系統進化」這一頁。

本文來自微信公眾號「藍洞商業」，作者：於瑋琳