国内のAI企業が自らの軌道を構築し始めている。
今年の初め、海外のテクノロジー業界は中国の計算能力の問題に注目していた。
1月、マスクはポッドキャストで、中国がAIの計算能力において「世界のその他の地域をはるかに上回る」と述べた。2月、OpenAIのCEOであるオルトマンは、中国が人工知能分野で達成した技術的進歩が「驚異的に速い」と語った。NVIDIAのCEO、黄仁勲も複数回、公に「中国のAI技術を制限することは、むしろその自社開発を加速する」と述べている。
2025年は供給側の集結の年と言える。摩爾線程、沐曦股份などの国産GPUが次々と資本市場に上場し、国産大規模モデルの産業基盤がさらに強化された。2026年には、その変化がサプライチェーンの下流に伝播し、4月下旬には複数の国産大規模モデルが新バージョンを発表した。
4月20日、月之暗面は長距離コード作成に特化したKimi K2.6モデルをリリース;4月24日、DeepSeek V4が発表;その後、美团がLongCat-2.0-Previewのベータテストを開始。両モデルの総パラメータ数はいずれも1兆を突破し、1Mの超長コンテキストをサポートしている。
注目すべきは、DeepSeek V4がNVIDIAアーキテクチャからHuawei Ascendプラットフォームへの移行と最適化を完了したことであり、Meituan LongCat2.0は、5万~6万枚の国内製計算チップを用いて、トレーニングから推論まで完全に国内計算能力に基づく兆パラメータ規模の大型モデルである。
長年にわたり、中国のAI従事者は、既存の成熟したソリューションに頼る戦略を取ってきた。現在、国内のAI企業は自らの道を築き始めている。
野原に道を築く
どのようにして難しいタスクを完了しますか?
SF作家アーサー・クラークの答えは、「唯一の方法は、不可能そのものを前進の出発点とすることだ。」
DeepSeek V4は、当初の予定から最終リリースまで、複数回スケジュールが変更されました。外部では、その理由の一つとして、コアコードをNVIDIAのCUDAから移行する必要があることが広く推測されています。
CUDAエコシステムは十数年の洗練を経て、機能が豊かでツールが整った開発プラットフォームとなっています。国内の計算能力エコシステムはまだ構築の初期段階にあります。コードの移行は、開発チームが多くの低レベルフレームワークの再構築を必要とすることを意味します。
結局、DeepSeekはそれを実現し、V4のリリースから2日後、モルガン・スタンレーのレポートでは、V4が華為のAscendチップに成功的に最適化され、国内の計算能力が最先端のAI推論において実用可能であることが確認された。また、DeepSeekはハイブリッドアテンションアーキテクチャなどの基盤技術革新を通じて、推論コストを大幅に削減した。
DeepSeekは技術愛好家向けにコスト削減と効率向上を実現し、大規模モデルの半分の作業量を再構築することでハードコアな移行を完了。同日公開された美团LongCat-2.0-Previewは、国内製計算資源上で直接動作する。
中国製の計算能力を工学面で実現する上で、どのような課題がありますか?LongCat-2.0-Previewを例に見てみましょう。
最初の課題は物理的な面である。国内製ハードウェア基盤のVRAM容量と帯域幅はNVIDIAチップと異なるため、兆パラメータモデルのトレーニングとデプロイにおいて、Meituanチームは並列戦略の調整やVRAMの最適化に多くの労力を要した。
第二の課題は、ソフトウェアエコシステムの成熟度です。国内製チップの特性に合わせ、トレーニング全体の正確で再現可能な実行を確保するため、チームはコア演算子を再設計・最適化し、独自に完全決定論的な演算子を開発する必要があります。
三番目の課題は、数万枚の国内製計算カードを用いた大規模クラスタの安定性です。5万~6万枚のカードを用いる大規模クラスタでは、ハードウェア障害が避けられません。そのため、チームは完全なフォールトトレランスと自動復旧システムを構築しました。
最後に、国内製ハードウェアの特徴を踏まえて、チームはトレーニングフレームワークとモデル構造に最適化された設計を施し、汎用フレームワークの互換性の制約を打破して計算パフォーマンスを向上させました。
DeepSeekのアルゴリズム最適化により、計算リソースのハードルが下がり、モデルの価格が低下した。一方、美团のエンジニアリング実践は、国内製チップの実用可能性を実証した。これらの取り組みは、国内製チップエコシステムにエンジニアリング能力と経験を蓄積した。
梁文鋒はかつて、「我々は意図してカツオドリになろうとしたわけではないが、知らず知らずのうちにカツオドリになってしまった」と語った。今や「カツオドリ効果」は顕著に現れており、DeepSeekは単独ではない。
単点からシステムへ
腾讯雲のタン・ダオシェンは次のように比喩した。「大規模モデルはエンジンであり、ユーザーはドライバーである。」ユーザーはエンジンの性能に注目しがちだが、優れたドライバーは燃料とシャシーの重要性にも気づく。
中国の算力の発展は、産業チェーン全体の協調的な進歩に依存しています。各段階の核心企業は、引き続き短所を補っています。
製造側では、公開データによると中国の半導体生産量は着実に増加していますが、構造は「ダンベル型」で、28nm以上の成熟プロセスが圧倒的な主力を占め、14nm以下の先進プロセスの生産能力は依然として希少です。
EUVリソグラフィ装置の不足という現実を踏まえ、中芯国際や華虹半導体などの企業は、マルチエクスポージャーなどのプロセス開発を推進し、物理的限界の中でバランスを見出そうとしている。複数の報道によると、中芯国際のN+2プロセス(7nm相当)の良率はすでに80%を超え、商業生産の門戸を越えたことを意味している。
算力側では、国内製チップは単一カードの算力においてNVIDIAと依然として差があります。華為の昇騰910Cなどの製品の実践により、極限のクラスタ線形加速比を通じて、大規模なモデル訓練も実現可能であることが示されています。
「エコシステムを掌握する者が世界を制す」。NVIDIA CUDAが築いた堅固な競争優位の背景には、汎用的なソフトウェア・ハードウェア互換標準が形成されたという重要な要因がある。
業界関係者もこの点を認識しています。たとえば、寒武紀は主要なフレームワークと互換性のある基礎ソフトウェアプラットフォームを発表し、開発者の移行ハードルを低下させました。智源人工知能研究院が主導するオープンソースシステムは、統一された下層インターフェースを構築し、上位モデルが複数の国内製チップ上で動作できるようにしています。
国内のインターネット大手企業も多くの動きを見せており、百度のデュアルトラック戦略や字節跳動の千億元規模の投資は、計算能力の基盤に対するより優れた解決策を模索しています。
公開データに基づく整理によると、過去数年間で美团は半導体・スマートハードウェアおよび汎用大規模モデル分野に関連する少なくとも21社を展開してきた。これには、チップ演算層のモールテン、ムーチー株式会社、ビジョンチップ分野のアイシンユアンジなどだけでなく、新素材などの細分化された分野における広州衆山、東方算芯など複数の企業も含まれる。
技術の継続的な追跡と並行して、産業資本も計算能力への投資家および共同構築者として機能し、徐々にポジティブなサイクルを形成しています。
デジタル世界から、現実のタスクへ
現在、人工知能は第三次の波の重要な転換点にあり、大規模モデルはそれを弱い人工知能から汎用人工知能へと推進しています。さらに重要なのは、ロボットが1.0の専用ロボット時代から2.0の汎用具象知能時代へと移行していることです。
北京智源人工智能研究院院長の王仲遠は、AIの能力の重要な落とし所は物理世界であると指摘した。
一方では、多くの中国国内メーカーが、大規模モデルをクラウド上で「数万冊の書物を読ませ」、モデルの知性や論理的推論の正確性を高めることに注力しています。他方では、大規模モデルを「数万里を旅させ」ることも重要で、例えば文心大モデルは自動運転の意思決定システムに組み込まれており、混元大モデルの工業検査ソリューションは複数の生産ラインで実用化されています。
美团の外食配達、店舗訪問、宿泊・旅行などの事業は、日常生活中で最も複雑なタスク実行ネットワークを構成しています。ここには、店舗の厨房での料理提供速度から、ライダーが豪雨の中を走る配送ルート、さらにユーザーが深夜に「火鍋が食べたい」と言う一言に至るまで、膨大なリアルなシナリオが存在します。
王興は、美团アプリを最初に「AI対応アプリ」に昇格させることを明確に示した。これは、LongCatの訓練目標が「どの店の小炒肉が美味しいか」に答えるだけでなく、「その店を見つけ、最適な団体割引券を選択し、金曜日の夜7時の席を2つ予約する」ことまで含むことを意味する。
これにより、タスクの実行効果が特に重要であり、美团が物理世界のAI基盤の構築を強調する理由が説明される。
パラメータの拡張から計算能力の実行まで、国内の大規模モデルは「使える」から「使いやすい」へと進化しています。
この道に近道はない。未来、アルゴリズム、計算能力、資金、そしてシナリオが継続的に化学反応を起こす中で、中国AIの物語も「単点突破」から「システム進化」の章へと進むだろう。
本文は微信公众号「藍洞商業」より、著者:于玮琳
