2026年、AI業界は重要な進展を伴う「物理的AI」の台頭を経験する

物理AI、引き継ぎました。

記事執筆者、出典：洞見新研社

2026年の年初以来、AI業界には「物理AI」という熱い言葉が登場した。

黄仁勲は年初のCESショーで複数回、「次世代のAIの波は物理世界で動作するAIである」と述べ、孫宇晨も最近、明確に「仮想AIの恩恵はすでに尽きた。物理AIが今後3年で最大の機会である」と宣言した。

産業側では、有名企業Figure AIが5日間連続のロボット仕分けライブ配信でネット全体を沸かせ、国内の智元ロボティクスが10,000台目となる汎用エムボディーロボットの生産を完了した……

大物たちの発言とエムボディードAIの実際の変化により、業界の注目は、仮想知能から物理的実行へと移行するこの壮大な物語に集中している。しかし、多くの人々の心にはまだ疑問が残っている：この「物理AI」とは、技術発展の必然的な転換点なのか、それとも巧みに包装された概念の入れ替えなのか？

2026年、AI業界では「物理AI」のブームが巻き起こり、ジェンソン・ホアンは次世代のAIの波は物理世界で動作するAIになると述べた。Figure AIは5日間のロボット仕分けライブ配信で、技術が実験室レベルのデモを超える臨界点に到達したことを示し、智元ロボティクスは第10,000台目の汎用エムボディーロボットの生産を達成した。この技術の核は、AIが現実世界で「認識・推論・行動・フィードバック」のクローズドループ能力を備えることである。その背後には、大規模言語モデルがロボットに理解能力を付与し、ワールドモデルが物理世界での行動課題を解決し、VLAモデルが「見て理解する」から「正しく行う」までの最後の一里をつなぐ役割を果たしている。物理AIは技術検証から商業的実現へと移行しており、2026年以降の資金調達額はすでに1,100億元を超え、競争は量産と納品の段階に入っている。

出典：洞見新研社

01 「会話する」から「行動する」へ

上記の質問に答える前に、やや硬いこの専門用語を分解してみましょう。

物理AIとは、文字通り、AIと物理世界を深く融合させた人工知能技術であるが、本質的には、仮想AIが「思考とコミュニケーション」を担うのに対し、物理AIは「感知と行動」を実行しなければならない。これにより、物理AIはスクリーン内のエージェントではなく、機械が現実の物理世界で複雑な操作を感知し、理解し、実行するものとなる。

物理AI是一种“使自主机器（如机器人、自动驾驶汽车等）在真实物理世界中感知、理解和执行复杂操作”的技术。中国计算机学会执行委员王翔在第三届中国国际供应链博览会上系统阐述了这一概念：“物理AI意味着AI系统具备在真实世界中‘感知—推理—行动—反馈’的闭环能力。”

簡単に言えば、従来のAIは「会話できる」ものだったが、現在の物理AIは「行動できる」ものである。AIがChatGPTのチャットボックスから抜け出し、現実世界の工場、倉庫、家庭に進出するとき、それが物理AIが解決しようとしている課題である。

この差異は、今年の两家の注目ロボット企業の動向において特に明確に表れています。

一つはアメリカのFigure AIで、連続5日間のライブ配信を通じて「ロボットは実際に仕事をこなせる」ことを証明しました。ライブ配信は5月14日から開始され、3台のFigure 03人型ロボットが生産ラインで宅配便の荷物を仕分けする様子が映されました。ロボットのタスクは、バーコードを検出・荷物を掴み、方向を調整してバーコードを下にしてコンベアベルトに置くことです。

ライブ配信中、1台のロボットが33時間以上連続で動作し、4万以上の荷物を処理しました。創業者のブレット・アドコックは、このロボットが同社の最新モデルであるHelix 02を「完全自律モード」で使用していると述べました。

Figure AIのライブ配信の意義は、自社の技術力を示すだけでなく、リアルタイムの映像を通じて世界に物理AI技術が「実験室デモ」の臨界点を越えたことを伝えている点にある。企業が生産ラインでロボットが数日間連続して動作し、重大な問題が発生しない様子をライブ配信することは、まさに強力な技術的宣言である。

中国の智元ロボットも同様のライブ配信を行い、自社の智元エイリアンG2を南昌のロンチー科技パークの平板生産ラインMMIT（マルチメディア統合）に導入し、人間と一緒に作業させました。ライブ配信での実測データによると、ロボットは8時間連続作業で重大な異常は一切発生せず、全体の作業成功率は99.5％以上でした。単一工程は18〜20秒で完了し、1時間あたり310個の製品を処理可能で、1台のロボットで2つの工程の作業量をカバーできます。

Figure AIに加えて、智元ロボティクスは2025年12月から2026年3月のわずか3か月余りで、5000台から1万台へと拡大し、世界初の汎用エMBODIED AIロボットの生産台数が1万台に到達したことを3月に発表しました。

納入台数のほかに、智元ロボットは、2027年までの売上高を100億元に達成する計画であることを明らかにした。過去の新エネルギー、自動運転、または半導体といった先端産業の発展経験を踏まえると、設立から2年未満の企業が万台レベルの量産納入を実現し、100億元の売上目標を設定することは、ハードテクノロジー分野においても現象級であると言える。

上記の2社は、実際のデータとシナリオを通じて、物理AIがリモート操作や事前設定されたスクリプトに依存せずに、現実の環境で複雑なタスクを自立して実行できる能力を実証しました。

より重要なのは、智元が最初に万台納品の門檻を突破し、量産能力と受注を結びつけたことで、この分野が「技術検証」から「商業的実現」への転換点に到達したことを示している。言い換えれば、物理AIの「可能性」はもはや疑問ではなく、真の競争は「可用性」と「経済性」の深水域に入っている。

02 物理AIの爆発的成長を支える技術

では、現在の問題は、物理AIがなぜ今年いきなり爆発したのかということです。振り返ってみると、実際の商業的需要に加えて、その背後で次々と起こった技術的ブレークスルーが最大の推進力となりました。

まず、大規模言語モデル（LLM）がロボットに「理解能力」をもたらしました。従来のロボットは決定論的なコードとルールに基づいてプログラミングされており、エンジニアが事前に「シナリオ」を書き上げ、ロボットはそのシナリオに従ってすべての動作を厳密に実行します。このモードには大きな欠点があり、ロボットの作業環境がわずかに変化しただけでコードを再書き込みする必要があり、ロバスト性が低く、商業化の壁を乗り越えるのが難しいです。

しかし、GoogleがLLMをロボットの物理的実行と統合し、2023年8月に次々とPaLM-EやRT-2などの具現化マルチモーダル大モデルを発表したことで、ロボットは自然言語の指示を通じて複雑なタスクを自動的に複数のステップに分解して実行できるようになり、大規模言語モデルは「対話理解」から「物理実行」への能力の飛躍を達成した。

黄仁勲はCES 2026での講演で、この技術進化の本質を指摘した：物理AIは実際、基盤的な制御権の移譲である。物理AIが技術進化の臨界点を越えると、制御権は人間が記述した決定論的コードから、汎化能力を持ち、物理法則を理解するニューラルネットワークへと移行する。

この段階で、ロボットはもはや「コードを実行する」だけではなく、「指示を理解し、自ら行動を計画する」能力を備えている。

大規模言語モデルが「理解する」問題を解決したとすれば、世界モデルは「物理世界で行動する」問題を解決する。世界モデルの核心は、AIに物理世界の動作規則に対する内部的理解を習得させることである。

昨年のCESでNVIDIAが発表した物理AIの基盤モデルプラットフォーム「Cosmos」は画期的な出来事となり、このモデルの核心機能は、テキストまたは画像から物理法則に従った動作データを生成できることである。開発者はCosmosを活用して、スマートカー、ロボット、ビデオ分析AIエージェントの物理AI開発を加速できる。

NVIDIAによると、Cosmosは2,000万時間以上の実際のデータでトレーニングされており、シミュレーションとモデルトレーニングの難易度を大幅に低下させました。世界モデルにより、AIシステムは仮想環境で大量のシミュレーションを実施し、それを実際の物理世界に移行できます。

ロボットの究極の能力は「理解すること」ではなく「正しく行動すること」である。ビジョン・ランゲージ・アクションモデルの登場により、ロボットは視覚入力、言語理解、動作制御を同時に処理し、「見て即行動する」閉ループを実現できるようになった。

DeepMindは昨年9月、次世代のマルチモーダルエムボディエッドAIモデル「Gemini Robotics 1.5」をリリースし、これはエムボディエッド推論に最適化された世界初の思考型モデルであると発表した。一方、NVIDIAは人型ロボット用に設計されたオープンソースモデル「Isaac GR00T N1.6」を発表し、全身制御を可能にした。

一方で、北京人形ロボットイノベーションセンターは、エムボディード小脳大モデルXR-1をオープンソース化しました。このモデルは、国内で初めてエムボディードインテリジェンスの国家基準を満たすモデルであり、100万以上のデータに基づいて訓練され、取り置き、押す・引く、回転などの複雑な両腕操作タスクを実行できます。

これで、物理AIは実装に必要な基礎技術能力をすべて備えました。LLMは機械に人間の意図を理解させ、世界モデルは機械に物理的な結果を予測させ、VLAは「理解」から「正しく実行」への最後の一里をつなぎます。これら三つの技術が組み合わさることで、ロボットは初めてオープン環境で自律的にタスクを実行する基礎的能力を備えました。

もちろん、現在でも機敏な操作にはボトルネックが存在し、二腕や両手の精密な制御にはまだ多くの課題が残されています。言い換えれば、物理AIは「工場で働く」ための入場券を手にしましたが、本格的に「家庭で茶を出す」レベルに到達するには、「粗放な動作」から「精密な操作」への質的飛躍を乗り越える必要があります。

03 技術的ビジョンから実行能力へ

物理AIの過去と現在を理解することは重要ですが、現在、具身知能業界が直面している課題は、今後の競争がどの核心的次元を中心に展開されるかです。

自動運転の発展過程から得られる教訓として、データの競争は自動運転から避けられず、自動運転と同様のロジックを持つエムボディード・インテリジェンスもまた避けられない。一般的に、より高品質な学習データを保有する者が発言権を握る。

現在の業界で、NVIDIAはCosmosを活用して世界モデルの壁を築き、2000万時間以上の実データに基づいて訓練されたモデルは短期間で模倣することが困難です。一方、Zhìyuánは1万台のロボットの量産展開を完了し、リアルでフィードバック駆動型のデータ収集能力を有していることを意味します。これは業界内で広くデータの護り壁と見なされています。

注目すべきは、物理AIの競争に必要なデータが単に量の多さを競うものではなく、合成データと実データの協働が必要であることです。

真のデータにのみ依存すると、スケールの課題とハードウェアの劣化コストが発生し、合成データに過度に依存すると、シミュレーションから現実への移行（sim2real）のギャップが生じます。北京人型ロボットイノベーションセンターの「マルチデータソース学習」ソリューションは、この考え方に基づくもので、ロボットが膨大な人間の動画を活用して学習できるようにし、訓練コストを大幅に削減しながら訓練効率を向上させます。

これでとても理解しやすくなりました。今後、「合成データ訓練－実データ微調整－実際のシナリオフィードバック」の完全なサイクルを真正に実現できる者が、この競争で優位を占めます。

データの問題を解決した後、物理AIと仮想AIを効率的に統合することが、物理AIがさらに進化する鍵となる。

現在、物理AIについて語る際、しばしば見落とされがちなのは、物理AIと仮想AIが対立するものではないという点です。技術アーキテクチャの観点から見ると、完全な物理AIシステムは大きく三層に分けられます。下層はセンシング層（センサー、ビジョン認識）、中層は認知・意思決定層（AI推論）、上層は行動実行層（メカトロニクス制御）です。

仮想AIは中間層を主に担当し、物理AIは感知から実行までの完全なチェーンをつなぐ必要があります。

エヌビディアの「チップ＋モデル＋ツール」フルスタックソリューションは、この考えを体現しています。Jetson Thorエッジコンピューティングプラットフォームが計算力を提供し、GR00Tモデルが知能を提供し、Isaacプラットフォームが開発ツールチェーンを提供します。このソリューションと照らし合わせると、今後、ソフトウェアとハードウェアの深層統合をうまく実現できる企業は、物理的AIの「脳」から「肢体」へのサイクルを完了するだけでなく、自らの技術的競争優位を築くことができます。

最後に、物理AIの商業化プロセスについてですが、3年前には、資本がロボット分野に抱いていた期待は「技術的ビジョン」に由来していましたが、現在では、資本市場はより現実的な評価基準、すなわち提供能力を重視しています。

メディアの統計によると、2025年全年の中国におけるエムボディードAI分野の資金調達総額は735億元、投資・資金調達案件は744件に上った。2026年以降、さらに370億元以上が追加され、累計で1100億元を突破したが、この繁栄の裏で、資本の流れは目に見える構造的転換を起こしている。

2026年5月、天機インテリジェンスは10億元のBラウンド資金調達を完了し、その核心的な指標は第1四半期の受注台数が10,000台を突破し、顧客が45社のロボット企業に及ぶことであった。

中科第五紀は、同期に数億元のAラウンド資金調達を実施し、海外で数億元の受注を獲得したことを明らかにしました。

維他動力と鹿明ロボットの資金調達において、上海汽車尚頒資本や三菱電機などの産業投資家が次々と参入しており、その目的は生産ラインの生産能力とロボット納品能力を結びつけることである。

一方、米国人形ロボットスタートアップのCartwheel Roboticsは技術的ビジョンはあったが受注がなく、2026年3月に破綻した。

正反の事例は、資本がカッコいいデモではなく、実際の量産納品能力にのみ支払いを行うことを示している。

04 結語

物理AIの爆発的な人気は突然のように見えるが、実は水が満ちるように自然な流れである。

一方で、業界関係者の中には、「物理AI」は主に資本市場で生み出された新概念の包装に過ぎず、本質的にはエムボディードインテリジェンスやロボット技術の自然な進化に過ぎないと考える人もいます。しかし、物理AIの台頭が、AI産業が「仮想的知能」から「物理的実行」へと移行していることを明確に示していることは否定できません。これはまさに不可逆的な歴史的プロセスです。

最新の競争において、Figure AIはライブ配信で世界にその力を示し、智元ロボティクスは量産納品で産業的障壁を築き、NVIDIAはCosmosとGR00Tでプラットフォームエコシステムを構築した……では、次に問われるのは、どの企業が物理AI分野のOpenAIになるのか？どのアプリケーションシーンが最初に「ChatGPTの瞬間」を迎えるのか？