文 | 云涌AI、作者 | 黄云皓
一. Google I/O 2026後:四大エッジOSがAgent時代へ
2026年5月12日、GoogleはAndroid Show|I/O Editionを開催しました。これは5月19日のI/Oカンファレンス前に開催されたAndroid専用の発表会です。Androidエコシステム担当副社長のSameer Samatは、この発表会のテーマを「Androidをオペレーティングシステムからインテリジェントシステムへと転換する」と定めました。その中心となるのが、Androidのシステム層に搭載される能動的なAI機能であるGemini Intelligenceです。

2026年Android Show|I/O Edition プロモーションポスター
ソース:Android Heeadlines
Gemini Nano+AICoreの昨年の組み合わせと比較して、今回はGoogleがAgentのアプリ間およびコンテキスト横断機能をOSレベルにさらに統合しました。アプリ間タスクの自動化(食事の注文、購入、注文)、フォームの自動入力、ウェブページの要約、カスタムウィジェットが、次々とシステムレベルの機能リストに追加されました。Googleは同時に、ユーザーによる明示的な制御(explicit user control)、包括的なデータ保護(comprehensive data protection)、運用の透明性(operational transparency)を製品の三原則として掲げました。
一週後の5月19日、I/Oテーマスピーチで、Google CEOのSundar Pichaiはこの主线で開幕した:
Agent化されたGeminiの時代へようこそ(欢迎进入Agent化的Gemini时代)
エッジOSエージェント化の波に参加する上で、Googleは最初から走り出していたとは言えない。
Microsoftは2024年5月のBuild 2024で、Copilot+PC(40+ TOPS NPUを搭載した次世代Windows 11デバイス)を発表し、エッジ側の小型モデルPhi Silica、スクリーンAgent機能Click to Do、システムレベルのアクティビティ記憶Recallの3つの機能をOSに統合しました。
2024年6月のWWDC24で、Appleは正式に「Apple Intelligence」を発表し、当時それを「personal intelligence system」(個人用知能システム)と位置づけました。その後、いくつかのAI支援機能が順次リリースされましたが、自社の大規模モデルの開発遅延やSiriの性能低下などの問題により、Apple Intelligenceの核心的なエージェント機能はいまだに実装されていません。
华为は2025年6月のHDC 2025でHarmonyOS 6と鸿蒙智能体フレームワーク(HMAF)を発表し、その後、小藝智能体広場に80以上の智能体が登録されました。
端側OSのエージェント化という大きなトレンドは、Android、iOS、HarmonyOS、Windowsなどの主要なオペレーティングシステムに同時に現れています。
発表されたのは機能のみであり、OSベンダーが真正に競い合うのは、OS Agentの安定した動作と実際の問題解決を支える三つの基盤能力である:システムレベルのAI Runtime、制御可能なチップ、エンドクラウドモデルマトリクス。
二. 発表会の下:OS Agentを支える3つの基盤
システムレベルのAIランタイム:エッジ側のインテリジェンスのスケジューリング中枢
Runtimeは、端末側モデルがオペレーティングシステム内で実行される推論エンジンとシステムサービスである。下位ではNPUとシステムリソーススケジューリングと直接接続し、上位では安定したAPIを通じてすべてのアプリに推論機能を提供する。これにより、端末側モデルは「OS層の共有インテリジェンス」となる:アプリ間でモデルの重みを共有し、計算リソースとメモリを統一的にスケジューリングし、Agentに必要なツール呼び出し、生成の誘導、コンテキストおよび権限の接続を担う。Runtimeは、OS Agentがアプリ内の1つのチャットボタンにとどまるか、OSレベルの操作を実行可能な常駐サービスとなるかを決定する。
Androidシステム内で最も包括的なサンプルはGoogle AICoreである。2023年12月、AICoreはAndroid 14のシステムサービスとしてリリースされた。2025年8月には、Gemini NanoがML Kit GenAI APIsを通じて開発者に公開された。システムサービスの基盤からアプリ向けの安定したAPIへと、AICoreは約2年をかけて継続的に改善してきた。
他のOSベンダーも同じ道を歩んでおり、リズムが異なるだけです。AppleはWWDC25でFoundation Modelsフレームワークを開発者に開放し、フレームワークには@Generableデコレーター、ツール呼び出し、ガイド生成(guided generation)、ステートフルセッションが組み込まれており、背後には約3Bパラメータのエッジ側基礎モデルが接続され、プライベートクラウド計算がクラウドサポートを提供しています。Microsoftは、Windows 11にエッジ側AIフレームワークのFoundry on WindowsとPhi Silicaを統合し、下層の推論バックエンドとしてWindows MLを採用しています。HuaweiはHDC 2025でAgent Framework Kit(HarmonyOS Agent Framework、HMAF)を発表し、意図体系とAgent協調プロトコルを同時に開放しました。

Android AICoreはシステムサービスとして、Gemini Nanoをハードウェアアクセラレータ上で推論をスケジュールします。
ソース:Android Developers
制御チップ:ソフトとハードの連携の支点
GoogleはAndroid Show|I/O EditionでGemini Intelligenceに明確なハードウェア要件を設定:フル機能セットはPixel 10シリーズやGalaxy S26シリーズなどの最新フラッグシップのみで初登場、昨年のモデルは対象外。これは単純な事実を示している:AIモデルはまだ急速に進化しており、ソフトウェアはハードウェアに新たな要求を継続的に課している。制御可能なチップがこれらの要求を支える基盤であり、制御の度合いがOSベンダーに端末側OSエージェントのためのソフトウェアとハードウェアの調整空間を決定する。
Appleは、ハードウェアとソフトウェアを統合する路線の模範である。iOSとmacOSは、AシリーズおよびMシリーズチップと同時に進化し、Core MLはCPU、GPU、ANEのスケジューリングをフレームワーク層で統一的にパッケージ化している。この路線はLLM時代においても継続されている。Apple Machine Learning Researchは、実測データを提示しており、Core MLの最適化パスに従ってLlama 3.1 8B InstructをM1 Maxにデプロイすると、ローカルデコード速度は約33トークン/秒に達する。また、《Apple Intelligence Foundation Language Models》技術レポートでは、Appleが自社チップ向けにKVキャッシュ共有や2ビット量子化認識トレーニングなどのアーキテクチャレベルの最適化を実施した結果、約3Bのエッジ側基礎モデルをFoundation Modelsフレームワークを通じて開発者に提供できることを明らかにしている。このような深さは、自社でチップを制御しなければ実現できない——これがOSベンダーにとって制御可能なチップの価値である:それはハードウェアとソフトウェアの協調の深さを決定し、エッジ側OSエージェントの体験上限を高める。
AI時代に入り、Googleも同じことを実行しています——Pixel 6から自社開発のTensor SoC路線を採用し、最新のTensor G5はTPUの性能を最大60%向上、CPUを平均34%向上させ、最新世代のGemini Nanoを完全に実行できる初のSoCとしてPixel 10に搭載されます。ただし、Tensor G5にも課題があります:Android Centralの実測によると、メモリ構成(RAM容量)がAI性能のボトルネックとなっており、Geekbench AIスコアはSnapdragon 8 Eliteに劣ります。MacworldのGeekbench 6実測では、G5のシングルコアおよびマルチコアスコアともにA18 Proを下回っています。Googleはまだ追いついていませんが、自社開発のTensorとエッジ側のGeminiを連携させる戦略はすでに形になっています。
華為の麒麟とダーフェンチNPU、パングー端末モデルは、AppleやGoogleと並行する別の制御可能なチップパスです。小米は玄戒O1を実装し、制御可能なチップへの新たな参入者となりました。
エッジクラウドモデルマトリックス:エージェントの知的源泉
エッジクラウドモデルマトリックスは、端末デバイスの「知性」の源泉である:クラウドモデルは複雑なタスクの能力の上限を支え、エッジモデルは日常運用の下限を支える——遅延、バッテリー持続時間、プライバシー、安定性はすべてエッジ側にかかっている。両者はどちらも不可欠であり、違いはOSとの結合の深さにある。エッジモデルは、各端末デバイスのOSに組み込まれ、本体のNPUと深く結合し、OS内で二重の役割を担う:下位では、Runtimeのローカル推論バックエンドとして機能し、上位では、RuntimeのフレームワークとSDKを通じてシステムレベルのAPIとしてアプリに開放される。
自社開発はクラウドとエッジ両方で意味を持つが、エッジでの還元がより明確である。クラウドモデルは外部調達でも能力の上限をカバーできるが、自社開発の利点はルーティング制御権、商業条件、モデルのイテレーション速度に主に現れる。エッジは異なる。エッジモデルは、各デバイスのOSとNPUに組み込まれており、自社開発のメリットは製品性能に直接反映される:KVキャッシュの共有、特定世代のチップ用に設計された2-bit量子化認識トレーニング、Per-Layer Embedding(Gemma 3n由来、層ごとに高速メモリから埋め込みパラメータをインクリメンタルに読み込む)など、これらはモデルとハードウェアを同期して設計しなければ実現が困難である。同時に、協調スケジュールもサードパーティのハードウェアベンダーに左右されなくなるべきである。
Tensor G5のTPU処理能力は前世代のG4と比較して最大60%向上していますが、Gemini NanoのG5における改善はそれ以上です——Google公式およびJon Peddie Researchのデータによると、ローカル処理速度は前世代の2.6倍、消費電力は半分に削減され、tokenウィンドウは12,000から32,000に拡張されました(これは一度に約100枚のスクリーンショットを処理するのに相当します)。これらの顕著な性能向上は、Gemini Nano v3が採用するMatryoshka Transformer弹性推論アーキテクチャと、Tensor G5 TPUとの協調最適化によるものです。

Tensor G5におけるGemini Nanoの前世代に対する性能の飛躍
出典:Google/Jon Peddie Research、雲涌AI製図
エッジ側モデルの層では、主要なOSベンダーがそれぞれ独自のモデルを保有しています:GoogleのGemini Nano、Appleの約3Bパラメータのエッジ側基礎モデル、MicrosoftのPhi Silica、华为のパングーエッジ側モデル。自社開発は、この層のデフォルトの選択肢です。
三. 三层之间:協同が深ければ深いほど、差別化の空間が広がる
下層から上層へと連携する三層の基盤能力:制御可能なチップ→エッジ/クラウドモデル→Runtime→Agent。制御可能なチップはエッジモデルの推論効率と消費電力を決定し、エッジモデルはRuntimeがスケジューリング可能なローカルインテリジェンスを決定し、RuntimeはAgentがシステムサービスとして複数アプリ間で実行される信頼性を決定する。これら三者がより深く協調するほど、OSベンダーはエッジAgentにおける製品体験の差別化が大きくなり、競争優位もより厚くなる。
より深くソフトウェアとハードウェアの3層が連携すれば、OSエージェントの製品機能は、単一層では実現できない差別化を発揮する。
- 応答遅延と電力消費。Gemini NanoがTensor G5で得た2.6倍の処理速度と電力消費の半減は、モデルアーキテクチャ、チップ設計、Runtimeスケジューリングの3層が同世代のソフトウェア・ハードウェア設計内で相互に最適化された結果として生じた。
- プライバシーと信頼性。プライバシーに関わる一般的なタスクはエッジ側モデルでローカルに処理され、複雑なリクエストのみクラウドに委ねる——これが現在のOS Agentがユーザーデータを扱うための合理的なデフォルト姿勢である。この「エッジ優先、クラウドがバックアップ」の実現は、3つの層の連携にかかっている:NPUとエッジ側モデルの深層的な最適化は、エッジ側モデルが日常的な高頻度推論を担うための鍵となる道筋である。モデルはNPU向けに量子化・圧縮を行い、KVキャッシュを共有する。Runtimeはタスクの複雑さに応じてエッジ側とクラウド間でルーティングを行う。この3層のいずれかが不十分であれば、「エッジ優先」は単なるマーケティング用語に過ぎなくなる。
- システムレベルのコンテキスト。OSベンダーが、アプリ間およびOS層のユーザーデータ(意味インデックス、画面認識、長期記憶)を再構成し、エージェントにシステムレベルの個人的コンテキストを提供することは、エージェントが真正に「ユーザーを理解する」ための前提であり、OSエージェントがアプリ単体のエージェントと異なる核心的特徴である。実装には3層の連携が必要である:ランタイムがアプリ間インデックスと権限を保持し、エンドデバイス側モデルが常駐して理解と推論を担当し、NPUがローカルでの効率的な計算能力を提供する。AppleのCore Spotlightは端末上で意味インデックスを構築し、アプリはApp Intentsを通じてアクションとデータをシステムに接続する。エージェントはPersonal Contextを通じてコンテキストを取得する(Appleはこの機能が今後のソフトウェア更新で提供されると発表済み);Android側のAppFunctionsも同様の道筋をたどっている。
- システムサービスの信頼性のために、OS Agentはオフライン、低電力、過熱による性能低下などの現実的なシナリオにおいても利用可能でなければならない。エッジ側モデルはデバイスに常駐させ、Agentがネットワークに依存せずに動作できるようにする。高度にソフトウェア・ハードウェア最適化されたNPUが低消費電力推論を担い、Runtimeはデバイスリソースが逼迫した際に可用性に応じてスケジューリングをフォールバック(より軽量なモデルに切り替えたり、リクエストをクラウドにルーティングしたり)する。この3層のいずれかが欠けても、OS Agentはシステムサービスとして機能できず、アプリレベルのチャットボタンに後退してしまう。
Apple Intelligenceは、完全な協調パラダイムを提示しています:Apple Silicon、約3Bのエッジ側基礎モデル、Foundation Modelsフレームワークが下から上へと密接に連携し、一般的なシナリオはエッジ側で処理され、複雑なリクエストはプライベートクラウド計算に転送されます。Googleは別の形態です。Tensor G5は、最新世代のGemini Nanoを完全に実行できる初のSoCとしてPixel 10に搭載され、AICoreが統一的にスケジューリングすることで、Magic CueやPixel Screenshotsなどのシステムレベルのエージェント機能がクラウドに依存せずにデフォルトで有効化されます。華為は国内で3層協調を構築した模範です:Kirin、達芬奇NPU、盤古エッジ側、HMAFの4つをすべて自社開発し、下から上へと密接に結合して完全な3層基盤を構築しています。

エッジデバイスOSエージェントの3層チェーシャーシメカニズム
出典:雲涌AI
四. 底盤之上:長期のモアレのその他の重要な変数
三層の連携がコアの城壁を築く。底盘の上には、AgentとAppの相互作用やプライバシー保護など、OS Agent時代の製品競争力に影響を与える多くの変数が存在する。
OSエージェントとアプリのインタラクションは、OSベンダーとアプリベンダーの駆け引きの最前線に位置する。現在、二つの道が並行して進んでいる。一つはスクリーン認識と自動化で、Gemini Liveのスクリーン共有、Apple Visual Intelligence、Circle to Searchなどが含まれる。OSエージェントはスクリーンを読み取り、ボタンをクリックしてアプリに介入するが、単一タスクには対応可能だが、毎回の呼び出しでは構造化された情報が欠如しており、複数ステップのアクションで安定したワークフローを構築するのは難しい。もう一つはAPIの深層統合で、Google AppFunctions、Apple App Intents、華為Intents Kitなどが含まれる。アプリが核心的な機能を構造化されたインターフェースとしてシステムに公開することで、エージェントによる呼び出しが安定し、複数ステップのワークフローも構築可能になる。APIパスが広がるかどうかの鍵はOSベンダーではなく、アプリベンダーにある。核心機能をエージェントに開放することは、ユーザーがアプリを直接開かなくなる可能性を意味し、ブランド露出、広告枠、行動データ、課金入口がOSに奪われるリスクを伴う。これはユーザー側の端末トラフィック配分権の核心的な争点となる。
プライバシー保護はエッジ側システムの重要な価値と基本ラインである。OSベンダーはエッジ側で最も深いシステムレベルの権限と最もセンシティブなユーザーデータを保有しており、プライバシーはその本質的な立場であり、前記の二つの課題を長期的に推進するための前提条件でもある。Appleは、エッジ側のSecure Enclave独立セキュリティチップとプライベートクラウドコンピューティングPCCノードが共有する同一のハードウェアレベルのセキュリティ設計を通じて、端末ベースのプライバシー保護体制を構築し、この製品戦略により「Privacy. That’s Apple.」をAppleのグローバルハイエンド市場における核心的なブランドラベルとし、ユーザーの信頼を獲得した。

Appleの「プライバシー。それがAppleです。」ラベル
出典:Apple公式サイト
三層の連携が城壁を築く核心であり、その基盤上のこれらの長期的変数が、どれだけ深く強化できるかに影響します。
五. OSのリメイクだけではない
エッジデバイスOSのエージェント化のトレンドにおいて、システムレベルのAIランタイム、制御可能なチップ、エッジとクラウドのモデルマトリックスという3つの基盤がより堅固であればあるほど、OSベンダーの製品の下限は高くなり、差別化の幅も広がる。このトレンドを捉えたOSベンダーのみが、エッジ側の入口トラフィック配分権の再編を推進し、より強い競争地位を獲得する機会を得られる。
このトレンドはスマートフォンやPCにとどまらない。OS Agentの基盤能力は、各社が既に構築したマルチデバイスエコシステムを通じて、特にIoT分野でより多くの端末へと拡散している。制御可能なチップは自動車SoCなどのシナリオへと下向きに展開され、Huaweiは車載規格のKirinチップを、XiaomiはPengui OSを自社車両に導入している。エンド側モデルは、眼鏡などの新形態ハードウェアへと軽量化して移行しており、GoogleとSamsung、Gentle Monster、Warby Parkerが共同開発するAndroid XRスマートグラスは2026年秋に発売予定だ。RuntimeとAgentの協調は、各社が既に整備した「スーパー端末/分散型」フレームワークを通じてデバイス群へと拡張されており、たとえばHuaweiの1+8+NとHarmonyOS分散型ソフトバス、Xiaomiの「人物・車両・家庭フルエコシステム」とHyperConnect、AppleのContinuity、GoogleのCross-device SDKおよびクロスデバイスサービスが該当する。OS Agentのこの戦いは、スマートフォンとPCの勝敗にとどまらない。
AICoreは約2年間磨かれてきた;AppleのOSとApple Siliconシリーズチップは十数年間最適化されてきた;TensorはG5に至るまで何度も改良され、Pixel 10になって初めてGemini Nano v3を担えるようになった。この戦いの勝敗は、発表会の1〜2時間ではなく、世代を越えたチップ、モデル、Runtimeの中で積み重ねられてきた。
参考資料:
- Gemini IntelligenceがプロアクティブなAIをAndroidに導入|Googleブログ
- I/O 2026:エージェント型Geminiの時代へようこそ|Googleブログ
- Phi Silica、小型だが強力なデバイス内SLM|Windows Experience Blog
- Apple、Siriのアップグレードを無期限に延期|Bloomberg
- HarmonyOS 6 デベロッパー・ベータ開始のお知らせ(HDC 2025)|Huawei
- 最新のGemini Nanoとデバイス内ML Kit GenAI API|Android Developers Blog
- Foundation Modelsフレームワークドキュメント|Apple Developer
- HarmonyOSエージェントフレームワークホワイトペーパー|Huawei Developers
- デバイス上で実行するLlama 3.1とCore ML|Apple Machine Learning Research
- Apple Intelligence ファウンデーション言語モデル テクニカルレポート 2025|Apple Machine Learning Research
- Google Tensor G5:ベンチマークと知っておくべきすべて|Android Central
- Googleの新M5 SoC(Tensor G5 解説・Matryoshka Transformer)|Jon Peddie Research
- プライベートクラウドコンピューティング:クラウド上のAIプライバシーの新たなフロンティア|Apple Security Engineering
- AppFunctionsの概要|Android Developers
- アプリの目的|Apple Developer
- Intents Kitの概要(HarmonyOS)|华为开发者
- Google Pixel 10 ProのTensor G5チップは、iPhone 14と比較すると印象的です|Macworld
- Gemma 3nモデルの概要|Google AI for Developers
