Android、iOS、HarmonyOS 和 Windows 透過作業系統層級的 AI 整合進入代理時代

文 | 雲湧AI ，作者 | 黃雲皓

一. Google I/O 2026 之後：四大端側 OS 步入 Agent 時代

2026年5月12日，Google舉辦了 Android Show｜I/O Edition 發布會，這是5月19日 I/O 大會之前的 Android 專場。Android 生態總裁 Sameer Samat 為這場發布會定調：Android 要從作業系統轉化成一套智慧系統。承接這條主線的，就是 Gemini Intelligence——Android 系統層的一套主動式 AI 能力。

Windows

2026 年 Android Show｜I/O Edition 發布會海報
來源：Android Heaadlines

與去年 Gemini Nano + AICore 的組合相比，這次 Google 將 Agent 跨 App 與上下文的能力進一步嵌入 OS 層：跨 App 任務自動化（訂餐、採購、下單）、表單自動填寫、網頁摘要、自訂小工具，依次寫入系統級能力清單。Google 同時將用戶顯性控制（explicit user control）、全面數據保護（comprehensive data protection）、運營透明（operational transparency）列為產品三原則。

一週後的 5 月 19 日，I/O 主題演講上，Google 執行長 Sundar Pichai 沿這條主線開場：

歡迎進入 Agent 化的 Gemini 時代

投身端側 OS Agent 化浪潮，Google 算不上起跑早。

Microsoft 於 2024 年 5 月的 Build 2024 上推出 Copilot+PC（搭載 40+ TOPS NPU 的新一代 Windows 11 機型品類），基於端側小模型 Phi Silica、螢幕 Agent 能力 Click to Do、系統級活動記憶 Recall 三項能力，將 Agent 能力嵌入 OS 系統。

在2024年6月的WWDC24上，Apple正式公布了“Apple Intelligence”，當時將其定位為“personal intelligence system”（個人智能系統），其後陸續推出了若干AI輔助功能，但由於自家大型模型開發延遲、Siri“智障”等問題，Apple Intelligence的核心Agent功能一直未能面世。

華為則於2025年6月HDC 2025上發布HarmonyOS 6與鴻蒙智能體框架（HMAF），隨後小藝智能體廣場上線了80多個智能體。

端側 OS Agent 化的大趨勢已同時出現在 Android、iOS、HarmonyOS、Windows 等主流操作系統上。

發布會展示的只是功能，OS 廠商真正要拼的，是支撐 OS Agent 可靠運行、實際解決問題的三層能力底：系統級 AI Runtime、可控晶片、端雲模型矩陣。

二. 發佈會之下：撐起 OS Agent 的三層底盤

System-level AI Runtime: The Scheduling Hub for Edge-Side Intelligence

Runtime 是端側模型在作業系統中運行的推理引擎與系統服務。向下，它直接對接 NPU 與系統資源調度；向上，它透過穩定的 API 將推理能力暴露給所有 App。它將端側模型轉變為「OS 層的共享智能」：跨 App 共享模型權重、統一調度算力與記憶體、承載 Agent 所需的工具調用、引導生成、上下文與權限對接。它決定了 OS Agent 到底是 App 裡的一個聊天按鈕，還是在作業系統上能執行系統級操作的常駐服務。

Android 体系內最完整的樣本是 Google AICore。2023 年 12 月，AICore 作為 Android 14 的系統服務（system service）上線；2025 年 8 月，Gemini Nano 透過 ML Kit GenAI APIs 對開發者開放。從系統服務底座到面向 App 的穩定 API，AICore 走了近兩年，不斷打磨。

其他 OS 廠商走的是同一條路，節奏不同。Apple 在 WWDC25 將 Foundation Models 框架開放給開發者，框架自帶 @Generable 裝飾器、工具調用、引導生成（guided generation）與有狀態會話（stateful session），背後接的是約 3B 參數的端側基礎模型，加上私密雲端計算提供雲端支援。Microsoft 把端側 AI 框架 Foundry on Windows 與 Phi Silica 裝進 Windows 11，以 Windows ML 作為底層推理後端。華為在 HDC 2025 發布 Agent Framework Kit（鴻蒙智能體框架，HMAF），把意圖體系與 Agent 協作協議一起開放。

Windows

Android AICore 作為系統服務，調度 Gemini Nano 在硬體加速器上推理
來源：Android Developers

可控晶片：軟硬協同的支點

Google 在 Android Show｜I/O Edition 上為 Gemini Intelligence 設定明確的硬體門檻：完整功能集首發僅面向 Pixel 10 系列與 Galaxy S26 系列等少數最新旗艦，去年的機型均不在列。這指向一個簡單事實：AI 模型仍在快速演進，軟體對硬體持續提出新要求。可控晶片是承接這些要求的底盤，可控程度決定 OS 廠商為端側 OS Agent 做軟硬適配的空間。

Apple 是軟硬一體路線的典範。iOS 與 macOS 從一開始就與 A 系列、M 系列晶片同步演進，Core ML 則將 CPU、GPU、ANE 的調度統一封裝至框架層。這條路線在 LLM 時代繼續延伸。Apple Machine Learning Research 曾提供一組實測數據：依照 Core ML 的優化路徑將 Llama 3.1 8B Instruct 部署至 M1 Max 上，本地解碼速度可達約 33 tokens/s。《Apple Intelligence Foundation Language Models》技術報告亦披露，Apple 為自家晶片進行了 KV cache 共享與 2-bit 量化感知訓練等架構級優化，才得以成功將約 3B 的端側基礎模型透過 Foundation Models 框架開放給開發者。這種深度，唯有將晶片掌握在自己手中才能實現——這正是可控晶片對於 OS 廠商的價值：它決定了軟硬協同的深度，也提升了端側 OS Agent 的體驗上限。

進入AI時代，Google 也在做同樣一件事——從 Pixel 6 開始走自研 Tensor SoC 路線，最新的 Tensor G5 將 TPU 性能最高提升 60%、CPU 平均提升 34%，作為首款完整運行最新一代 Gemini Nano 的 SoC 將於 Pixel 10 落地。當然，Tensor G5 也有短板：Android Central 實測顯示其記憶體配置（RAM 容量）仍是 AI 性能瓶頸、Geekbench AI 跑分輸給驍龍 8 Elite；Macworld 的 Geekbench 6 實測中，G5 的單核與多核分數都低於 A18 Pro。Google 還在追趕，但自研 Tensor 加端側 Gemini 的協同路線已經成形。

華為麒麟搭載達芬奇NPU與盤古端側模型，是另一條與Apple、Google並行的可控晶片路徑。小米落地了玄戒O1，是朝可控晶片方向走出的新進者。

端雲模型矩陣：Agent 的智力源泉

端雲模型矩陣是終端設備的「智力」源泉：雲端模型撐起複雜任務的能力天花板，端側模型托起日常運行的下限——延遲、續航、隱私、穩定性都壓在端側這一頭。兩端缺一不可，差別在於與OS的耦合深度。端側模型要嵌入每一台終端設備的OS、與本機NPU深度耦合，在OS裡承擔雙重身份：往下，它是Runtime的本地推理後端；往上，它通過Runtime的框架與SDK作為系統級API向App開放。

自研在雲端和端側都有意義，只是端側的回報更顯性。雲端模型外採也能撐起能力天花板，自研的優勢則主要體現在路由控制權、商業條款、模型迭代節奏。端側不同。端側模型嵌入到每一台設備的OS與NPU之中，自研的回報直接體現在產品性能上：KV cache共享、為某代晶片專門設計的2-bit量化感知訓練、Per-Layer Embedding（源自Gemma 3n，按層從快速存儲增量加載嵌入參數）等等，這些都得是模型與硬體同步設計才方便實現；與此同時，協同節奏也不可再受第三方硬體廠商制約。

Tensor G5 的 TPU 算力較上一代 G4 最高提升 60%，但 Gemini Nano 在 G5 上的提升遠不止於此——據 Google 官方與 Jon Peddie Research 整理，本地處理速度達上一代的 2.6 倍、能耗降至原先的一半、token 窗口從 12,000 擴到 32,000（相當於一次性消化約百張截圖）。這些顯著超出的性能表現，源自 Gemini Nano v3 採用的 Matryoshka Transformer 彈性推理架構，疊加與 Tensor G5 TPU 的協同優化。

Windows

Gemini Nano 於 Tensor G5 上相較於上一代的性能躍遷
來源：Google/Jon Peddie Research，雲湧AI製圖

在端側模型這一層，各主流作業系統廠商手裡握著的都是自家牌：Google 的 Gemini Nano、Apple 約 3B 參數的端側基礎模型、Microsoft 的 Phi Silica、華為的盤古端側模型。自研，是這一層的默認選項。

三. 三層之間：協同越深，差異化空間越大

三層能力底盤自下而上耦合：可控晶片 → 端側／雲端模型 → Runtime → Agent。可控晶片決定端側模型可達到的推理效率與功耗，端側模型決定 Runtime 可調度的本地智能，Runtime 決定 Agent 作為系統服務跨 App 執行的可靠性。三者協同越深，OS 廠商在端側 Agent 上的產品體驗差異化越大，護城河也越厚。

層與層之間在相同的軟硬體中咬合得越深，OS Agent 的產品能力便會湧現出單層無法實現的差異。

響應延遲與功耗。Gemini Nano 在 Tensor G5 上實現的 2.6 倍處理速度與能耗減半，依賴於模型架構、晶片設計、Runtime 調度三者在同代軟硬設計中相互適配，才會產生此等級的改善。
隱私與可信。涉及隱私資料的常見任務由端側模型即時完成，複雜請求再交由雲端——這是當前 OS Agent 對待使用者資料的合理預設立場。三層耦合決定這種「端側優先、雲端兜底」能否真正落實：NPU 與端側模型深度適配，是仍處於發展階段的端側模型承擔日常高頻推理的關鍵路徑；模型為 NPU 進行量化壓縮與 KV cache 共享；Runtime 根據任務複雜度在端側與雲端之間進行路由。三層中任何一層不到位，「端側優先」就只能是行銷話術。
系統級上下文。操作系統廠商將跨應用程式和操作系統層的使用者資料（語義索引、螢幕感知、長期記憶）重組為系統級個人語境，提供給 Agent，這是 Agent 真正「理解使用者」的前提，也是操作系統 Agent 與單一應用程式級 Agent 的核心差異。落地依賴三層咬合：Runtime 持有跨應用程式索引與權限，端側模型常駐負責理解與推理，NPU 提供本地高效算力。Apple 的 Core Spotlight 在終端建立語義索引，應用程式透過 App Intents 將動作與資料接入系統，Agent 將透過 Personal Context 獲取語境（Apple 已宣布該能力將隨未來軟體更新上線）；Android 側的 AppFunctions 也走同樣的路徑。
作為系統服務的可靠性。OS Agent 要被當作系統級服務調用，就得在不上網、低電量、熱降頻等現實場景下保持可用。端側模型常駐設備，讓 Agent 離開網路也能工作；高度軟硬優化的 NPU 承擔低功耗推理；Runtime 在設備資源緊張時按可用性回退調度（切到更輕量的模型，或把請求路由到雲端）。三層任一缺位，OS Agent 就撐不起系統服務的形態，只能退回 App 級聊天按鈕。

Apple Intelligence 呈現了完整的協同範式：Apple Silicon、約 3B 端側基礎模型、Foundation Models 框架自下而上咬合，端側處理常用場景，複雜請求轉入私密雲端計算。Google 是另一種形態。Tensor G5 作為首款完整運行最新一代 Gemini Nano 的 SoC 在 Pixel 10 落地，由 AICore 統一調度，讓 Magic Cue、Pixel Screenshots 等系統級 Agent 功能可以不依賴雲端預設開啟。華為是國內構築三層協同的典範：麒麟、達芬奇 NPU、盤古端側、HMAF 四件全部自有，自下而上耦合成完整的三層底盤。

Windows

端側 OS Agent 三層底盤咬合機制
來源：雲湧AI

四. 底層之上：長期護城河的其他關鍵變數

三層協同構築護城河的核心。底盤之上還有眾多變數影響 OS Agent 時代的產品競爭力，包括 Agent 與 App 的交互能力、隱私保護等。

OS Agent 與 App 的互動，處於 OS 廠商與 App 廠商博弈的最前線。眼下兩條路徑並行。一條是識屏與自動化，包括 Gemini Live 屏幕共享、Apple Visual Intelligence、Circle to Search 等。OS Agent 靠讀螢幕、點按鈕介入 App，單次任務可行，但每次調用都缺乏結構化資訊，多步動作難以穩定搭建工作流。另一條是 API 深度整合，包括 Google AppFunctions、Apple App Intents、華為 Intents Kit 等。App 把核心動作以結構化介面暴露給系統，Agent 調用穩定，也能搭建多步工作流。API 路徑能否鋪開，關鍵不在 OS 廠商，而在 App 廠商。把核心功能交給 Agent 調用，意味著用戶可能不再直接打開 App，品牌曝光、廣告位、行為資料、付費入口都有被 OS 截走的風險。這將是用戶側終端流量分配權的核心爭奪點。

隱私保護，是端側系統的關鍵價值和底線。OS 廠商在端側握有最深的系統級權限和最敏感的用戶數據，隱私既是本職立場，也是前兩件事長期推進的前置條件。Apple 通過端側 Secure Enclave 獨立安全晶片與私有雲計算 PCC 節點共享的同一套硬體級安全設計，構建了基於終端的隱私保護體系，這一產品策略讓 “Privacy. That’s Apple.” 成為 Apple 在全球高端市場的核心品牌標籤，進而贏得用戶信任。

Windows

Apple 的 “Privacy. That’s Apple.” 標籤
來源：Apple 官網

The core of the three-layer collaboration establishes the moat, while these long-term variables above the foundation determine how deep it can be reinforced.

五. 不只是重做 OS

在端側 OS 備受 Agent 化趨勢影響下，系統級 AI Runtime、可控晶片、端雲模型矩陣這三層底盤越紮實，OS 廠商在這場戰役中的產品下限就越高，差異化空間也越大。把握住這一趨勢的 OS 廠商，才有機會推動端側入口流量分配權的重置，取得更強的竞争位置。

這一趨勢不止於手機和PC。OS Agent 的底層能力沿著各家已搭建的多設備生態向更多終端外溢，尤以 IoT 為盛。可控晶片向汽車 SoC 等場景下沉，華為已布局車規級麒麟晶片、小米澎湃 OS 走進自家車型；端側模型向眼鏡等新形態硬體輕量化遷移，Google 與 Samsung、Gentle Monster、Warby Parker 聯合開發的 Android XR 智能眼鏡將在 2026 年秋季上市；Runtime 與 Agent 的協同則借由各家已鋪設的「超級終端/分佈式」框架擴展到設備群，例如華為的 1+8+N 與鴻蒙分佈式軟總線、小米的「人車家全生態」與 HyperConnect、Apple 的 Continuity、Google 的 Cross device SDK 與跨設備服務。OS Agent 這場仗，遠不限於手機和 PC 的勝負。

AICore 磨合了近兩年；Apple 的 OS 與 Apple silicon 系列晶片磨合了十幾年；Tensor 一路改到 G5，Pixel 10 方能承擔 Gemini Nano v3 的重擔。這場仗的高下，從來不在發佈會的一兩個小時，而在一代代的晶片、模型與 Runtime 中磨出來的。

參考資料：

Gemini Intelligence 將主動式 AI 帶入 Android｜Google Blog
I/O 2026：歡迎進入代理式 Gemini 時代｜Google Blog
Phi Silica，小巧而強大的設備端 SLM｜Windows Experience Blog
Apple 延遲 Siri 升級至無限期｜Bloomberg
HarmonyOS 6 開發者 Beta 啟動新聞稿（HDC 2025）｜華為
最新推出的 Gemini Nano 搭配裝置端 ML Kit GenAI API｜Android Developers Blog
Foundation Models 框架文件｜Apple Developer
鴻蒙智能體框架白皮書｜華為開發者
在裝置上使用 Core ML 運行 Llama 3.1｜Apple 機器學習研究
Apple Intelligence 基礎語言模型技術報告 2025｜Apple Machine Learning Research
Google Tensor G5：效能測試與您需要知道的一切｜Android Central
Google 的新 M5 SoC（Tensor G5 詳解·Matryoshka Transformer）｜Jon Peddie Research
私有雲運算：雲端 AI 隱私的新領域｜Apple Security Engineering
AppFunctions 概覽｜Android Developers
App Intents｜Apple Developer
Intents Kit 簡介（HarmonyOS）｜華為開發者
Google Pixel 10 Pro 的 Tensor G5 芯片令人印象深刻——如果你將它與 iPhone 14 進行比較｜Macworld
Gemma 3n 模型概覽｜Google AI for Developers