Android, iOS, HarmonyOS et Windows entrent dans l'ère des agents avec une intégration IA au niveau du système d'exploitation

Article | Yunyong AI, Auteur | Huang Yunhao

一. Après Google I/O 2026 : Les quatre principaux OS côté client entrent dans l'ère des agents

Le 12 mai 2026, Google a organisé la présentation Android Show | I/O Edition, un événement dédié à Android avant la conférence I/O du 19 mai. Sameer Samat, président de l'écosystème Android, a défini le ton de cette présentation : Android doit passer d'un système d'exploitation à un système intelligent. Ce fil conducteur est incarné par Gemini Intelligence — un ensemble de capacités IA proactives intégrées au niveau système d'Android.

Windows

Affiche de la conférence Android Show 2026 | Édition I/O
Source : Android Headlines

Par rapport à la combinaison Gemini Nano + AICore de l'année dernière, Google intègre désormais plus profondément au niveau du système les capacités de l'Agent à travers les applications et les contextes : automatisation des tâches inter-applications (commander à manger, faire des achats, passer des commandes), remplissage automatique de formulaires, résumés de pages web, widgets personnalisés — ajoutés progressivement à la liste des capacités système. Google classe également le contrôle explicite de l'utilisateur, la protection complète des données et la transparence opérationnelle comme les trois principes fondamentaux du produit.

Le 19 mai, lors de la conférence I/O prévue dans une semaine, le PDG de Google, Sundar Pichai, a ouvert en suivant cette ligne directrice :

Welcome to the agentic Gemini era（欢迎进入Agent化的Gemini时代）

Google n'est pas parmi les premiers à s'engager dans la vague de l'agentisation des OS de périphérie.

Microsoft a lancé les Copilot+ PC lors de Build 2024 en mai 2024 (une nouvelle catégorie d'appareils Windows 11 dotés d'un NPU de plus de 40 TOPS), intégrant les capacités d'agent dans le système d'exploitation grâce à trois fonctionnalités : le petit modèle côté appareil Phi Silica, la fonction d'agent d'écran Click to Do et la mémoire des activités au niveau système Recall.

Lors de la WWDC24 en juin 2024, Apple a officiellement annoncé « Apple Intelligence », qu'elle a positionné comme un « système d'intelligence personnelle ». Depuis, plusieurs fonctionnalités d'assistance par l'IA ont été déployées, mais en raison de retards dans le développement de son propre modèle à grande échelle et des limitations de Siri, la capacité centrale d'Agent d'Apple Intelligence n'a toujours pas été mise en ligne.

Huawei a lancé HarmonyOS 6 et le cadre d'agents intelligents HarmonyOS (HMAF) lors de HDC 2025 en juin 2025, suivis par le déploiement de plus de 80 agents sur la place des agents Xiao Yi.

La tendance majeure à l'agentisation des OS côté périphérique est apparue simultanément sur les systèmes d'exploitation principaux tels qu'Android, iOS, HarmonyOS et Windows.

La démonstration lors de la conférence ne montre que les fonctionnalités ; ce que les fabricants de systèmes d'exploitation doivent véritablement concurrencer, ce sont les trois niveaux de compétences sous-jacentes permettant de garantir le fonctionnement fiable de l'agent OS et de résoudre concrètement les problèmes : un runtime AI système, des puces contrôlables et une matrice de modèles extrémité-nuage.

Deux. En dessous de la conférence de presse : les trois piliers soutenant OS Agent

Runtime AI de niveau système : centre de planification de l'intelligence embarquée

Runtime est le moteur d'inférence et les services système qui exécutent les modèles côté appareil. En bas, il s'interface directement avec le NPU et la gestion des ressources système ; en haut, il expose des API stables pour fournir des capacités d'inférence à toutes les applications. Il transforme les modèles côté appareil en « intelligence partagée au niveau du système d'exploitation » : partage des poids de modèle entre applications, orchestration unifiée de la puissance de calcul et de la mémoire, prise en charge des appels d'outils requis par les agents, orientation de la génération, et intégration du contexte et des autorisations. Il détermine si l'agent système est simplement un bouton de discussion dans une application, ou un service persistant capable d'exécuter des opérations au niveau du système d'exploitation.

L'échantillon le plus complet dans l'écosystème Android est Google AICore. En décembre 2023, AICore a été lancé en tant que service système (system service) d'Android 14 ; en août 2025, Gemini Nano a été rendu accessible aux développeurs via les API ML Kit GenAI. De la base de service système aux API stables dédiées aux applications, AICore a mis près de deux ans à être affiné.

Les autres fabricants d'OS suivent le même chemin, mais à un rythme différent. Apple a ouvert le framework Foundation Models aux développeurs lors de la WWDC25, intégrant nativement le décorateur @Generable, l'appel d'outils, la génération guidée et les sessions avec état, soutenus par un modèle de base local de 3 milliards de paramètres et complété par un calcul cloud privé. Microsoft a intégré le framework local AI Foundry on Windows et Phi Silica dans Windows 11, en utilisant Windows ML comme backend d'inférence sous-jacent. Huawei a lancé l'Agent Framework Kit (HMAF, framework d'agents HarmonyOS) lors de la HDC 2025, en ouvrant à la fois le système d'intention et le protocole de collaboration entre agents.

Windows

Android AICore, en tant que service système, planifie l'inférence de Gemini Nano sur les accélérateurs matériels.
Source : Android Developers

Puce contrôlée : le levier de la collaboration logiciel-hardware

Google fixe des exigences matérielles claires pour Gemini Intelligence sur Android Show｜I/O Edition : la gamme complète des fonctionnalités sera initialement disponible uniquement sur les derniers haut de gamme tels que la série Pixel 10 et la série Galaxy S26, tandis que les modèles de l'année dernière sont exclus. Cela souligne un fait simple : les modèles d'IA évoluent rapidement, et les logiciels imposent continuellement de nouvelles exigences matérielles. Les puces contrôlables constituent la base permettant de répondre à ces exigences, et le niveau de contrôle détermine l'espace dont disposent les fabricants d'OS pour adapter logiciel et matériel aux agents OS côté terminal.

Apple est un exemple typique de la stratégie intégrée hardware-software. iOS et macOS ont évolué en parallèle dès le départ avec les puces de la série A et M, tandis que Core ML regroupe l'ordonnancement du CPU, du GPU et de l'ANE au niveau du framework. Cette approche s'est poursuivie à l'ère des LLM. Apple Machine Learning Research a fourni un ensemble de mesures concrètes : en déployant Llama 3.1 8B Instruct sur un M1 Max selon les optimisations de Core ML, la vitesse de décodage locale atteint environ 33 tokens/s. Le rapport technique « Apple Intelligence Foundation Language Models » révèle également qu'Apple a mis en œuvre des optimisations architecturales telles que le partage du cache KV et l'entraînement sensible à la quantification 2-bit pour ses propres puces, permettant ainsi de rendre accessible aux développeurs un modèle de base de ~3B sur appareil via le framework Foundation Models. Ce niveau de profondeur ne peut être atteint que si l'on maîtrise ses propres puces — c'est précisément la valeur des puces contrôlées pour les fabricants d'OS : elles déterminent la profondeur de la synergie hardware-software et élèvent la limite supérieure de l'expérience des agents OS sur appareil.

À l'ère de l'IA, Google effectue également la même démarche — depuis le Pixel 6, il a adopté la voie de ses propres SoC Tensor, et le dernier Tensor G5 augmente les performances du TPU jusqu'à 60 % et celles du CPU en moyenne de 34 %, étant le premier SoC à exécuter pleinement la dernière génération de Gemini Nano sur le Pixel 10. Toutefois, le Tensor G5 présente aussi des limites : les tests d'Android Central révèlent que sa configuration mémoire (capacité RAM) reste un goulot d'étranglement pour les performances IA, et son score Geekbench AI est inférieur à celui du Snapdragon 8 Elite ; dans les tests Geekbench 6 de Macworld, les scores mono-cœur et multi-cœur du G5 sont également inférieurs à ceux de l'A18 Pro. Google continue de rattraper son retard, mais la stratégie combinée de Tensor auto-développé et de Gemini côté appareil est désormais établie.

Le processeur Kirin de Huawei, associé au NPU Da Vinci et au modèle de bord Panggu, constitue une autre voie contrôlable parallèle à celles d'Apple et de Google. Xiaomi a déployé Xuanjie O1, marquant son entrée dans la direction des processeurs contrôlables.

Matrice de modèles de bout en nuage : la source d'intelligence des agents

La matrice de modèles de bout en nuage est la source d’« intelligence » des appareils terminaux : les modèles cloud définissent la limite supérieure des capacités pour les tâches complexes, tandis que les modèles de bout assurent la limite inférieure pour les opérations quotidiennes — latence, autonomie, confidentialité et stabilité reposent tous sur le côté terminal. Les deux sont indispensables ; la différence réside dans la profondeur de couplage avec le système d’exploitation. Les modèles de bout doivent être intégrés dans le système d’exploitation de chaque appareil terminal et fortement couplés au NPU local, assumant deux rôles au sein du système d’exploitation : vers le bas, ils constituent l’arrière-plan d’inférence locale du Runtime ; vers le haut, ils offrent aux applications des API système via les frameworks et SDK du Runtime.

Le développement interne a du sens tant dans le cloud qu'en périphérie, mais les retours en périphérie sont plus tangibles. Les modèles externes dans le cloud peuvent suffire à atteindre le plafond des capacités, tandis que les avantages du développement interne résident principalement dans le contrôle du routage, les termes commerciaux et le rythme d'itération des modèles. En périphérie, c'est différent. Les modèles en périphérie sont intégrés dans le système d'exploitation et le NPU de chaque appareil ; les retours du développement interne se traduisent directement par des performances produit : partage du cache KV, entraînement quantifié en 2-bit optimisé pour une génération spécifique de puce, Per-Layer Embedding (issu de Gemma 3n, chargement incrémentiel des paramètres d'embedding depuis un stockage rapide par couche), etc. Tous ces éléments nécessitent une conception synchronisée du modèle et du matériel pour être facilement réalisables ; en outre, le rythme de coordination ne peut plus dépendre des fabricants de matériel tiers.

La puissance de calcul TPU du Tensor G5 est jusqu'à 60 % supérieure à celle de la génération précédente G4, mais les améliorations apportées par Gemini Nano sur le G5 vont bien au-delà — selon Google et Jon Peddie Research, la vitesse de traitement local est 2,6 fois plus rapide que la génération précédente, la consommation d'énergie est réduite de moitié, et la fenêtre de tokens est passée de 12 000 à 32 000 (équivalent à la capacité de traiter environ cent captures d'écran en une seule fois). Ces performances nettement supérieures proviennent de l'architecture d'inférence élastique Matryoshka Transformer utilisée par Gemini Nano v3, combinée à une optimisation conjointe avec le TPU du Tensor G5.

Windows

Gemini Nano sur Tensor G5 : une amélioration des performances par rapport à la génération précédente
Source : Google/Jon Peddie Research, création graphique par Cloud Burst AI

À ce niveau du modèle côté appareil, chaque fabricant de systèmes d'exploitation majeur détient ses propres modèles : Gemini Nano de Google, le modèle de base côté appareil d'Apple d'environ 3 milliards de paramètres, Phi Silica de Microsoft et le modèle côté appareil Pangu de Huawei. Le développement interne est l'option par défaut à ce niveau.

III. Entre les trois niveaux : plus la synergie est forte, plus l'espace de différenciation est grand

Trois niveaux de capacité interconnectés du bas vers le haut : puce contrôlable → modèles côté terminal/nuage → Runtime → Agent. La puce contrôlable détermine l'efficacité d'inférence et la consommation d'énergie atteignables par les modèles côté terminal, les modèles côté terminal déterminent l'intelligence locale pouvant être orchestrée par le Runtime, et le Runtime détermine la fiabilité de l'Agent en tant que service système exécuté à travers les applications. Plus la collaboration entre les trois est approfondie, plus les fabricants de systèmes d'exploitation peuvent différencier leur expérience produit sur les agents côté terminal, et plus leur avantage concurrentiel est solide.

Plus les trois couches sont étroitement intégrées dans le même ensemble logiciel-hardware, plus les capacités produit de l'OS Agent émergent de manière distincte, impossibles à atteindre avec une seule couche.

Latence de réponse et consommation d'énergie. Les 2,6 fois plus de vitesse de traitement et la réduction de la consommation d'énergie de Gemini Nano sur Tensor G5 proviennent de l'adaptation mutuelle entre l'architecture du modèle, la conception du puce et l'ordonnancement Runtime au sein d'une même génération de conception logicielle et matérielle ; seule une telle échelle d'amélioration peut émerger.
Vie privée et confiance. Les tâches courantes impliquant des données privées sont effectuées localement par des modèles côté appareil, tandis que les demandes complexes sont transférées au cloud — c’est l’approche par défaut raisonnable adoptée par les OS Agent pour traiter les données utilisateur à ce stade. Trois niveaux d’interdépendance déterminent si cette stratégie « côté appareil en priorité, cloud en soutien » peut réellement être mise en œuvre : une adaptation approfondie entre le NPU et les modèles côté appareil, qui constitue le chemin essentiel pour permettre à ces modèles encore en développement de prendre en charge les inférences fréquentes quotidiennes ; la quantification et la compression des modèles, ainsi que le partage du KV cache, optimisées pour le NPU ; et un Runtime qui routera les tâches entre côté appareil et cloud selon leur complexité. Si l’un quelconque de ces trois niveaux n’est pas satisfait, « côté appareil en priorité » ne sera qu’un slogan marketing.
Contexte système. Le fournisseur d'OS重组 les données utilisateur à travers les applications et les couches OS (index sémantique, perception de l'écran, mémoire à long terme) en un contexte personnel système pour l'Agent, ce qui constitue la condition préalable à la véritable « compréhension de l'utilisateur » par l'Agent, ainsi que la caractéristique fondamentale distinguant l'Agent OS des Agents au niveau d'une seule application. La mise en œuvre repose sur trois niveaux interconnectés : le Runtime détient l'index cross-app et les autorisations, le modèle côté appareil reste en permanence actif pour l'interprétation et le raisonnement, et le NPU fournit une puissance de calcul locale efficace. Core Spotlight d'Apple établit un index sémantique sur l'appareil, les applications intègrent leurs actions et données au système via App Intents, et l'Agent accédera au contexte via Personal Context (Apple a annoncé que cette fonctionnalité sera disponible lors d'une future mise à jour logicielle) ; du côté Android, AppFunctions suit le même chemin.
La fiabilité du service système. Pour que l'OS Agent soit appelé comme un service de niveau système, il doit rester disponible dans des scénarios réels tels que l'absence de connexion Internet, une batterie faible ou une réduction de fréquence thermique. Les modèles côté appareil restent constamment présents sur l'appareil, permettant à l'Agent de fonctionner sans connexion réseau ; un NPU fortement optimisé logiciel-hardware assure une inférence à faible consommation d'énergie ; le Runtime ajuste dynamiquement l'ordonnancement en cas de contraintes de ressources (en basculant vers un modèle plus léger ou en redirigeant les requêtes vers le cloud). Si l'une quelconque de ces trois couches fait défaut, l'OS Agent ne peut plus assurer la forme d'un service système et doit revenir à un bouton de chat de niveau application.

Apple Intelligence présente un modèle de collaboration complet : Apple Silicon, environ 3 milliards de modèles de base locaux, et le cadre Foundation Models s'assemblent de bas en haut, traitant les scénarios courants en local et transférant les demandes complexes au calcul cloud privé. Google adopte une autre approche. Le Tensor G5, premier SoC capable d'exécuter entièrement la dernière génération de Gemini Nano, est intégré dans le Pixel 10, avec une gestion unifiée par l'AICore, permettant aux fonctionnalités système telles que Magic Cue et Pixel Screenshots d'être activées par défaut sans dépendre du cloud. Huawei est un exemple emblématique en Chine de la construction d'une collaboration en trois niveaux : Kirin, NPU Da Vinci, PanGu local et HMAF — tous développés en interne — s'assemblent de bas en haut pour former une plateforme complète en trois niveaux.

Windows

Mécanisme d'engagement en trois niveaux de l'agent OS côté terminal
Source : Yunyong AI

IV. Sur la base : d'autres variables clés de l'avantage concurrentiel à long terme

Le cœur de la fortification repose sur la synergie des trois niveaux. Au-dessus de la base, de nombreux facteurs influencent la compétitivité des produits à l'ère de l'OS Agent, notamment la capacité d'interaction entre l'Agent et l'App, ainsi que la protection de la vie privée.

L'interaction entre l'agent OS et les applications se situe à la pointe du conflit entre les fabricants d'OS et les fabricants d'applications. Actuellement, deux voies parallèles coexistent. La première repose sur la reconnaissance d'écran et l'automatisation, incluant Gemini Live avec partage d'écran, Apple Visual Intelligence, Circle to Search, etc. L'agent OS intervient dans les applications en lisant l'écran et en cliquant sur des boutons ; cela fonctionne pour une tâche unique, mais chaque appel manque d'informations structurées, rendant difficile la construction stable de flux de travail à plusieurs étapes. La seconde voie consiste en une intégration approfondie via des API, incluant Google AppFunctions, Apple App Intents, Huawei Intents Kit, etc. Les applications exposent leurs actions essentielles sous forme d'interfaces structurées au système, permettant à l'agent d'y accéder de manière stable et de construire des flux de travail à plusieurs étapes. La réussite de cette voie API dépend non pas des fabricants d'OS, mais des fabricants d'applications. Confier les fonctions essentielles à l'appel de l'agent signifie que les utilisateurs pourraient ne plus ouvrir directement les applications, exposant les marques, les espaces publicitaires, les données comportementales et les points de paiement au risque d'être interceptés par l'OS. Ce sera le point central de la bataille pour le contrôle de la répartition du trafic terminal du côté utilisateur.

La protection de la vie privée constitue la valeur fondamentale et la limite incontournable des systèmes côté appareil. Les fabricants de systèmes d’exploitation détiennent sur le côté appareil les autorisations système les plus profondes et les données utilisateurs les plus sensibles ; la vie privée est à la fois une position fondamentale et une condition préalable à la mise en œuvre à long terme des deux précédents points. Apple a construit un système de protection de la vie privée basé sur l’appareil en utilisant la même conception de sécurité au niveau matériel partagée entre le puce de sécurité Secure Enclave côté appareil et les nœuds de cloud computing privé PCC. Cette stratégie produit a fait de « Privacy. That’s Apple. » l’étiquette de marque centrale d’Apple sur les marchés haut de gamme mondiaux, lui permettant ainsi de gagner la confiance des utilisateurs.

Windows

L'étiquette « Privacy. That’s Apple. » d'Apple
Source : site officiel d'Apple

Les trois niveaux de collaboration constituent le cœur du fossé protecteur, tandis que ces variables à long terme au-dessus de la base déterminent jusqu’où il peut être renforcé.

Five. It's not just a redesign of OS

Dans la tendance à l'agentisation des OS côté périphérie, plus les trois couches de base — le Runtime AI système, les puces contrôlables et la matrice de modèles côté périphérie et cloud — sont solides, plus la limite inférieure du produit des fabricants d'OS sera élevée et plus grand sera leur espace de différenciation. Seuls les fabricants d'OS qui saisissent cette tendance auront la possibilité de rééquilibrer la répartition du trafic d'entrée côté périphérie et d'obtenir une position concurrentielle plus forte.

Cette tendance ne se limite pas aux téléphones et aux PC. Les capacités fondamentales de l’OS Agent s’étendent à travers les écosystèmes multi-appareils déjà établis vers davantage de terminaux, notamment dans l’IoT. Les puces contrôlables s’implantent dans des scénarios tels que les SoC automobiles : Huawei a déjà déployé des puces Kirin adaptées à l’automobile, tandis que le système d’exploitation Xiaomi澎湃OS intègre désormais ses propres modèles de véhicules. Les modèles côté terminal migrent vers des nouveaux types de matériel, tels que des lunettes, de manière allégée : les lunettes intelligentes Android XR développées en collaboration par Google, Samsung, Gentle Monster et Warby Parker seront commercialisées à l’automne 2026. La synergie entre Runtime et Agent s’étend aux群 d’appareils grâce aux cadres « super-terminal / distribué » déjà déployés par chaque acteur, par exemple le modèle 1+8+N et la bus logicielle distribuée HarmonyOS de Huawei, l’écosystème « homme-voiture-maison » et HyperConnect de Xiaomi, Continuity d’Apple, ainsi que le SDK Cross-device et les services inter-appareils de Google. La bataille de l’OS Agent ne se limite pas au seul combat entre téléphones et PC.

AICore a été affiné pendant près de deux ans ; les systèmes d'exploitation Apple et la série de puces Apple Silicon ont été optimisés pendant plus de dix ans ; Tensor a été constamment amélioré jusqu'à G5, permettant au Pixel 10 de prendre en charge Gemini Nano v3. La victoire dans cette bataille ne se joue jamais lors des deux heures d'une présentation, mais dans les générations de puces, de modèles et de Runtime qui ont été peaufinées.

Références :

Gemini Intelligence apporte une IA proactive sur Android｜Blog Google
I/O 2026 : Bienvenue dans l'ère agente de Gemini｜Blog Google
Phi Silica, petit mais puissant SLM sur appareil｜Windows Experience Blog
Apple repousse indéfiniment la mise à jour de Siri｜Bloomberg
Lancement du bêta développeur d'HarmonyOS 6 (HDC 2025) | Huawei
Le dernier Gemini Nano avec les API ML Kit GenAI sur appareil｜Blog des développeurs Android
Documentation du framework Foundation Models｜Apple Developer
Livre blanc sur le cadre d'agents HarmonyOS | Développeurs Huawei
Llama 3.1 sur appareil avec Core ML｜Apple Machine Learning Research
Rapport technique 2025 sur les modèles linguistiques fondationnels d'Apple Intelligence｜Recherche en machine learning d'Apple
Google Tensor G5 : Performances et tout ce que vous devez savoir｜Android Central
Le nouveau SoC M5 de Google (Tensor G5 détaillé · Matryoshka Transformer) | Jon Peddie Research
Calcul en nuage privé : une nouvelle frontière pour la confidentialité de l’IA dans le cloud｜Apple Security Engineering
Aperçu des AppFunctions｜Développeurs Android
Intents d'application｜Apple Developer
Présentation d'Intents Kit (HarmonyOS) | Développeurs Huawei
La puce Tensor G5 du Google Pixel 10 Pro est impressionnante — si vous la comparez à un iPhone 14｜Macworld
Aperçu du modèle Gemma 3n｜Google AI pour les développeurs