Android, iOS, HarmonyOS e Windows entram na era dos agentes com integração de IA ao nível do sistema operacional

Artigo por Yunyong AI, autor | Huang Yunhao

一. Após o Google I/O 2026: Quatro principais OS de borda entram na era dos Agentes

Em 12 de maio de 2026, o Google realizou o lançamento Android Show｜I/O Edition, um evento dedicado ao Android antes da conferência I/O em 19 de maio. Sameer Samat, presidente do ecossistema Android, definiu o tom deste lançamento: o Android deve se transformar de um sistema operacional em um sistema inteligente. A base para essa linha diretriz é o Gemini Intelligence — um conjunto de capacidades de IA ativas na camada do sistema Android.

Windows

Cartaz da lançamento do Android Show 2026 | Edição I/O
Fonte: Android Headlines

Em comparação com a combinação Gemini Nano + AICore do ano passado, o Google agora integrou ainda mais a capacidade do Agente de atravessar aplicativos e contextos no nível do sistema: automação de tarefas entre aplicativos (pedir comida, comprar, fazer pedidos), preenchimento automático de formulários, resumos de páginas da web e widgets personalizados, todos adicionados à lista de capacidades do sistema. O Google também listou controle explícito do usuário (explicit user control), proteção abrangente de dados (comprehensive data protection) e transparência operacional (operational transparency) como os três princípios fundamentais do produto.

Na palestra principal do I/O em 19 de maio, uma semana depois, o CEO do Google, Sundar Pichai, abriu com essa linha:

Bem-vindo à era do Gemini agente（欢迎进入Agent化的Gemini时代）

Não foi o Google que começou cedo na onda de transformação do OS de borda em agente.

A Microsoft lançou, na Build 2024 em maio de 2024, os Copilot+ PCs (uma nova categoria de dispositivos Windows 11 com NPU de mais de 40+ TOPS), integrando capacidades de Agent ao sistema operacional por meio de três funcionalidades: o pequeno modelo local Phi Silica, a capacidade de tela Click to Do e a memória de atividades em nível de sistema Recall.

Na WWDC24 de junho de 2024, a Apple anunciou oficialmente o “Apple Intelligence”, posicionando-o na época como um “sistema de inteligência pessoal”. Desde então, foram lançadas gradualmente algumas funções assistidas por IA; no entanto, devido a problemas como o atraso no desenvolvimento do próprio modelo de grande porte e a fraqueza do Siri, a capacidade central de Agent do Apple Intelligence ainda não foi lançada.

A Huawei lançará o HarmonyOS 6 e o Framework de Agentes HarmonyOS (HMAF) no HDC 2025 em junho de 2025, seguido pelo lançamento da Praça de Agentes Xiao Yi com mais de 80 agentes.

A grande tendência de tornar o OS do lado da borda em um agente já está presente nos principais sistemas operacionais, como Android, iOS, HarmonyOS e Windows.

A demonstração na conferência mostra apenas as funcionalidades; o que os fabricantes de SO realmente precisam competir são as três camadas de capacidade que sustentam a execução confiável do OS Agent e resolvem problemas reais: sistema de AI Runtime, chip controlável e matriz de modelos de ponta e nuvem.

II. Under the Launch: The Three-Layer Foundation Supporting OS Agent

Runtime de IA de nível de sistema: centro de agendamento da inteligência na borda

Runtime é o mecanismo de inferência e serviços do sistema que executam modelos na borda. Para baixo, ele se conecta diretamente ao NPU e ao gerenciamento de recursos do sistema; para cima, expõe capacidades de inferência por meio de APIs estáveis para todos os aplicativos. Ele transforma os modelos na borda em “inteligência compartilhada no nível do SO”: compartilha pesos de modelo entre aplicativos, gerencia unificadamente computação e memória, suporta chamadas de ferramentas necessárias para Agentes, orienta geração, contexto e integração de permissões. Ele determina se o Agent do SO é apenas um botão de bate-papo dentro de um aplicativo ou um serviço persistente capaz de executar operações em nível do sistema.

O exemplo mais completo dentro do ecossistema Android é o Google AICore. Em dezembro de 2023, o AICore foi lançado como um serviço do sistema (system service) no Android 14; em agosto de 2025, o Gemini Nano foi disponibilizado para desenvolvedores por meio das APIs ML Kit GenAI. Do pilar de serviço do sistema às APIs estáveis voltadas para apps, o AICore levou cerca de dois anos para ser refinado.

Outros fabricantes de sistemas operacionais seguem o mesmo caminho, mas com ritmos diferentes. A Apple abriu o framework Foundation Models aos desenvolvedores na WWDC25, incorporando nativamente o decorador @Generable, chamada de ferramentas, geração guiada e sessões com estado, conectado a um modelo base de borda de aproximadamente 3B parâmetros, com suporte em nuvem fornecido por cálculo em nuvem privado. A Microsoft incorporou o framework de IA de borda Foundry on Windows e o Phi Silica no Windows 11, utilizando o Windows ML como backend de inferência subjacente. A Huawei lançou o Agent Framework Kit (Framework de Agentes HarmonyOS, HMAF) no HDC 2025, abrindo tanto o sistema de intenções quanto o protocolo de colaboração de agentes.

Windows

Android AICore, como serviço do sistema, agende a inferência do Gemini Nano em aceleradores de hardware
Fonte: Android Developers

Chip control: O ponto de alavancagem da cooperação entre software e hardware

O Google estabeleceu limites de hardware claros para o Gemini Intelligence no Android Show｜I/O Edition: o conjunto completo de funcionalidades será lançado inicialmente apenas em poucos modelos flagships mais recentes, como a série Pixel 10 e a série Galaxy S26; todos os modelos do ano passado estão excluídos. Isso aponta para um fato simples: os modelos de IA ainda estão em rápida evolução, e o software continua a impor novos requisitos ao hardware. Chips controláveis são a base para atender a esses requisitos, e o grau de controle determina o espaço disponível para os fabricantes de sistemas operacionais adaptarem soft e hard para o OS Agent do lado do dispositivo.

A Apple é um exemplo clássico da abordagem integrada de hardware e software. O iOS e o macOS evoluíram desde o início em paralelo com os chips da série A e M, e o Core ML unificou o gerenciamento de CPU, GPU e ANE na camada de framework. Essa abordagem continua se estendendo na era dos LLMs. A Apple Machine Learning Research forneceu um conjunto de medições reais: ao implantar o Llama 3.1 8B Instruct no M1 Max seguindo o caminho de otimização do Core ML, a velocidade de decodificação local pode atingir cerca de 33 tokens/s. O relatório técnico “Apple Intelligence Foundation Language Models” também revelou que a Apple realizou otimizações arquiteturais, como compartilhamento de KV cache e treinamento consciente de quantização de 2 bits, para permitir que modelos básicos de cerca de 3B no dispositivo fossem disponibilizados aos desenvolvedores por meio do framework Foundation Models. Essa profundidade só é possível quando se controla o próprio chip — e é exatamente esse o valor do chip controlável para fabricantes de sistemas operacionais: determina a profundidade da cooperação entre software e hardware e eleva o limite da experiência dos Agentes de OS no dispositivo.

Na era da IA, o Google também está fazendo a mesma coisa — desde o Pixel 6, adotou a rota de SoC Tensor desenvolvida internamente, e o mais recente Tensor G5 aumenta o desempenho do TPU em até 60% e a CPU em média 34%, sendo o primeiro SoC a executar integralmente o Gemini Nano da nova geração no Pixel 10. Claro, o Tensor G5 também tem suas limitações: testes da Android Central mostram que sua configuração de memória (capacidade de RAM) ainda é um gargalo de desempenho de IA, e seu pontuação no Geekbench AI é inferior à do Snapdragon 8 Elite; nos testes do Geekbench 6 da Macworld, os scores de núcleo único e múltiplo do G5 são inferiores aos do A18 Pro. O Google ainda está em追赶, mas a estratégia integrada de Tensor auto-desenvolvido com Gemini na borda já está consolidada.

A combinação do Huawei Kirin com a NPU Da Vinci e o modelo de ponta Pangu representa outro caminho controlável de chips, paralelo à Apple e Google. A Xiaomi implementou o Xuanjie O1, sendo um novo entrante no caminho dos chips controláveis.

Matriz de modelos de borda e nuvem: a fonte de inteligência do Agent

A matriz de modelos de borda e nuvem é a fonte de “inteligência” dos dispositivos de borda: os modelos na nuvem estabelecem o limite superior de capacidade para tarefas complexas, enquanto os modelos de borda sustentam o limite inferior para operações cotidianas — latência, duração da bateria, privacidade e estabilidade recaem todos sobre o lado da borda. Ambos são indispensáveis; a diferença reside na profundidade de acoplamento com o SO. Os modelos de borda devem ser incorporados ao SO de cada dispositivo de borda e acoplados profundamente ao NPU local, assumindo dupla identidade dentro do SO: para baixo, é o backend de inferência local do Runtime; para cima, expõe-se como API de nível de sistema para aplicativos por meio do framework e SDK do Runtime.

O desenvolvimento próprio é significativo tanto na nuvem quanto na borda, mas os retornos na borda são mais evidentes. Modelos externos na nuvem podem sustentar o teto de capacidade, enquanto as vantagens do desenvolvimento próprio estão principalmente no controle de roteamento, termos comerciais e ritmo de iteração do modelo. Na borda, é diferente. Os modelos de borda são incorporados em cada dispositivo, no sistema operacional e no NPU; os retornos do desenvolvimento próprio são diretamente refletidos no desempenho do produto: compartilhamento de KV cache, treinamento com quantização de 2-bit otimizado para uma determinada geração de chip, Per-Layer Embedding (originado do Gemma 3n, carregando incrementalmente parâmetros de embedding da memória rápida por camada), entre outros — todos esses recursos só são facilmente implementáveis quando o modelo e o hardware são projetados em conjunto; ao mesmo tempo, o ritmo de coordenação não pode mais ser limitado por fornecedores de hardware terceirizados.

A capacidade de TPU do Tensor G5 aumenta até 60% em relação à geração anterior G4, mas o aumento do Gemini Nano no G5 vai muito além disso — segundo informações oficiais do Google e da Jon Peddie Research, a velocidade de processamento local atinge 2,6 vezes a da geração anterior, o consumo de energia é reduzido à metade e a janela de tokens é expandida de 12.000 para 32.000 (equivalente a processar aproximadamente cem capturas de tela de uma só vez). Esses desempenhos significativamente superiores são resultado da arquitetura Matryoshka Transformer de inferência elástica adotada pelo Gemini Nano v3, combinada com otimização conjunta com a TPU do Tensor G5.

Windows

Gemini Nano no Tensor G5: salto de desempenho em relação à geração anterior
Fonte: Google/Jon Peddie Research, ilustração por CloudRise AI

Neste nível de modelos de borda, as principais fabricantes de sistemas operacionais possuem seus próprios modelos: Gemini Nano da Google, o modelo básico de borda da Apple com cerca de 3 bilhões de parâmetros, Phi Silica da Microsoft e o modelo de borda Pangu da Huawei. O desenvolvimento próprio é a opção padrão neste nível.

III. Entre os três níveis: quanto mais profunda a colaboração, maior o espaço de diferenciação

Camada de capacidade de três níveis, acoplada de baixo para cima: chip controlável → modelo de borda/nuvem → Runtime → Agent. O chip controlável determina a eficiência de inferência e o consumo de energia que o modelo de borda pode alcançar; o modelo de borda determina a inteligência local que o Runtime pode agendar; o Runtime determina a confiabilidade com que o Agent executa como serviço do sistema entre aplicativos. Quanto mais profundo for o cooperação entre os três, maior será a diferenciação da experiência do produto dos fabricantes de sistemas operacionais no Agent de borda e mais sólida será sua vantagem competitiva.

Quanto mais profundamente as três camadas estiverem integradas no mesmo conjunto de software e hardware, mais capacidades diferenciais do OS Agent emergirão, que não seriam possíveis em uma única camada.

Latência de resposta e consumo de energia. Os 2,6 vezes de velocidade de processamento e redução de consumo de energia do Gemini Nano no Tensor G5 são obtidos por meio da adaptação mútua entre arquitetura do modelo, design do chip e agendamento do Runtime dentro do mesmo nível de design de hardware e software; apenas assim melhorias dessa magnitude podem surgir.
Privacidade e confiança. Tarefas comuns que envolvem dados privados são realizadas localmente por modelos na borda, enquanto solicitações complexas são encaminhadas para a nuvem — esta é a postura padrão razoável que o OS Agent adota em relação aos dados do usuário neste estágio. Três camadas interligadas determinam se esse modelo “borda em primeiro lugar, nuvem como backup” pode realmente ser implementado: a profunda adaptação entre NPU e modelos na borda é a via chave para que modelos ainda em desenvolvimento assumam a inferência frequente do dia a dia; os modelos são quantizados, comprimidos e compartilham KV cache com o NPU; o Runtime roteia tarefas entre a borda e a nuvem conforme a complexidade. Se alguma dessas três camadas não for bem-sucedida, “borda em primeiro lugar” será apenas uma frase de marketing.
Contexto do sistema operacional. O fabricante do SO reorganiza os dados do usuário entre aplicativos e camadas do SO (indexação semântica, percepção da tela, memória de longo prazo) em um contexto pessoal de nível de sistema para o Agente, o que é pré-requisito para o Agente realmente "compreender o usuário" e a característica central que diferencia o Agente do SO dos Agentes de nível de aplicativo único. A implementação depende de três camadas interligadas: o Runtime detém o índice entre aplicativos e permissões, o modelo na borda permanece ativo para compreensão e raciocínio, e o NPU fornece poder de processamento local eficiente. O Core Spotlight da Apple cria indexação semântica no dispositivo terminal, e os aplicativos integram ações e dados ao sistema por meio do App Intents; o Agente obterá contexto por meio do Personal Context (a Apple já anunciou que essa funcionalidade estará disponível em atualizações futuras de software); o Android segue o mesmo caminho com AppFunctions.
A confiabilidade do serviço do sistema. Para que o OS Agent seja chamado como um serviço de nível do sistema, ele precisa permanecer disponível em cenários reais, como sem conexão à internet, bateria baixa e redução de temperatura. O modelo na borda permanece ativo no dispositivo, permitindo que o Agent funcione sem rede; o NPU altamente otimizado em software e hardware realiza inferência de baixo consumo; o Runtime ajusta a programação com base na disponibilidade quando os recursos do dispositivo estão limitados (alternando para modelos mais leves ou roteando solicitações para a nuvem). Se qualquer uma das três camadas estiver ausente, o OS Agent não conseguirá sustentar a forma de serviço do sistema e retornará a um botão de bate-papo de nível app.

Apple Intelligence apresenta um paradigma de colaboração completo: Apple Silicon, modelos base de cerca de 3B em dispositivo, frameworks de Foundation Models encaixados de baixo para cima, processamento local para cenários comuns e solicitações complexas encaminhadas para cálculo em nuvem privada. O Google é uma forma diferente. O Tensor G5, como o primeiro SoC a executar integralmente a última geração do Gemini Nano, chega ao Pixel 10, com o AICore coordenando uniformemente, permitindo que funções de Agentes de nível de sistema, como Magic Cue e Pixel Screenshots, sejam ativadas por padrão sem depender da nuvem. A Huawei é o exemplo nacional na construção da colaboração em três camadas: Kirin, NPU Da Vinci, PanGu em dispositivo e HMAF — todos de propriedade própria, acoplados de baixo para cima formando uma base completa em três camadas.

Windows

Mecanismo de engate de três níveis do agente OS de borda
Fonte: Nuvem Yung AI

Four. On top of the foundation: Other key variables of a long-term moat

O núcleo da muralha defensiva construída pela cooperação de três camadas. Sobre a base, muitas variáveis influenciam a competitividade do produto na era do OS Agent, incluindo a capacidade de interação entre Agent e App, proteção de privacidade, entre outras.

A interação entre o Agente do SO e os aplicativos ocorre na linha de frente da disputa entre fabricantes de SO e fabricantes de aplicativos. Atualmente, duas abordagens estão em andamento. Uma é a leitura de tela e automação, incluindo compartilhamento de tela do Gemini Live, Apple Visual Intelligence, Circle to Search, etc. O Agente do SO intervém nos aplicativos lendo a tela e clicando em botões — funcional para tarefas únicas, mas cada chamada carece de informações estruturadas, tornando difícil construir fluxos de trabalho estáveis com múltiplas etapas. A outra abordagem é a integração profunda por API, incluindo Google AppFunctions, Apple App Intents, Huawei Intents Kit, etc. Os aplicativos expõem suas ações principais por meio de interfaces estruturadas para o sistema, permitindo que o Agente as invoque de forma estável e construa fluxos de trabalho com múltiplas etapas. A capacidade de expandir a via da API depende não dos fabricantes de SO, mas dos fabricantes de aplicativos. Entregar funções principais para invocação pelo Agente significa que os usuários podem deixar de abrir diretamente os aplicativos, correndo o risco de que o SO capture exposição da marca, espaços publicitários, dados de comportamento e pontos de pagamento. Este será o ponto central da disputa pelo controle da distribuição de tráfego no lado do usuário.

A proteção de privacidade é o valor fundamental e a linha de base do sistema de borda. As fabricantes de sistemas operacionais possuem os níveis mais profundos de permissões do sistema e os dados mais sensíveis dos usuários na borda; a privacidade é tanto uma posição essencial quanto uma condição prévia para o avanço contínuo das duas questões anteriores. A Apple construiu um sistema de proteção de privacidade baseado em terminal, utilizando o mesmo design de segurança em nível de hardware compartilhado entre o chip Secure Enclave de borda e os nós de nuvem privada PCC. Essa estratégia de produto transformou “Privacy. That’s Apple.” no rótulo de marca central da Apple no mercado premium global, conquistando assim a confiança dos usuários.

Windows

O rótulo “Privacidade. Essa é a Apple.” da Apple
Fonte: site oficial da Apple

O núcleo da construção da vantagem competitiva é a coordenação das três camadas; essas variáveis de longo prazo sobre a base determinam o quão profunda ela pode ser reforçada.

Five. It's not just a redesign of OS

Na tendência de tornar o OS do lado da borda em um agente, quanto mais sólidas forem as três camadas fundamentais — Runtime de IA de nível de sistema, chips controláveis e matriz de modelos borda-nuvem —, maior será o piso do produto e maior o espaço de diferenciação para os fabricantes de OS nessa disputa. Apenas os fabricantes de OS que aproveitarem essa tendência terão a oportunidade de impulsionar a redefinição da alocação de tráfego de entrada no lado da borda e conquistar uma posição competitiva mais forte.

Essa tendência não se limita a celulares e PCs. As capacidades fundamentais do OS Agent estão se expandindo para mais terminais por meio das ecossistemas multi-dispositivo já estabelecidos por diversas empresas, especialmente no IoT. Chips controláveis estão sendo aplicados em cenários como SoC automotivo; a Huawei já desenvolveu o chip Kirin de padrão automotivo, e o Xiaomi HyperOS está sendo integrado aos próprios modelos de veículos da marca. Modelos de ponta estão sendo leveizados e migrados para novos formatos de hardware, como óculos; os óculos inteligentes Android XR, desenvolvidos em parceria pelo Google, Samsung, Gentle Monster e Warby Parker, serão lançados no outono de 2026. A colaboração entre Runtime e Agent está sendo expandida para grupos de dispositivos por meio das estruturas de “super-terminal/distribuído” já implantadas por cada empresa, como o 1+8+N e a bus de software distribuído HarmonyOS da Huawei, o “ecossistema completo pessoa-veículo-casa” e o HyperConnect da Xiaomi, a Continuity da Apple, e o Cross device SDK e os serviços interdispositivos do Google. Essa batalha do OS Agent vai muito além do resultado entre celulares e PCs.

AICore foi aprimorado por cerca de dois anos; o sistema operacional da Apple e a série de chips Apple Silicon foram ajustados por mais de uma década; o Tensor passou por várias iterações até o G5, permitindo que o Pixel 10 suporte o Gemini Nano v3. A superioridade desta batalha nunca está nas poucas horas de um lançamento, mas sim na evolução contínua de gerações de chips, modelos e Runtime.

Referências:

Gemini Intelligence traz IA proativa para Android｜Google Blog
I/O 2026: Bem-vindo à era agente do Gemini｜Blog do Google
Phi Silica, pequeno mas poderoso SLM em dispositivo｜Windows Experience Blog
Apple adia atualização do Siri indefinidamente｜Bloomberg
Lançamento do Beta de Desenvolvedor do HarmonyOS 6 (HDC 2025) | Huawei
O mais recente Gemini Nano com APIs do ML Kit GenAI em dispositivo｜Blog dos Desenvolvedores Android
Documentação do framework Foundation Models｜Apple Developer
Whitepaper do Framework de Agentes HarmonyOS | Desenvolvedores da Huawei
Llama 3.1 em Dispositivo com Core ML｜Apple Machine Learning Research
Relatório Técnico dos Modelos de Linguagem Fundamentais da Apple Intelligence 2025｜Pesquisa em Aprendizado de Máquina da Apple
Google Tensor G5: Resultados de desempenho e tudo o que você precisa saber｜Android Central
Novo M5 SoC do Google (Tensor G5 detalhado · Matryoshka Transformer) | Jon Peddie Research
Computação em Nuvem Privada: Uma nova fronteira para a privacidade de IA na nuvem｜Apple Security Engineering
Visão geral das AppFunctions｜Desenvolvedores Android
Intenções do App｜Apple Developer
Introdução ao Intents Kit (HarmonyOS) | Desenvolvedor Huawei
O chip Tensor G5 do Google Pixel 10 Pro é impressionante — se você o comparar a um iPhone 14｜Macworld
Visão geral do modelo Gemma 3n｜Google AI para Desenvolvedores