Artículo | Yunyong AI, Autor | Huang Yunhao
一. Después de Google I/O 2026: Cuatro OS de borde ingresan a la era de los Agentes
El 12 de mayo de 2026, Google celebró el evento Android Show | I/O Edition, una sesión dedicada a Android antes de la conferencia I/O del 19 de mayo. Sameer Samat, presidente del ecosistema Android, definió el tono de este evento: Android debe transformarse de un sistema operativo en un sistema inteligente. En sustento de esta línea directriz se encuentra Gemini Intelligence: un conjunto de capacidades de IA proactivas en la capa del sistema Android.

Cartel del evento 2026 Android Show | Edición I/O
Fuente: Android Headlines
En comparación con la combinación de Gemini Nano + AICore del año pasado, Google ha integrado aún más en el nivel del sistema operativo la capacidad del agente para operar entre aplicaciones y contextos: automatización de tareas entre aplicaciones (pedir comida, comprar, realizar pedidos), relleno automático de formularios, resúmenes de páginas web y widgets personalizados, todos añadidos secuencialmente a la lista de capacidades del sistema. Google también ha establecido como tres principios fundamentales del producto el control explícito del usuario, la protección integral de datos y la transparencia operativa.
El 19 de mayo, una semana después, en la conferencia de I/O, el CEO de Google, Sundar Pichai, comenzó siguiendo esta línea:
Bienvenido a la era de Gemini con agentes(欢迎进入Agent化的Gemini时代)
No ha sido uno de los primeros en sumarse a la ola de la agentización del OS de borde.
Microsoft lanzó Copilot+ PC en Build 2024 en mayo de 2024 (una nueva categoría de dispositivos Windows 11 con NPU de más de 40 TOPS), integrando capacidades de Agent en el sistema operativo mediante tres funciones: el pequeño modelo en el dispositivo Phi Silica, la capacidad de pantalla Click to Do y la memoria de actividades a nivel de sistema Recall.
En el WWDC24 de junio de 2024, Apple anunció oficialmente "Apple Intelligence", posicionándola en ese momento como un "sistema de inteligencia personal", y posteriormente lanzó varias funciones asistidas por IA; sin embargo, debido a problemas como el retraso en su propio modelo grande y la limitada capacidad de Siri, la capacidad central de agente de Apple Intelligence aún no se ha implementado.
Huawei lanzará HarmonyOS 6 y el marco de agentes inteligentes de HarmonyOS (HMAF) en HDC 2025 en junio de 2025, tras lo cual la plaza de agentes inteligentes Xiao Yi lanzará más de 80 agentes.
La gran tendencia hacia la agentización del OS en el lado del dispositivo ya está presente en sistemas operativos principales como Android, iOS, HarmonyOS y Windows.
La presentación en el evento solo muestra funciones; lo que realmente compiten los fabricantes de sistemas operativos son las tres capacidades fundamentales que respaldan el funcionamiento confiable del OS Agent y resuelven problemas reales: un entorno de ejecución de IA a nivel de sistema, chips controlables y una matriz de modelos de extremo a nube.
II. Debajo del lanzamiento: las tres capas que sustentan a OS Agent
Sistema de IA Runtime: Centro de programación para inteligencia en el extremo
Runtime es el motor de inferencia y los servicios del sistema que ejecutan modelos en el lado del dispositivo. En la capa inferior, se conecta directamente con la NPU y la programación de recursos del sistema; en la capa superior, expone capacidades de inferencia a todas las aplicaciones mediante una API estable. Convierte los modelos en el lado del dispositivo en “inteligencia compartida a nivel de SO”: comparte pesos de modelos entre aplicaciones, programa unificadamente la capacidad de cómputo y la memoria, soporta llamadas a herramientas requeridas por Agentes, guía la generación, y gestiona la conexión de contexto y permisos. Determina si un Agente del SO es simplemente un botón de chat dentro de una aplicación, o un servicio persistente capaz de ejecutar operaciones a nivel del sistema operativo.
La muestra más completa dentro del ecosistema Android es Google AICore. En diciembre de 2023, AICore se lanzó como un servicio del sistema (system service) de Android 14; en agosto de 2025, Gemini Nano se puso a disposición de los desarrolladores a través de las API de ML Kit GenAI. Desde su base como servicio del sistema hasta las API estables orientadas a aplicaciones, AICore tardó casi dos años en perfeccionarse.
Otros fabricantes de sistemas operativos siguen el mismo camino, pero con ritmos distintos. Apple abrió en WWDC25 el marco Foundation Models a los desarrolladores, que incluye de forma integrada el decorador @Generable, llamadas a herramientas, generación guiada y sesiones con estado, respaldado por un modelo base de borde de aproximadamente 3 mil millones de parámetros, complementado con cálculo en la nube privada. Microsoft integró el marco de IA en el borde Foundry on Windows y Phi Silica en Windows 11, utilizando Windows ML como backend de inferencia subyacente. Huawei lanzó en HDC 2025 el Agent Framework Kit (marco de agentes HarmonyOS, HMAF), abriendo al mismo tiempo el sistema de intenciones y el protocolo de colaboración de agentes.

Android AICore, como servicio del sistema, programa la inferencia de Gemini Nano en aceleradores de hardware
Fuente: Android Developers
Chip control: El punto de apoyo de la coordinación software-hardware
Google establece umbrales de hardware claros para Gemini Intelligence en Android Show|I/O Edition: el conjunto completo de funciones se lanzará inicialmente solo en dispositivos recientes como la serie Pixel 10 y la serie Galaxy S26, excluyendo todos los modelos del año pasado. Esto apunta a un hecho sencillo: los modelos de IA aún están evolucionando rápidamente, y el software sigue planteando nuevos requisitos al hardware. Los chips controlables son la base que soporta estos requisitos, y el grado de control determina el espacio disponible para que los fabricantes de sistemas operativos realicen la adaptación software-hardware para los Agentes de OS en el dispositivo.
Apple es un ejemplo clásico del enfoque integrado de hardware y software. iOS y macOS han evolucionado junto con las series de chips A y M desde el principio, y Core ML unifica la programación de CPU, GPU y ANE en la capa de framework. Este enfoque se ha extendido en la era de los LLM. Apple Machine Learning Research proporcionó una serie de mediciones reales: al implementar Llama 3.1 8B Instruct en M1 Max siguiendo la ruta de optimización de Core ML, la velocidad de decodificación local puede alcanzar aproximadamente 33 tokens/s. El informe técnico «Apple Intelligence Foundation Language Models» también revela que Apple realizó optimizaciones arquitectónicas como el compartir caché KV y el entrenamiento con cuantización de 2 bits específicamente para sus propios chips, lo que permitió abrir a los desarrolladores modelos básicos de lado del dispositivo de aproximadamente 3B a través del framework Foundation Models. Esta profundidad solo es posible cuando se controla el chip oneself — esta es precisamente la ventaja que los chips controlados ofrecen a los fabricantes de sistemas operativos: determinan la profundidad de la colaboración entre software y hardware, y elevan el límite superior de la experiencia del agente del sistema operativo en el dispositivo.
En la era de la IA, Google también está haciendo lo mismo: desde el Pixel 6, ha adoptado la ruta de sus propios SoC Tensor, y el reciente Tensor G5 aumenta hasta un 60% el rendimiento del TPU y un 34% en promedio el del CPU, siendo el primer SoC en ejecutar por completo la última generación de Gemini Nano en el Pixel 10. Sin embargo, el Tensor G5 también tiene sus limitaciones: las pruebas de Android Central muestran que su configuración de memoria (capacidad de RAM) sigue siendo un cuello de botella para el rendimiento de IA, y su puntuación en Geekbench AI es inferior a la del Snapdragon 8 Elite; en las pruebas de Geekbench 6 de Macworld, los puntajes de núcleo único y múltiple del G5 son inferiores a los del A18 Pro. Google aún está追赶, pero ya se ha definido la estrategia combinada de Tensor auto-desarrollado y Gemini en el dispositivo.
La combinación de Huawei Kirin con la NPU Da Vinci y el modelo de borde Panggu representa otra ruta de chips controlable paralela a Apple y Google. Xiaomi ha implementado Xuanjie O1, siendo un nuevo participante en la dirección de los chips controlables.
Matriz de modelos de borde y nube: la fuente de inteligencia de los Agentes
La matriz de modelos de borde y nube es la fuente de “inteligencia” de los dispositivos de borde: los modelos en la nube elevan el techo de capacidad para tareas complejas, mientras que los modelos en el borde sostienen el piso para el funcionamiento diario—la latencia, la duración de la batería, la privacidad y la estabilidad recaen todos sobre el lado del borde. Ambos lados son indispensables; la diferencia radica en la profundidad de acoplamiento con el SO. Los modelos en el borde deben integrarse en el SO de cada dispositivo de borde y acoplarse profundamente con la NPU local, asumiendo un doble rol dentro del SO: hacia abajo, es el backend de inferencia local del Runtime; hacia arriba, expone APIs a nivel de sistema a las aplicaciones a través del framework y SDK del Runtime.
La investigación propia tiene sentido tanto en la nube como en el borde, pero los beneficios en el borde son más evidentes. Los modelos en la nube adquiridos externamente pueden respaldar el techo de capacidad, mientras que las ventajas de la investigación propia se manifiestan principalmente en el control de enrutamiento, los términos comerciales y el ritmo de iteración del modelo. En el borde es diferente. Los modelos en el borde se integran en el sistema operativo y el NPU de cada dispositivo; los beneficios de la investigación propia se reflejan directamente en el rendimiento del producto: compartir KV cache, entrenamiento cuantizado de 2-bit diseñado específicamente para una generación de chip, Per-Layer Embedding (heredado de Gemma 3n, carga incremental de parámetros de incrustación desde almacenamiento rápido por capa), entre otros, todos ellos requieren un diseño sincronizado de modelo y hardware para su implementación; al mismo tiempo, el ritmo de colaboración ya no puede estar sujeto a los fabricantes de hardware externos.
La capacidad de TPU de Tensor G5 aumenta hasta un 60% en comparación con la generación anterior G4, pero el aumento de Gemini Nano en G5 va mucho más allá: según Google y Jon Peddie Research, la velocidad de procesamiento local alcanza 2.6 veces la de la generación anterior, el consumo energético se reduce a la mitad y la ventana de tokens se amplía de 12,000 a 32,000 (equivalente a procesar aproximadamente cien capturas de pantalla simultáneamente). Estas mejoras significativas provienen de la arquitectura Matryoshka Transformer de inferencia flexible utilizada por Gemini Nano v3, combinada con la optimización conjunta con el TPU de Tensor G5.

Gemini Nano en Tensor G5: salto de rendimiento respecto a la generación anterior
Fuente: Google/Jon Peddie Research, gráficos generados por AI de Cloud Surge
En esta capa de modelos en el borde, cada fabricante de sistemas operativos principales posee sus propios modelos: Gemini Nano de Google, el modelo base en el borde de Apple de aproximadamente 3 mil millones de parámetros, Phi Silica de Microsoft y el modelo en el borde Pangu de Huawei. El desarrollo propio es la opción predeterminada en esta capa.
III. Entre las tres capas: cuanto más profunda la colaboración, mayor el espacio de diferenciación
La base de capacidades de tres capas se acopla de abajo hacia arriba: chip controlable → modelo en el extremo/nube → Runtime → Agent. El chip controlable determina la eficiencia de inferencia y el consumo de energía que puede lograr el modelo en el extremo; el modelo en el extremo determina la inteligencia local que puede gestionar el Runtime; y el Runtime determina la fiabilidad con la que el Agent puede ejecutarse como servicio del sistema entre aplicaciones. Cuanto más profunda sea la colaboración entre los tres, mayor será la diferenciación de la experiencia del producto que los fabricantes de sistemas operativos puedan lograr en los Agentes en el extremo, y más ancho será su foso competitivo.
Cuanto más profundamente se integren las tres capas dentro del mismo conjunto de software y hardware, más capacidades emergentes tendrá el OS Agent que no pueden lograrse con una sola capa.
- Latencia de respuesta y consumo de energía. La velocidad de procesamiento 2.6 veces mayor y la reducción del consumo de energía de Gemini Nano en Tensor G5 se logran gracias a la adaptación mutua entre la arquitectura del modelo, el diseño del chip y la programación de Runtime dentro del mismo diseño de hardware y software; solo así se pueden lograr mejoras de esta magnitud.
- Privacidad y confianza. Las tareas comunes que involucran datos privados se completan localmente mediante modelos del lado del dispositivo, mientras que las solicitudes complejas se delegan a la nube: esta es la postura predeterminada razonable que el OS Agent adopta respecto a los datos del usuario. Tres capas interconectadas determinan si este enfoque “priorizar el lado del dispositivo, con la nube como respaldo” puede implementarse realmente: la adaptación profunda entre el NPU y los modelos del lado del dispositivo es la vía clave para que los modelos del lado del dispositivo, aún en desarrollo, asuman las inferencias frecuentes diarias; los modelos realizan cuantización y compresión para el NPU, así como el intercambio de KV cache; el Runtime enruta las tareas entre el lado del dispositivo y la nube según su complejidad. Si alguna de estas tres capas no se cumple adecuadamente, “priorizar el lado del dispositivo” será solo un eslogan de marketing.
- Contexto a nivel de sistema. El fabricante del sistema operativo reorganiza los datos del usuario a través de aplicaciones y capas del sistema (índice semántico, percepción de pantalla, memoria a largo plazo) para proporcionar un contexto personal a nivel de sistema al agente, lo cual es la condición previa para que el agente comprenda realmente al usuario, y también es la característica distintiva clave del agente del sistema operativo frente a los agentes a nivel de aplicación única. Su implementación depende de tres capas interconectadas: el entorno de ejecución posee el índice cruzado de aplicaciones y los permisos, el modelo del lado del dispositivo permanece activo para realizar comprensión e inferencia, y la NPU proporciona potencia de cálculo local eficiente. Apple's Core Spotlight establece un índice semántico en el dispositivo, y las aplicaciones integran acciones y datos en el sistema mediante App Intents; el agente obtendrá el contexto a través del Personal Context (Apple ya ha anunciado que esta funcionalidad estará disponible con futuras actualizaciones de software); en el lado de Android, AppFunctions sigue la misma ruta.
- La confiabilidad del servicio del sistema requiere que el OS Agent sea invocado como un servicio de nivel del sistema, manteniéndose disponible en escenarios reales como sin conexión a internet, baja batería o reducción de temperatura. El modelo del lado del dispositivo permanece activo en el equipo, permitiendo que el Agent funcione sin conexión; la NPU altamente optimizada en software y hardware realiza inferencias de bajo consumo; el Runtime ajusta la programación según la disponibilidad cuando los recursos del dispositivo son escasos (cambiando a modelos más ligeros o redirigiendo las solicitudes a la nube). Si alguna de estas tres capas falta, el OS Agent no podrá soportar la forma de servicio del sistema y solo podrá revertirse a un botón de chat de nivel app.
Apple Intelligence presenta un paradigma de colaboración integral: Apple Silicon, modelos base de aproximadamente 3B en el dispositivo, y el marco Foundation Models encajan de abajo hacia arriba, procesando escenarios comunes en el dispositivo y derivando solicitudes complejas al cálculo en la nube privada. Google tiene una forma diferente. El Tensor G5, como el primer SoC capaz de ejecutar completamente la última generación de Gemini Nano, se implementa en el Pixel 10, con una programación unificada por AICore, lo que permite que funciones de agentes a nivel de sistema como Magic Cue y Pixel Screenshots se activen por defecto sin depender de la nube. Huawei es el ejemplo nacional de la construcción de una colaboración en tres capas: Kirin, NPU Da Vinci, PanGu en el dispositivo y HMAF, todos de propiedad propia, acoplados de abajo hacia arriba para formar una base completa de tres capas.

Mecanismo de enganche de tres niveles del agente OS del lado del extremo
Fuente: Nube de Surgimiento AI
Four. On top of the foundation: Other key variables of a long-term moat
El núcleo de la fortaleza construida por la colaboración de tres niveles. Sobre la base, numerosas variables influyen en la competitividad del producto en la era del OS Agent, incluyendo la capacidad de interacción entre Agent y App, la protección de la privacidad, entre otras.
La interacción entre el agente del sistema operativo y las aplicaciones se encuentra en la primera línea de la competencia entre fabricantes de sistemas operativos y fabricantes de aplicaciones. Actualmente, dos caminos coexisten. Uno es el reconocimiento de pantalla y la automatización, que incluyen funciones como Gemini Live con compartir pantalla, Apple Visual Intelligence y Circle to Search. El agente del sistema operativo interactúa con las aplicaciones leyendo la pantalla y haciendo clic en botones; es viable para tareas individuales, pero cada llamada carece de información estructurada, lo que dificulta la construcción estable de flujos de trabajo con múltiples pasos. El otro camino es la integración profunda mediante API, que incluye Google AppFunctions, Apple App Intents y Huawei Intents Kit. Las aplicaciones exponen sus funciones clave como interfaces estructuradas al sistema, permitiendo que el agente las invoque de manera estable y construya flujos de trabajo de múltiples pasos. La capacidad de expandir el camino de la API depende no tanto de los fabricantes de sistemas operativos como de los fabricantes de aplicaciones. Entregar funciones clave para que las invoque el agente implica que los usuarios podrían dejar de abrir directamente las aplicaciones, lo que conlleva el riesgo de que el sistema operativo se apodere del曝光 de la marca, los espacios publicitarios, los datos de comportamiento y los puntos de pago. Este será el punto central de la lucha por el control sobre la asignación del tráfico en el extremo del usuario.
La protección de la privacidad es el valor clave y la línea base del sistema en el extremo. Los fabricantes de sistemas operativos poseen los permisos más profundos a nivel de sistema y los datos de usuario más sensibles en el extremo; la privacidad es tanto una posición fundamental como una condición previa para avanzar consistentemente en los dos aspectos anteriores. Apple ha construido un sistema de protección de privacidad basado en el terminal mediante el uso de un chip de seguridad independiente Secure Enclave en el extremo, junto con nodos de nube privada PCC que comparten el mismo diseño de seguridad a nivel de hardware. Esta estrategia de producto ha convertido a “Privacy. That’s Apple.” en la etiqueta de marca central de Apple en los mercados premium globales, ganando así la confianza de los usuarios.

La etiqueta de Apple "Privacy. That’s Apple."
Fuente: sitio web de Apple
La colaboración en tres niveles es el núcleo del foso de protección; estas variables a largo plazo sobre la base determinan hasta qué punto se puede reforzar.
Five. It's not just a redesign of OS
Bajo la tendencia de la agentización del OS en el borde, cuanto más sólidas sean las tres capas fundamentales —el AI Runtime a nivel de sistema, los chips controlables y la matriz de modelos borde-nube—, mayor será el piso del producto de los fabricantes de OS en esta batalla y mayor será el espacio de diferenciación. Solo los fabricantes de OS que aprovechen esta tendencia tendrán la oportunidad de impulsar la reconfiguración del control sobre la distribución del tráfico en el borde y obtener una posición competitiva más fuerte.
Esta tendencia no se limita a teléfonos y PC. Las capacidades subyacentes del OS Agent se extienden a más terminales a través de los ecosistemas multi-dispositivo ya establecidos por cada empresa, especialmente en IoT. Los chips controlables se están integrando en escenarios como SoC automotriz; Huawei ya ha desarrollado chips Kirin de nivel automotriz, y el sistema operativo Xiaomi澎湃 está siendo implementado en sus propios vehículos; los modelos del lado del extremo se están ligero migrando a nuevos formatos de hardware como gafas, y las gafas inteligentes Android XR desarrolladas por Google, Samsung, Gentle Monster y Warby Parker se lanzarán en el otoño de 2026; la colaboración entre Runtime y Agent se expande a grupos de dispositivos mediante los marcos de “superterminal/distribuido” ya implementados por cada empresa, como el 1+8+N y la bus de software distribuido HarmonyOS de Huawei, el “ecosistema completo persona-vehículo-hogar” y HyperConnect de Xiaomi, Continuity de Apple, y el SDK multi-dispositivo y servicios cruzados de Google. Esta batalla del OS Agent va mucho más allá del resultado entre teléfonos y PC.
AICore se ha pulido durante casi dos años; el sistema operativo de Apple y la serie de chips Apple Silicon se han afinado durante más de una década; Tensor ha pasado por múltiples iteraciones hasta llegar a G5, solo entonces el Pixel 10 podrá soportar a Gemini Nano v3. La victoria en esta batalla nunca se decide en las pocas horas de un evento, sino en las generaciones de chips, modelos y Runtime que se han perfeccionado.
Referencias:
- Gemini Intelligence lleva la IA proactiva a Android|Blog de Google
- I/O 2026: Bienvenido a la era agente de Gemini|Blog de Google
- Phi Silica, pequeño pero potente SLM en el dispositivo|Windows Experience Blog
- Apple retrasa indefinidamente la actualización de Siri|Bloomberg
- Lanzamiento del Beta para desarrolladores de HarmonyOS 6 (HDC 2025) | Huawei
- El último Gemini Nano con API de ML Kit GenAI en el dispositivo|Blog de Desarrolladores de Android
- Documentación del marco Foundation Models|Apple Developer
- Libro blanco del marco de agentes inteligentes HarmonyOS | Desarrolladores de Huawei
- Llama 3.1 en el dispositivo con Core ML|Investigación de Machine Learning de Apple
- Apple Intelligence Foundation Language Models Tech Report 2025|Apple Machine Learning Research
- Google Tensor G5: Resultados de pruebas y todo lo que necesitas saber|Android Central
- El nuevo M5 SoC de Google (Tensor G5 explicado · Matryoshka Transformer) | Jon Peddie Research
- Computación en nube privada: Una nueva frontera para la privacidad de la IA en la nube|Apple Security Engineering
- Vista general de AppFunctions|Desarrolladores de Android
- Intenciones de la app|Apple Developer
- Introducción a Intents Kit (HarmonyOS) | Desarrollador de Huawei
- El chip Tensor G5 del Google Pixel 10 Pro es impresionante—si lo comparas con un iPhone 14|Macworld
- Vista general del modelo Gemma 3n|Google AI para desarrolladores
