El equipo Multi-X de OPPO ha lanzado el marco de agente AI para Android de código abierto X-OmniClaw. Este proyecto se enfoca en "prioridad en el dispositivo", donde los procesos centrales de control, percepción y ejecución se completan localmente en el teléfono, y solo se recurre a modelos grandes en la nube en escenarios de razonamiento complejos.
Este marco está diseñado para el uso del teléfono móvil como asistente de IA continuo, y no como una herramienta de chat basada en preguntas y respuestas puntuales. Según el diseño revelado por OPPO, el sistema puede comprender el entorno actual combinando la cámara, el contenido de la pantalla y la entrada de voz, y luego realizar operaciones directamente dentro de aplicaciones reales.
Las capacidades principales se encuentran en el dispositivo local
Actualmente, muchos sistemas de IA móviles dependen de la nube para funcionar, es decir, invocan un entorno virtual de Android en servidores para reemplazar las acciones del usuario. Aunque esto facilita la implementación unificada, no permite acceder directamente a la cámara real, el álbum de fotos y los archivos locales del teléfono del usuario.
X-OmniClaw adopta un enfoque opuesto. El informe técnico indica que este marco se ejecuta directamente en los dispositivos físicos del usuario, reduciendo la brecha entre el entorno virtual y el escenario de uso real. OPPO resume su estructura en tres partes: percepción, ejecución y memoria, que forman un ciclo continuo.
- La capa de percepción integra cámaras, pantallas y entrada de voz.
- La capa de ejecución se encarga de identificar la interfaz y completar los clics y redirecciones.
- La capa de memoria guarda información contextual entre tareas y sesiones.
Pantalla reconocible y escenarios reales
En la fase de percepción, el sistema primero entiende la escena actual mediante un modelo de lenguaje visual, y luego decide la siguiente acción. Por ejemplo, si el usuario apunta la cámara hacia un producto y pregunta su precio, el agente primero identificará el objeto y luego abrirá la aplicación de compras correspondiente para realizar una búsqueda, en lugar de adivinar solo según la instrucción de texto.
La ejecución combina los datos de la interfaz XML, modelos visuales del lado del dispositivo y capacidades de reconocimiento OCR para determinar exactamente dónde hacer clic en la página. Incluso si la interfaz contiene muchos anuncios o información estructural incompleta, el sistema puede utilizar el reconocimiento visual para ayudar a localizar las áreas de operación.
OPPO también ha incorporado la capacidad de imitación de comportamiento. Si el usuario demuestra manualmente una vez la ruta para acceder a una página más profunda, el sistema puede reproducir rápidamente esta ruta posteriormente mediante el método deeplink de Android, reduciendo operaciones repetitivas.
Introducir memoria semántica entre sesiones
A diferencia de los chatbots convencionales, uno de los enfoques principales de X-OmniClaw es la memoria semántica a largo plazo. El sistema no solo conserva el contexto dentro de una sola tarea, sino que también genera registros estructurados sobre objetos, escenarios y eventos según el contenido del álbum, para su posterior recuperación y ejecución.
Los casos demostrados por OPPO incluyen asistencia con problemas matemáticos y generación de videos de álbumes. El primero puede leer los problemas de la pantalla en una interfaz flotante, procesarlos paso a paso y pasar automáticamente a la siguiente pregunta; el segundo puede filtrar imágenes relacionadas en el álbum según solicitudes como "fotos con tema de loro" y luego abrir CapCut mediante deeplink para generar videos por lotes.
Esto significa que el enfoque del agente de IA en móvil está pasando de respuestas únicas a asistencia continua. El informe señala que X-OmniClaw se desarrolló a partir de la base de código del proyecto abierto HermesApp, y también se inspiró en la estructura de habilidades de OpenClaw. El código del proyecto ya está disponible en GitHub, y OPPO indicó que seguirá publicando recursos relacionados y actualizando las versiones.
