OPPO abre o código do framework de agente de IA Android X-OmniClaw

Relatório do CoinGape:

A equipe Multi-X, da OPPO, lançou o framework de agente AI Android de código aberto X-OmniClaw. O projeto destaca-se pela abordagem "edge-first", com os processos centrais de controle, percepção e execução realizados localmente no dispositivo, recorrendo a modelos de grande porte na nuvem apenas em cenários de raciocínio complexos.

Este framework visa o uso do celular como um assistente de IA contínuo, e não como uma ferramenta de bate-papo baseada em perguntas e respostas. De acordo com o design divulgado pela OPPO, o sistema pode combinar câmera, conteúdo da tela e entrada de voz para compreender o ambiente atual e realizar operações diretamente nos aplicativos reais.

Capacidades principais no dispositivo local

Muitos sistemas de IA móveis atualmente dependem da nuvem para operar, ou seja, invocam ambientes virtuais Android em servidores para substituir as ações do usuário. Embora isso facilite a implantação unificada, impede o acesso direto à câmera real, ao álbum de fotos e aos arquivos locais do telefone do usuário.

O X-OmniClaw adota uma abordagem oposta. O relatório técnico indica que esse framework opera diretamente nos dispositivos físicos do usuário, reduzindo a discrepância entre o ambiente virtual e os cenários reais de uso. A OPPO resume sua estrutura em três partes: percepção, execução e memória, que formam um ciclo contínuo.

Camadas de percepção integram câmeras, telas e entrada de voz
A camada de execução é responsável por identificar a interface e realizar cliques e redirecionamentos.
A camada de memória armazena informações de contexto entre tarefas e entre sessões.

Tela reconhecível e cenário real

Na etapa de percepção, o sistema primeiro compreende a cena atual por meio de um modelo de linguagem visual e, em seguida, decide a próxima ação. Por exemplo, se o usuário apontar a câmera para um produto e perguntar sobre o preço, o agente primeiro identificará o objeto e depois abrirá o aplicativo de compras correspondente para realizar uma pesquisa, em vez de apenas adivinhar com base em instruções de texto.

A execução combina dados da interface XML, modelos visuais de borda e capacidades de reconhecimento OCR para determinar exatamente onde clicar na página. Mesmo com muitos anúncios e informações estruturais incompletas, o sistema consegue auxiliar na localização da área de operação por meio de reconhecimento visual.

OPPO também adicionou a capacidade de imitação de comportamento. Se o usuário demonstrar manualmente uma vez o caminho para acessar uma página mais profunda, o sistema poderá reproduzir rapidamente esse caminho posteriormente por meio do deeplink do Android, reduzindo operações repetitivas.

Introdução à memória semântica entre sessões

Uma das principais diferenças do X-OmniClaw em relação aos chatbots comuns é a memória semântica de longo prazo. O sistema não apenas mantém o contexto durante uma única tarefa, mas também gera registros estruturados sobre objetos, cenas e eventos com base no conteúdo do álbum, para recuperação e execução posteriores.

Os casos apresentados pela OPPO incluem auxílio em problemas matemáticos e geração de vídeos de álbum. O primeiro pode ler questões na tela por meio da interface flutuante, processá-las passo a passo e avançar automaticamente para a próxima questão; o segundo pode filtrar imagens relevantes no álbum conforme solicitações como “fotos com tema de papagaio” e, por meio de deeplink, abrir o CapCut para gerar vídeos em massa.

Isso significa que o foco do Agente de IA para dispositivos móveis está passando de respostas únicas para assistência contínua. O relatório menciona que o X-OmniClaw foi desenvolvido com base no repositório de código do projeto open-source HermesApp e incorporou o design da estrutura de habilidades do OpenClaw. O código do projeto já está disponível no GitHub, e a OPPO afirmou que continuará a publicar recursos relacionados e atualizar versões futuras.