OPPO abre o código do framework de agente de IA Android X-OmniClaw

icon币界网
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
As notícias de IA + cripto surgiram quando a equipe Multi-X da OPPO liberou o framework de agente de IA para Android, X-OmniClaw. O framework prioriza o processamento no dispositivo, utilizando modelos em nuvem apenas para raciocínio complexo. Ele suporta tarefas contínuas de assistente de IA, combinando entrada de câmera, tela e voz para operações reais em aplicativos. O sistema inclui camadas de percepção, execução e memória para contexto entre tarefas e navegação visual. A OPPO adicionou imitação de comportamento e memória semântica para aprendizado de ações do usuário e retenção de dados a longo prazo. O projeto é baseado no HermesApp e está disponível no GitHub. Observadores de notícias on-chain podem acompanhar como esse framework se integrará às ferramentas de blockchain no futuro.
Relatório do CoinGape:

A equipe Multi-X, da OPPO, lançou o framework de agente AI Android de código aberto X-OmniClaw. O projeto destaca-se pela abordagem "edge-first", com os processos centrais de controle, percepção e execução realizados localmente no dispositivo, recorrendo a modelos de grande porte na nuvem apenas em cenários de raciocínio complexos.

Este framework visa o uso do celular como um assistente de IA contínuo, e não como uma ferramenta de bate-papo baseada em perguntas e respostas. De acordo com o design divulgado pela OPPO, o sistema pode combinar câmera, conteúdo da tela e entrada de voz para compreender o ambiente atual e realizar operações diretamente nos aplicativos reais.

Capacidades principais no dispositivo local

Muitos sistemas de IA móveis atualmente dependem da nuvem para operar, ou seja, invocam ambientes virtuais Android em servidores para substituir as ações do usuário. Embora isso facilite a implantação unificada, impede o acesso direto à câmera real, ao álbum de fotos e aos arquivos locais do telefone do usuário.

O X-OmniClaw adota uma abordagem oposta. O relatório técnico indica que esse framework opera diretamente nos dispositivos físicos do usuário, reduzindo a discrepância entre o ambiente virtual e os cenários reais de uso. A OPPO resume sua estrutura em três partes: percepção, execução e memória, que formam um ciclo contínuo.

  • Camadas de percepção integram câmeras, telas e entrada de voz
  • A camada de execução é responsável por identificar a interface e realizar cliques e redirecionamentos.
  • A camada de memória armazena informações de contexto entre tarefas e entre sessões.

Tela reconhecível e cenário real

Na etapa de percepção, o sistema primeiro compreende a cena atual por meio de um modelo de linguagem visual e, em seguida, decide a próxima ação. Por exemplo, se o usuário apontar a câmera para um produto e perguntar sobre o preço, o agente primeiro identificará o objeto e depois abrirá o aplicativo de compras correspondente para realizar uma pesquisa, em vez de apenas adivinhar com base em instruções de texto.

A execução combina dados da interface XML, modelos visuais de borda e capacidades de reconhecimento OCR para determinar exatamente onde clicar na página. Mesmo com muitos anúncios e informações estruturais incompletas, o sistema consegue auxiliar na localização da área de operação por meio de reconhecimento visual.

OPPO também adicionou a capacidade de imitação de comportamento. Se o usuário demonstrar manualmente uma vez o caminho para acessar uma página mais profunda, o sistema poderá reproduzir rapidamente esse caminho posteriormente por meio do deeplink do Android, reduzindo operações repetitivas.

Introdução à memória semântica entre sessões

Uma das principais diferenças do X-OmniClaw em relação aos chatbots comuns é a memória semântica de longo prazo. O sistema não apenas mantém o contexto durante uma única tarefa, mas também gera registros estruturados sobre objetos, cenas e eventos com base no conteúdo do álbum, para recuperação e execução posteriores.

Os casos apresentados pela OPPO incluem auxílio em problemas matemáticos e geração de vídeos de álbum. O primeiro pode ler questões na tela por meio da interface flutuante, processá-las passo a passo e avançar automaticamente para a próxima questão; o segundo pode filtrar imagens relevantes no álbum conforme solicitações como “fotos com tema de papagaio” e, por meio de deeplink, abrir o CapCut para gerar vídeos em massa.

Isso significa que o foco do Agente de IA para dispositivos móveis está passando de respostas únicas para assistência contínua. O relatório menciona que o X-OmniClaw foi desenvolvido com base no repositório de código do projeto open-source HermesApp e incorporou o design da estrutura de habilidades do OpenClaw. O código do projeto já está disponível no GitHub, e a OPPO afirmou que continuará a publicar recursos relacionados e atualizar versões futuras.

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.