OPPOのMulti-Xチームが、オープンソースのAndroid AIエージェントフレームワーク「X-OmniClaw」をリリースしました。このプロジェクトは「エッジ優先」を特徴とし、核心的な制御、感知、実行プロセスはすべてスマートフォン上で実行され、複雑な推論シナリオでのみクラウドの大規模モデルを呼び出します。
このフレームワークは、単発の質問応答型チャットツールではなく、スマートフォンを継続的なAIアシスタントとして使用するシナリオをターゲットとしています。OPPOが開示した設計によると、システムはカメラ、画面コンテンツ、音声入力を統合して現在の環境を理解し、実際のアプリ内で直接操作を実行できます。
コア機能をローカルデバイスに置く
現在、多くのモバイルAIシステムはクラウド上で動作しており、サーバー上でAndroid仮想環境を呼び出してユーザーの操作を代行しています。これは一括デプロイに便利ですが、ユーザーのスマートフォン上の実際のカメラ、アルバム、ローカルファイルに直接アクセスすることはできません。
X-OmniClawは逆のアプローチを採用しています。技術レポートによると、このフレームワークはユーザーの物理デバイス上で直接動作し、仮想環境と実際の使用シナリオとの間の乖離を削減します。OPPOはその構造を、感知、実行、記憶の3つの部分に要約し、これらが継続的なサイクルを形成していると説明しています。
- 感知層はカメラ、スクリーン、音声入力を統合します。
- 実行層はインターフェースを識別し、クリックと遷移を完了します。
- メモリ層は、タスク間およびセッション間のコンテキスト情報を保存します。
認識可能なスクリーンと現実のシーン
感知部分では、システムがまず視覚言語モデルを用いて現在の画面を理解し、その後次のアクションを決定します。たとえば、ユーザーがカメラを商品に向け、価格を尋ねた場合、エージェントは物体を認識したうえで、対応するショッピングアプリを開いて検索を開始します。文字による指示だけをもとに推測することはありません。
実行部分では、XMLインターフェースデータ、エッジ側のビジョナルモデル、およびOCR認識機能を組み合わせて、画面上で具体的にどこをクリックすべきかを判断します。インターフェースに広告が多数表示されていたり、構造情報が不完全であっても、システムはビジョナル認識を活用して操作領域を補助的に特定できます。
OPPOは行動複製機能も追加しました。ユーザーが手動で深いページへのパスを1回デモすると、システムは以降、Androidのdeeplink方式を用いてそのパスを迅速に再現し、繰り返しの操作を削減します。
クロスセッションセマンティックメモリを導入
一般的チャットボットと比較して、X-OmniClawの主な特徴は長期的な意味記憶です。システムは単一のタスク内でコンテキストを保持するだけでなく、アルバムの内容に基づいて物体、シーン、イベントに関する構造化されたレコードを生成し、後続の検索と実行に使用します。
OPPOが提示した事例には、数学問題の支援とアルバム動画生成が含まれます。前者は、フローティングインターフェースで画面の問題を読み取り、段階的に処理して自動的に次の問題に進むことができます。後者は、「インコテーマの写真」のような要件に基づいてアルバムから関連する画像をフィルタリングし、deeplinkを通じて剪映を開いて一括で動画を生成します。
これにより、モバイル端末用AIエージェントの位置づけは、単発の質問応答から継続的な支援へと移行しつつあります。報道によると、X-OmniClawはオープンソースプロジェクトHermesAppのコードベースを基に開発され、OpenClawのスキル構造設計も参考にされています。本プロジェクトのコードは既にGitHubに公開されており、OPPOは今後も関連リソースを公開し、バージョンを更新していく予定です。
