Pasukan Multi-X di bawah OPPO telah melancarkan kerangka kerja AI Android sumber terbuka X-OmniClaw. Projek ini menekankan "keutamaan sisi peranti", di mana proses kawalan, persepsi, dan pelaksanaan utama dilakukan secara tempatan di telefon, dan hanya menggunakan model besar awan dalam skenario penalaran yang kompleks.
Rangka ini ditujukan untuk skenario penggunaan telefon bimbit sebagai pembantu AI berterusan, bukan sebagai alat perbualan soal-jawab sekali sahaja. Menurut rekaan yang diumumkan oleh OPPO, sistem ini boleh menggabungkan kamera, kandungan skrin, dan input suara untuk memahami persekitaran semasa, kemudian melakukan tindakan secara langsung dalam aplikasi sebenar.
Kemampuan utama diletakkan pada peranti tempatan
Sekarang, banyak sistem AI mudah alih bergantung pada pengendalian awan, iaitu memanggil persekitaran maya Android di pelayan untuk menggantikan tindakan pengguna. Walaupun cara ini memudahkan pelaksanaan seragam, ia tidak dapat mengakses kamera, album, dan fail tempatan yang sebenar di telefon pengguna.
X-OmniClaw menggunakan pendekatan sebaliknya. Laporan teknikal menunjukkan bahawa kerangka ini berjalan secara langsung pada peranti fizikal pengguna, mengurangkan penyimpangan antara persekitaran maya dan skenario penggunaan sebenar. OPPO menggambarkan strukturnya sebagai tiga bahagian: pengesanan, pelaksanaan, dan ingatan, yang membentuk kitaran berterusan.
- Lapisan persepsi mengintegrasikan kamera, skrin, dan input suara
- Lapisan pelaksana bertanggungjawab untuk mengenal pasti antaramuka dan menyelesaikan klik serta pindah halaman
- Lapisan memori menyimpan maklumat konteks merentas tugas dan merentas sesi
Layar yang boleh dikenal pasti dengan adegan sebenar
Dalam bahagian persepsi, sistem akan terlebih dahulu memahami gambar semasa menggunakan model bahasa visual, kemudian menentukan tindakan seterusnya. Sebagai contoh, apabila pengguna mengarahkan kamera ke satu produk dan bertanya tentang harganya, agen akan mengenal pasti objek tersebut terlebih dahulu, kemudian membuka aplikasi beli-belah yang berkaitan untuk memulakan carian, bukan hanya menebak berdasarkan arahan teks.
Bahagian pelaksanaan menggabungkan data antaramuka XML, model penglihatan sisi peranti, dan kemampuan pengenalan OCR untuk menentukan di mana tepatnya perlu diklik pada halaman. Walaupun terdapat banyak iklan antaramuka dan maklumat struktur tidak lengkap, sistem masih mampu menggunakan pengenalan visual untuk membantu menentukan kawasan operasi.
OPPO juga telah menambahkan kemampuan peniruan tingkah laku. Jika pengguna secara manual menunjukkan sekali laluan ke halaman yang lebih dalam, sistem kemudian boleh menggunakan cara deeplink Android untuk dengan cepat mengulangi laluan ini, mengurangkan tindakan berulang.
Memperkenalkan memori semantik lintas sesi
Salah satu fokus X-OmniClaw berbanding dengan bot perbualan biasa ialah ingatan semantik jangka panjang. Sistem tidak hanya mampu mengekalkan konteks dalam tugas tunggal, tetapi juga menghasilkan rekod terstruktur mengenai objek, adegan, dan peristiwa berdasarkan kandungan album, untuk pencarian dan pelaksanaan seterusnya.
Kes kes yang dipaparkan oleh OPPO termasuk bantuan soalan matematik dan penghasilan video album. Yang pertama boleh membaca soalan skrin dalam antaramuka terapung, memproses langkah demi langkah, dan secara automatik berpindah ke soalan seterusnya; yang kedua pula boleh menyaring gambar yang berkaitan dalam album berdasarkan permintaan seperti "gambar bertema burung beo", kemudian membuka CapCut melalui deeplink dan menghasilkan video secara bulk.
Ini bermakna定位 bagi Agen AI mudah alih berubah daripada soal-jawab tunggal kepada bantuan berterusan. Laporan tersebut menyatakan bahawa X-OmniClaw dibangunkan berdasarkan repositori kod sumber terbuka HermesApp, serta merujuk kepada reka bentuk struktur kemahiran OpenClaw. Kod projek telah dipaparkan di GitHub, dan OPPO menyatakan akan terus mempersembahkan sumber berkaitan dan mengemas kini versi seterusnya.
