OPPO Membuka Sumber Kerangka Kerja AI Android X-OmniClaw

icon币界网
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Berita AI + kripto muncul apabila pasukan Multi-X OPPO membuka sumber kerangka agen AI Android X-OmniClaw. Kerangka ini mengutamakan pemprosesan di peranti, menggunakan model awan hanya untuk penalaran kompleks. Ia menyokong tugas pembantu AI berterusan, menggabungkan input kamera, skrin, dan suara untuk operasi aplikasi sebenar. Sistem ini termasuk lapisan persepsi, eksekusi, dan memori untuk konteks lintas tugas dan navigasi visual. OPPO menambahkan peniruan tingkah laku dan memori semantik untuk pembelajaran tindakan pengguna dan pengekalan data jangka panjang. Projek ini berasaskan HermesApp dan tersedia di GitHub. Pemantau berita di blok rantai boleh memantau bagaimana kerangka ini diintegrasikan dengan alat blok rantai pada masa depan.
Laman web berita kripto melaporkan:

Pasukan Multi-X di bawah OPPO telah melancarkan kerangka kerja AI Android sumber terbuka X-OmniClaw. Projek ini menekankan "keutamaan sisi peranti", di mana proses kawalan, persepsi, dan pelaksanaan utama dilakukan secara tempatan di telefon, dan hanya menggunakan model besar awan dalam skenario penalaran yang kompleks.

Rangka ini ditujukan untuk skenario penggunaan telefon bimbit sebagai pembantu AI berterusan, bukan sebagai alat perbualan soal-jawab sekali sahaja. Menurut rekaan yang diumumkan oleh OPPO, sistem ini boleh menggabungkan kamera, kandungan skrin, dan input suara untuk memahami persekitaran semasa, kemudian melakukan tindakan secara langsung dalam aplikasi sebenar.

Kemampuan utama diletakkan pada peranti tempatan

Sekarang, banyak sistem AI mudah alih bergantung pada pengendalian awan, iaitu memanggil persekitaran maya Android di pelayan untuk menggantikan tindakan pengguna. Walaupun cara ini memudahkan pelaksanaan seragam, ia tidak dapat mengakses kamera, album, dan fail tempatan yang sebenar di telefon pengguna.

X-OmniClaw menggunakan pendekatan sebaliknya. Laporan teknikal menunjukkan bahawa kerangka ini berjalan secara langsung pada peranti fizikal pengguna, mengurangkan penyimpangan antara persekitaran maya dan skenario penggunaan sebenar. OPPO menggambarkan strukturnya sebagai tiga bahagian: pengesanan, pelaksanaan, dan ingatan, yang membentuk kitaran berterusan.

  • Lapisan persepsi mengintegrasikan kamera, skrin, dan input suara
  • Lapisan pelaksana bertanggungjawab untuk mengenal pasti antaramuka dan menyelesaikan klik serta pindah halaman
  • Lapisan memori menyimpan maklumat konteks merentas tugas dan merentas sesi

Layar yang boleh dikenal pasti dengan adegan sebenar

Dalam bahagian persepsi, sistem akan terlebih dahulu memahami gambar semasa menggunakan model bahasa visual, kemudian menentukan tindakan seterusnya. Sebagai contoh, apabila pengguna mengarahkan kamera ke satu produk dan bertanya tentang harganya, agen akan mengenal pasti objek tersebut terlebih dahulu, kemudian membuka aplikasi beli-belah yang berkaitan untuk memulakan carian, bukan hanya menebak berdasarkan arahan teks.

Bahagian pelaksanaan menggabungkan data antaramuka XML, model penglihatan sisi peranti, dan kemampuan pengenalan OCR untuk menentukan di mana tepatnya perlu diklik pada halaman. Walaupun terdapat banyak iklan antaramuka dan maklumat struktur tidak lengkap, sistem masih mampu menggunakan pengenalan visual untuk membantu menentukan kawasan operasi.

OPPO juga telah menambahkan kemampuan peniruan tingkah laku. Jika pengguna secara manual menunjukkan sekali laluan ke halaman yang lebih dalam, sistem kemudian boleh menggunakan cara deeplink Android untuk dengan cepat mengulangi laluan ini, mengurangkan tindakan berulang.

Memperkenalkan memori semantik lintas sesi

Salah satu fokus X-OmniClaw berbanding dengan bot perbualan biasa ialah ingatan semantik jangka panjang. Sistem tidak hanya mampu mengekalkan konteks dalam tugas tunggal, tetapi juga menghasilkan rekod terstruktur mengenai objek, adegan, dan peristiwa berdasarkan kandungan album, untuk pencarian dan pelaksanaan seterusnya.

Kes kes yang dipaparkan oleh OPPO termasuk bantuan soalan matematik dan penghasilan video album. Yang pertama boleh membaca soalan skrin dalam antaramuka terapung, memproses langkah demi langkah, dan secara automatik berpindah ke soalan seterusnya; yang kedua pula boleh menyaring gambar yang berkaitan dalam album berdasarkan permintaan seperti "gambar bertema burung beo", kemudian membuka CapCut melalui deeplink dan menghasilkan video secara bulk.

Ini bermakna定位 bagi Agen AI mudah alih berubah daripada soal-jawab tunggal kepada bantuan berterusan. Laporan tersebut menyatakan bahawa X-OmniClaw dibangunkan berdasarkan repositori kod sumber terbuka HermesApp, serta merujuk kepada reka bentuk struktur kemahiran OpenClaw. Kod projek telah dipaparkan di GitHub, dan OPPO menyatakan akan terus mempersembahkan sumber berkaitan dan mengemas kini versi seterusnya.

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.