ทีม Multi-X ของ OPPO ได้เปิดตัวกรอบงาน AI สำหรับ Android แบบเปิดแหล่งที่มาชื่อ X-OmniClaw โครงการนี้เน้นการประมวลผลบนอุปกรณ์เป็นหลัก โดยกระบวนการควบคุม การรับรู้ และการดำเนินการทั้งหมดจะดำเนินการบนโทรศัพท์มือถือ โดยจะใช้โมเดลขนาดใหญ่บนคลาวด์เฉพาะในสถานการณ์ที่ต้องใช้การวิเคราะห์เชิงซ้อนเท่านั้น
กรอบงานนี้มุ่งเน้นที่การใช้งานโทรศัพท์มือถือในฐานะผู้ช่วย AI แบบต่อเนื่อง ไม่ใช่เครื่องมือแชทแบบตอบคำถามครั้งเดียว ตามการออกแบบที่ OPPO เปิดเผย ระบบสามารถรวมข้อมูลจากกล้อง เนื้อหาบนหน้าจอ และการป้อนข้อมูลด้วยเสียงเพื่อเข้าใจสภาพแวดล้อมปัจจุบัน แล้วดำเนินการโดยตรงภายในแอปพลิเคชันจริง
วางความสามารถหลักไว้ที่อุปกรณ์ท้องถิ่น
ปัจจุบันระบบ AI บนมือถือจำนวนมากพึ่งพาการรันบนคลาวด์ โดยการเรียกใช้สภาพแวดล้อมจำลองของ Android บนเซิร์ฟเวอร์เพื่อแทนที่การดำเนินการของผู้ใช้ แม้ว่าวิธีนี้จะช่วยให้การปรับใช้เป็นไปอย่างเป็นระบบ แต่ไม่สามารถเข้าถึงกล้อง อัลบั้ม และไฟล์ท้องถิ่นบนโทรศัพท์ของผู้ใช้ได้โดยตรง
X-OmniClaw ใช้แนวทางที่ตรงกันข้าม รายงานทางเทคนิคแสดงว่าเฟรมเวิร์กนี้ทำงานโดยตรงบนอุปกรณ์จริงของผู้ใช้ ลดช่องว่างระหว่างสภาพแวดล้อมเสมือนกับสถานการณ์การใช้งานจริง OPPO สรุปโครงสร้างนี้เป็นสามส่วน: การรับรู้ การดำเนินการ และความจำ ซึ่งทั้งสามส่วนนี้สร้างวงจรที่ต่อเนื่อง
- รวมชั้นการรับรู้ด้วยกล้อง หน้าจอ และการป้อนข้อมูลด้วยเสียง
- ชั้นการดำเนินการรับผิดชอบในการระบุอินเทอร์เฟซและดำเนินการคลิกและเปลี่ยนหน้า
- ชั้นความจำเก็บข้อมูลบริบทข้ามงานและข้ามเซสชัน
สามารถระบุหน้าจอและฉากจริง
ในส่วนการรับรู้ ระบบจะใช้โมเดลภาษาเชิงภาพในการเข้าใจภาพปัจจุบันก่อน แล้วจึงตัดสินใจขั้นตอนถัดไป ตัวอย่างเช่น เมื่อผู้ใช้ชี้กล้องไปที่สินค้าหนึ่งและถามราคา ตัวแทนจะระบุวัตถุก่อน แล้วจึงเปิดแอปพลิเคชันช้อปปิ้งที่เกี่ยวข้องเพื่อเริ่มการค้นหา แทนที่จะแค่คาดเดาจากคำสั่งข้อความเท่านั้น
ส่วนการดำเนินการรวมข้อมูลอินเทอร์เฟซ XML แบบจำลองการมองเห็นด้านปลายทาง และความสามารถในการรับรู้ OCR เพื่อตัดสินใจว่าควรคลิกที่ใดบนหน้าจอ แม้จะมีโฆษณาจำนวนมากหรือข้อมูลโครงสร้างไม่สมบูรณ์ ระบบก็ยังสามารถระบุพื้นที่ดำเนินการได้โดยใช้การรับรู้ทางภาพ
OPPO ยังได้เพิ่มความสามารถในการเลียนแบบพฤติกรรม ผู้ใช้สามารถแสดงวิธีการเข้าสู่หน้าที่ลึกกว่าเพียงครั้งเดียวด้วยตนเอง ระบบจะสามารถใช้วิธี Android deeplink เพื่อทำซ้ำเส้นทางนี้ได้อย่างรวดเร็วในภายหลัง ลดการดำเนินการซ้ำๆ
เพิ่มหน่วยความจำเชิงความหมายข้ามเซสชัน
จุดเด่นหนึ่งของ X-OmniClaw เมื่อเทียบกับแชทบอททั่วไปคือหน่วยความจำเชิงความหมายระยะยาว ระบบไม่เพียงแต่เก็บบริบทไว้ในงานเดียวเท่านั้น แต่ยังสร้างบันทึกโครงสร้างเกี่ยวกับวัตถุ ฉาก และเหตุการณ์จากเนื้อหาอัลบั้ม เพื่อใช้ในการค้นหาและดำเนินการในภายหลัง
ตัวอย่างที่ OPPO แสดงรวมถึงการช่วยแก้โจทย์คณิตศาสตร์และการสร้างวิดีโอจากอัลบั้ม ระบบแรกสามารถอ่านโจทย์บนหน้าจอผ่านอินเทอร์เฟซลอย ประมวลผลทีละขั้นตอน และเข้าสู่คำถามถัดไปโดยอัตโนมัติ ส่วนระบบหลังสามารถกรองรูปภาพที่เกี่ยวข้องจากอัลบั้มตามคำขอเช่น “รูปภาพธีมแก้ว鹦鹉” จากนั้นเปิดแอป CapCut ผ่าน deeplink เพื่อสร้างวิดีโอเป็นจำนวนมาก
นี่หมายความว่าตำแหน่งของ AI Agent บนมือถือกำลังเปลี่ยนจากคำถามตอบครั้งเดียวไปสู่การช่วยเหลืออย่างต่อเนื่อง รายงานระบุว่า X-OmniClaw พัฒนาจากโค้ดฐานของโปรเจกต์โอเพ่นซอร์ส HermesApp และอ้างอิงโครงสร้างทักษะของ OpenClaw โค้ดของโปรเจกต์ได้ถูกเผยแพร่บน GitHub แล้ว OPPO ระบุว่าจะเปิดเผยทรัพยากรที่เกี่ยวข้องและอัปเดตรุ่นต่อไป
