OPPO เปิดแหล่งที่มาของกรอบงาน AI สำหรับ Android X-OmniClaw

icon币界网
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
ข่าว AI และคริปโตเกิดขึ้นเมื่อทีม Multi-X ของ OPPO เปิดแหล่งที่มาของกรอบงานตัวแทน AI สำหรับ Android ชื่อ X-OmniClaw กรอบงานนี้ให้ความสำคัญกับการประมวลผลบนอุปกรณ์ โดยใช้โมเดลคลาวด์เฉพาะสำหรับการให้เหตุผลที่ซับซ้อน รองรับงานผู้ช่วย AI แบบต่อเนื่อง โดยรวมข้อมูลจากกล้อง หน้าจอ และเสียงเพื่อใช้งานแอปจริง ระบบประกอบด้วยชั้นการรับรู้ การดำเนินการ และหน่วยความจำ เพื่อจัดการบริบทข้ามงานและการนำทางด้วยภาพ OPPO เพิ่มการเลียนแบบพฤติกรรมและหน่วยความจำเชิงความหมายเพื่อเรียนรู้การกระทำของผู้ใช้และการเก็บรักษาข้อมูลระยะยาว โครงการนี้อิงจาก HermesApp และสามารถเข้าถึงได้บน GitHub ผู้ติดตามข่าวบนบล็อกเชนอาจติดตามว่ากรอบงานนี้จะบูรณาการกับเครื่องมือบล็อกเชนในอนาคตอย่างไร
CoinDesk รายงาน:

ทีม Multi-X ของ OPPO ได้เปิดตัวกรอบงาน AI สำหรับ Android แบบเปิดแหล่งที่มาชื่อ X-OmniClaw โครงการนี้เน้นการประมวลผลบนอุปกรณ์เป็นหลัก โดยกระบวนการควบคุม การรับรู้ และการดำเนินการทั้งหมดจะดำเนินการบนโทรศัพท์มือถือ โดยจะใช้โมเดลขนาดใหญ่บนคลาวด์เฉพาะในสถานการณ์ที่ต้องใช้การวิเคราะห์เชิงซ้อนเท่านั้น

กรอบงานนี้มุ่งเน้นที่การใช้งานโทรศัพท์มือถือในฐานะผู้ช่วย AI แบบต่อเนื่อง ไม่ใช่เครื่องมือแชทแบบตอบคำถามครั้งเดียว ตามการออกแบบที่ OPPO เปิดเผย ระบบสามารถรวมข้อมูลจากกล้อง เนื้อหาบนหน้าจอ และการป้อนข้อมูลด้วยเสียงเพื่อเข้าใจสภาพแวดล้อมปัจจุบัน แล้วดำเนินการโดยตรงภายในแอปพลิเคชันจริง

วางความสามารถหลักไว้ที่อุปกรณ์ท้องถิ่น

ปัจจุบันระบบ AI บนมือถือจำนวนมากพึ่งพาการรันบนคลาวด์ โดยการเรียกใช้สภาพแวดล้อมจำลองของ Android บนเซิร์ฟเวอร์เพื่อแทนที่การดำเนินการของผู้ใช้ แม้ว่าวิธีนี้จะช่วยให้การปรับใช้เป็นไปอย่างเป็นระบบ แต่ไม่สามารถเข้าถึงกล้อง อัลบั้ม และไฟล์ท้องถิ่นบนโทรศัพท์ของผู้ใช้ได้โดยตรง

X-OmniClaw ใช้แนวทางที่ตรงกันข้าม รายงานทางเทคนิคแสดงว่าเฟรมเวิร์กนี้ทำงานโดยตรงบนอุปกรณ์จริงของผู้ใช้ ลดช่องว่างระหว่างสภาพแวดล้อมเสมือนกับสถานการณ์การใช้งานจริง OPPO สรุปโครงสร้างนี้เป็นสามส่วน: การรับรู้ การดำเนินการ และความจำ ซึ่งทั้งสามส่วนนี้สร้างวงจรที่ต่อเนื่อง

  • รวมชั้นการรับรู้ด้วยกล้อง หน้าจอ และการป้อนข้อมูลด้วยเสียง
  • ชั้นการดำเนินการรับผิดชอบในการระบุอินเทอร์เฟซและดำเนินการคลิกและเปลี่ยนหน้า
  • ชั้นความจำเก็บข้อมูลบริบทข้ามงานและข้ามเซสชัน

สามารถระบุหน้าจอและฉากจริง

ในส่วนการรับรู้ ระบบจะใช้โมเดลภาษาเชิงภาพในการเข้าใจภาพปัจจุบันก่อน แล้วจึงตัดสินใจขั้นตอนถัดไป ตัวอย่างเช่น เมื่อผู้ใช้ชี้กล้องไปที่สินค้าหนึ่งและถามราคา ตัวแทนจะระบุวัตถุก่อน แล้วจึงเปิดแอปพลิเคชันช้อปปิ้งที่เกี่ยวข้องเพื่อเริ่มการค้นหา แทนที่จะแค่คาดเดาจากคำสั่งข้อความเท่านั้น

ส่วนการดำเนินการรวมข้อมูลอินเทอร์เฟซ XML แบบจำลองการมองเห็นด้านปลายทาง และความสามารถในการรับรู้ OCR เพื่อตัดสินใจว่าควรคลิกที่ใดบนหน้าจอ แม้จะมีโฆษณาจำนวนมากหรือข้อมูลโครงสร้างไม่สมบูรณ์ ระบบก็ยังสามารถระบุพื้นที่ดำเนินการได้โดยใช้การรับรู้ทางภาพ

OPPO ยังได้เพิ่มความสามารถในการเลียนแบบพฤติกรรม ผู้ใช้สามารถแสดงวิธีการเข้าสู่หน้าที่ลึกกว่าเพียงครั้งเดียวด้วยตนเอง ระบบจะสามารถใช้วิธี Android deeplink เพื่อทำซ้ำเส้นทางนี้ได้อย่างรวดเร็วในภายหลัง ลดการดำเนินการซ้ำๆ

เพิ่มหน่วยความจำเชิงความหมายข้ามเซสชัน

จุดเด่นหนึ่งของ X-OmniClaw เมื่อเทียบกับแชทบอททั่วไปคือหน่วยความจำเชิงความหมายระยะยาว ระบบไม่เพียงแต่เก็บบริบทไว้ในงานเดียวเท่านั้น แต่ยังสร้างบันทึกโครงสร้างเกี่ยวกับวัตถุ ฉาก และเหตุการณ์จากเนื้อหาอัลบั้ม เพื่อใช้ในการค้นหาและดำเนินการในภายหลัง

ตัวอย่างที่ OPPO แสดงรวมถึงการช่วยแก้โจทย์คณิตศาสตร์และการสร้างวิดีโอจากอัลบั้ม ระบบแรกสามารถอ่านโจทย์บนหน้าจอผ่านอินเทอร์เฟซลอย ประมวลผลทีละขั้นตอน และเข้าสู่คำถามถัดไปโดยอัตโนมัติ ส่วนระบบหลังสามารถกรองรูปภาพที่เกี่ยวข้องจากอัลบั้มตามคำขอเช่น “รูปภาพธีมแก้ว鹦鹉” จากนั้นเปิดแอป CapCut ผ่าน deeplink เพื่อสร้างวิดีโอเป็นจำนวนมาก

นี่หมายความว่าตำแหน่งของ AI Agent บนมือถือกำลังเปลี่ยนจากคำถามตอบครั้งเดียวไปสู่การช่วยเหลืออย่างต่อเนื่อง รายงานระบุว่า X-OmniClaw พัฒนาจากโค้ดฐานของโปรเจกต์โอเพ่นซอร์ส HermesApp และอ้างอิงโครงสร้างทักษะของ OpenClaw โค้ดของโปรเจกต์ได้ถูกเผยแพร่บน GitHub แล้ว OPPO ระบุว่าจะเปิดเผยทรัพยากรที่เกี่ยวข้องและอัปเดตรุ่นต่อไป

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา