ทีมจากห้ามหาวิทยาลัยพัฒนากรอบการทำงานการนำทางแบบ 3 มิติที่ใช้ภาพเป็นแนวทางสำหรับดิจิทัลฮิวแมน

iconKuCoinFlash
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
ทีมร่วมจากมหาวิทยาลัยปักกิ่ง มหาวิทยาลัยคาร์เนกี เมลลอน มหาวิทยาลัยตงจี มหาวิทยาลัยแคลิฟอร์เนีย ลอสแอนเจลิส และมหาวิทยาลัยมิชิแกน ได้พัฒนา VGHuman ซึ่งเป็นกรอบงาน AI ที่ใช้การนำทางด้วยภาพ เพื่อให้ดิจิทัลฮิวแมนสามารถเคลื่อนที่ในสภาพแวดล้อม 3 มิติ ระบบดังกล่าวสามารถเพิ่มอัตราความสำเร็จในการทำภารกิจได้ 30 เปอร์เซ็นต์เมื่อเทียบกับฐานข้อมูลชั้นนำในกรณีทดสอบ 200 กรณี โครงการนี้สอดคล้องกับความพยายามในปัจจุบันในการสร้างกรอบการปฏิบัติตามกฎหมายสำหรับการกำกับดูแลสินทรัพย์ดิจิทัลใหม่ๆ

ข่าว ME รายงานว่า เมื่อวันที่ 14 เมษายน (UTC+8) ตามการติดตามของ 1M AI News ทีมร่วมระหว่างมหาวิทยาลัยปักกิ่ง มหาวิทยาลัยคาร์เนกี เมลลอน มหาวิทยาลัยตงจี มหาวิทยาลัยแคลิฟอร์เนีย ลอสแอนเจลิส และมหาวิทยาลัยมิชิแกน ได้เผยแพร่ VGHuman บน arXiv ซึ่งเป็นกรอบงาน AI แบบมีร่างกายที่ทำให้ตัวแทนดิจิทัลสามารถเคลื่อนไหวอย่างอิสระในฉาก 3D ที่ไม่คุ้นเคย โดยใช้เพียงการรับรู้ทางสายตาเท่านั้น ก่อนหน้านี้ ระบบตัวแทนดิจิทัลมักพึ่งพาสคริปต์ที่กำหนดไว้ล่วงหน้าหรือข้อมูลสถานะพิเศษในการขับเคลื่อน VGHuman มีเป้าหมายเพื่อให้ตัวแทนดิจิทัลมี “ดวงตา” จริงๆ เพื่อให้มันสามารถมองเห็นทาง วางแผน และดำเนินการด้วยตนเอง กรอบงานนี้แบ่งเป็นสองชั้น: World Layer สร้างฉาก 3D แบบก๊าสที่มีการระบุความหมายและเมชการชนจากวิดีโอแบบเลนส์เดียว โดยการออกแบบที่รับรู้การบัง遮蔽 ทำให้สามารถระบุวัตถุขนาดเล็กที่ถูกบังได้แม้ในสภาพแวดล้อมกลางแจ้งที่ซับซ้อน Agent Layer ติดตั้งการรับรู้แบบ RGB-D (สี + ความลึก) มุมมองแรกของตัวแทนดิจิทัล โดยใช้คำใบ้ภาพเชิงพื้นที่และการให้เหตุผลแบบวนซ้ำเพื่อสร้างแผนการ จากนั้นแปลงเป็นลำดับการเคลื่อนไหวของร่างกายทั้งหมดผ่านโมเดลการแพร่กระจาย ในฐานข้อมูลการนำทางที่มี 200 ฉากทดสอบ โดยแบ่งตามสามระดับความยาก: เส้นทางง่าย การหลีกเลี่ยงอุปสรรค และผู้เดินทางแบบไดนามิก VGHuman มีอัตราความสำเร็จของงานสูงสุดกว่าฐานข้อมูลที่แข็งแกร่งที่สุดอย่าง NaVILA, NaVid และ Uni-NaVid ประมาณ 30 เปอร์เซ็นต์ และอัตราการชนกันเท่ากันหรือต่ำกว่า กรอบงานยังรองรับรูปแบบการเคลื่อนไหวหลากหลาย เช่น การวิ่งและการกระโดด รวมถึงการวางแผนระยะยาวเพื่อเข้าถึงเป้าหมายหลายจุดอย่างต่อเนื่อง รหัสและโมเดลจะเปิดให้ใช้งานแบบโอเพ่นซอร์สในอนาคต และมีการสร้างรีโพซิทอรีบน GitHub แล้ว (ที่มา: BlockBeats)

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา