ทีมจากห้ามหาวิทยาลัยพัฒนากรอบการทำงานการนำทางแบบ 3 มิติที่ใช้ภาพเป็นแนวทางสำหรับดิจิทัลฮิวแมน

ข่าว ME รายงานว่า เมื่อวันที่ 14 เมษายน (UTC+8) ตามการติดตามของ 1M AI News ทีมร่วมระหว่างมหาวิทยาลัยปักกิ่ง มหาวิทยาลัยคาร์เนกี เมลลอน มหาวิทยาลัยตงจี มหาวิทยาลัยแคลิฟอร์เนีย ลอสแอนเจลิส และมหาวิทยาลัยมิชิแกน ได้เผยแพร่ VGHuman บน arXiv ซึ่งเป็นกรอบงาน AI แบบมีร่างกายที่ทำให้ตัวแทนดิจิทัลสามารถเคลื่อนไหวอย่างอิสระในฉาก 3D ที่ไม่คุ้นเคย โดยใช้เพียงการรับรู้ทางสายตาเท่านั้น ก่อนหน้านี้ ระบบตัวแทนดิจิทัลมักพึ่งพาสคริปต์ที่กำหนดไว้ล่วงหน้าหรือข้อมูลสถานะพิเศษในการขับเคลื่อน VGHuman มีเป้าหมายเพื่อให้ตัวแทนดิจิทัลมี “ดวงตา” จริงๆ เพื่อให้มันสามารถมองเห็นทาง วางแผน และดำเนินการด้วยตนเอง กรอบงานนี้แบ่งเป็นสองชั้น: World Layer สร้างฉาก 3D แบบก๊าสที่มีการระบุความหมายและเมชการชนจากวิดีโอแบบเลนส์เดียว โดยการออกแบบที่รับรู้การบัง遮蔽 ทำให้สามารถระบุวัตถุขนาดเล็กที่ถูกบังได้แม้ในสภาพแวดล้อมกลางแจ้งที่ซับซ้อน Agent Layer ติดตั้งการรับรู้แบบ RGB-D (สี + ความลึก) มุมมองแรกของตัวแทนดิจิทัล โดยใช้คำใบ้ภาพเชิงพื้นที่และการให้เหตุผลแบบวนซ้ำเพื่อสร้างแผนการ จากนั้นแปลงเป็นลำดับการเคลื่อนไหวของร่างกายทั้งหมดผ่านโมเดลการแพร่กระจาย ในฐานข้อมูลการนำทางที่มี 200 ฉากทดสอบ โดยแบ่งตามสามระดับความยาก: เส้นทางง่าย การหลีกเลี่ยงอุปสรรค และผู้เดินทางแบบไดนามิก VGHuman มีอัตราความสำเร็จของงานสูงสุดกว่าฐานข้อมูลที่แข็งแกร่งที่สุดอย่าง NaVILA, NaVid และ Uni-NaVid ประมาณ 30 เปอร์เซ็นต์ และอัตราการชนกันเท่ากันหรือต่ำกว่า กรอบงานยังรองรับรูปแบบการเคลื่อนไหวหลากหลาย เช่น การวิ่งและการกระโดด รวมถึงการวางแผนระยะยาวเพื่อเข้าถึงเป้าหมายหลายจุดอย่างต่อเนื่อง รหัสและโมเดลจะเปิดให้ใช้งานแบบโอเพ่นซอร์สในอนาคต และมีการสร้างรีโพซิทอรีบน GitHub แล้ว (ที่มา: BlockBeats)