五所大學團隊開發出適用於數位人類的視覺引導 3D 導航框架

ME News 消息，4 月 14 日（UTC+8），據 1M AI News 監測，北京大學、卡內基梅隆大學、同濟大學、加州大學洛杉磯分校和密歇根大學聯合團隊在 arXiv 發布 VGHuman，一個讓數字人僅憑視覺感知在陌生 3D 場景中自主行動的具身 AI 框架。此前數字人系統普遍依賴預設腳本或特權狀態資訊驅動，VGHuman 的出發點是給數字人真正的眼睛，讓它自己看路、規劃、行動。框架分兩層。World Layer 從單目視頻重建出帶有語義標註和碰撞網格的 3D 高斯場景，遮擋感知設計讓它在複雜室外環境中仍能識別被遮擋的小型物體。Agent Layer 為數字人配備第一人稱 RGB-D（彩色+深度）感知，通過空間感知視覺提示和迭代推理生成規劃，最終由擴散模型轉化為全身動作序列驅動角色運動。在 200 個測試場景的導航基準中，跨簡單路徑、障礙繞行、動態行人三個難度層級，VGHuman 任務成功率最高超出 NaVILA、NaVid、Uni-NaVid 等最強基線約 30 個百分點，碰撞率持平或更低。框架還支援跑步、跳躍等多種運動風格，以及訪問連續多個目標的長程規劃。程式碼和模型計劃開源，GitHub 倉庫已建立。（來源：BlockBeats）