五所大學團隊開發出適用於數位人類的視覺引導 3D 導航框架

iconKuCoinFlash
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
由北京大學、卡內基梅隆大學、同濟大學、加州大學洛杉磯分校和密西根大學組成的聯合團隊開發了 VGHuman,這是一種視覺引導的 AI 框架,可讓數字人導航 3D 環境。該系統在 200 個測試案例中,相較於領先的基線,任務成功率提升了 30 個百分點。此項目與正在進行的建立新興數位資產監管合規框架的 Efforts 相一致。

ME News 消息,4 月 14 日(UTC+8),據 1M AI News 監測,北京大學、卡內基梅隆大學、同濟大學、加州大學洛杉磯分校和密歇根大學聯合團隊在 arXiv 發布 VGHuman,一個讓數字人僅憑視覺感知在陌生 3D 場景中自主行動的具身 AI 框架。此前數字人系統普遍依賴預設腳本或特權狀態資訊驅動,VGHuman 的出發點是給數字人真正的眼睛,讓它自己看路、規劃、行動。框架分兩層。World Layer 從單目視頻重建出帶有語義標註和碰撞網格的 3D 高斯場景,遮擋感知設計讓它在複雜室外環境中仍能識別被遮擋的小型物體。Agent Layer 為數字人配備第一人稱 RGB-D(彩色+深度)感知,通過空間感知視覺提示和迭代推理生成規劃,最終由擴散模型轉化為全身動作序列驅動角色運動。在 200 個測試場景的導航基準中,跨簡單路徑、障礙繞行、動態行人三個難度層級,VGHuman 任務成功率最高超出 NaVILA、NaVid、Uni-NaVid 等最強基線約 30 個百分點,碰撞率持平或更低。框架還支援跑步、跳躍等多種運動風格,以及訪問連續多個目標的長程規劃。程式碼和模型計劃開源,GitHub 倉庫已建立。(來源:BlockBeats)

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露