MEニュース:4月14日(UTC+8)、1M AI Newsの監視によると、北京大学、カーネギーメロン大学、同済大学、カリフォルニア大学ロサンゼルス校、ミシガン大学の共同チームがarXivにVGHumanを発表しました。VGHumanは、デジタルエージェントが視覚情報のみで未知の3D環境において自律的に行動できるエムボディードAIフレームワークです。従来のデジタルエージェントシステムは、事前定義されたスクリプトや特権的な状態情報に依存していましたが、VGHumanはデジタルエージェントに「本当の目」を与え、自ら道を確認し、計画し、行動することを可能にします。 このフレームワークは2層構造です。World Layerは単眼動画からセマンティックアノテーションとコリジョンメッシュを備えた3Dガウスシーンを再構築し、遮蔽認識設計により複雑な屋外環境でも隠れた小型物体を認識できます。Agent Layerは、デジタルエージェントに第一人称RGB-D(カラー+深度)感知を提供し、空間的視覚プロンプトと反復的推論を通じて計画を生成し、最終的に拡散モデルで全身の動作シーケンスに変換してキャラクターを制御します。 200のテストシーンからなるナビゲーションベンチマークにおいて、簡単な経路、障害物回避、動的歩行者という3つの難易度レベルで、VGHumanのタスク成功率はNaVILA、NaVid、Uni-NaVidなどの最強ベースラインを最大で約30ポイント上回り、衝突率は同等または更低でした。このフレームワークは走行やジャンプなど複数の運動スタイルをサポートし、複数の連続目標への長期計画も可能です。コードとモデルはオープンソース化予定で、GitHubリポジトリは既に作成されています。(出典:BlockBeats)
五大学チーム、デジタルヒューマン向けの視覚誘導型3Dナビゲーションフレームワークを開発
KuCoinFlash共有






北京大学、カーネギーメロン大学、同済大学、UCLA、ミシガン大学の共同チームが、VGHumanを開発しました。これは、デジタルヒューマンが3D環境をナビゲートできるようにする視覚誘導型AIフレームワークです。このシステムは、200のテストケースで、主要なベースラインと比較してタスク成功率が30ポイント向上しました。本プロジェクトは、新興デジタル資産規制のためのコンプライアンスフレームワーク構築に向けた現在の取り組みと一致しています。
出典:原文を表示
免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。
デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。