Nvidia 與 FPT 公司已發布一個包含 90 萬個合成人物的數據集,旨在幫助 AI 模型理解越南的語言、文化和人口特徵。該名為 Nemotron-Personas-Vietnam 的數據集於 6 月 5 日在 Hugging Face 上以 CC-BY-4.0 授權發布,意味著任何人都可商業使用。
數據集中實際包含什麼
該資料集涵蓋每位人物的 31 個欄位,包括越南的人口統計、地理分佈、語言多樣性及勞動特徵。這些並非從真實個人中抓取的個人資料,而是透過演算法生成,以反映真實的人口模式,同時避開使用真實個人資料所帶來的隱私風險。
該數據集與 Nvidia 的 NeMo 工具相容,這是 Nvidia 用於構建和自訂 AI 模型的框架。作為 Nvidia 雲端合作夥伴的 FPT 公司,提供了當地專業知識,以確保人物設定在文化和語言上的準確性。
主權 AI 投資機會
此版本是 Nvidia 更廣泛的 Nemotron-Personas 計畫的一部分,該計畫已為新加坡、韓國和美國生成了類似的地區特定數據集。此發佈與 Nvidia GTC 台北及 Computex 2026 同步舉行,這兩者是亞洲科技日曆上最重要的兩大活動。
Nvidia 的合作夥伴關係不僅限於該國的 FPT。另一家重要的越南科技公司 Viettel 也參與基於 Nvidia 基礎設施的國家 AI 應用程式開發。FPT 作為 Nvidia 首選合作夥伴的角色也延伸至越南以外,該公司正在越南和日本提升 AI 工廠。
這對人工智慧與科技領域的意義
Nvidia 和 FPT 透過 CC-BY-4.0 授權將數據集免費提供給商業用途,使初創企業、大學和小型公司能夠免費使用 90 萬個人物資料。合成資料生成也避開了日益嚴格的資料保護法規,為人工智能訓練提供了一種符合合規要求的替代方案,無需使用真實的個人資料。
