Nvidia 與 FPT 發布 900K 個合成人物資料集，供越南使用

Nvidia 與 FPT 公司已發布一個包含 90 萬個合成人物的數據集，旨在幫助 AI 模型理解越南的語言、文化和人口特徵。該名為 Nemotron-Personas-Vietnam 的數據集於 6 月 5 日在 Hugging Face 上以 CC-BY-4.0 授權發布，意味著任何人都可商業使用。

數據集中實際包含什麼

該資料集涵蓋每位人物的 31 個欄位，包括越南的人口統計、地理分佈、語言多樣性及勞動特徵。這些並非從真實個人中抓取的個人資料，而是透過演算法生成，以反映真實的人口模式，同時避開使用真實個人資料所帶來的隱私風險。

該數據集與 Nvidia 的 NeMo 工具相容，這是 Nvidia 用於構建和自訂 AI 模型的框架。作為 Nvidia 雲端合作夥伴的 FPT 公司，提供了當地專業知識，以確保人物設定在文化和語言上的準確性。

主權 AI 投資機會

此版本是 Nvidia 更廣泛的 Nemotron-Personas 計畫的一部分，該計畫已為新加坡、韓國和美國生成了類似的地區特定數據集。此發佈與 Nvidia GTC 台北及 Computex 2026 同步舉行，這兩者是亞洲科技日曆上最重要的兩大活動。

Nvidia 的合作夥伴關係不僅限於該國的 FPT。另一家重要的越南科技公司 Viettel 也參與基於 Nvidia 基礎設施的國家 AI 應用程式開發。FPT 作為 Nvidia 首選合作夥伴的角色也延伸至越南以外，該公司正在越南和日本提升 AI 工廠。

這對人工智慧與科技領域的意義

Nvidia 和 FPT 透過 CC-BY-4.0 授權將數據集免費提供給商業用途，使初創企業、大學和小型公司能夠免費使用 90 萬個人物資料。合成資料生成也避開了日益嚴格的資料保護法規，為人工智能訓練提供了一種符合合規要求的替代方案，無需使用真實的個人資料。