Nvidia dan FPT Corporation telah mengeluarkan set data 900,000 persona sintetik yang direka untuk membantu model AI memahami bahasa, budaya, dan demografi Vietnam. Set data Nemotron-Personas-Vietnam, yang dilancarkan pada 5 Jun, tersedia di Hugging Face di bawah lesen CC-BY-4.0, bermakna ia boleh digunakan secara komersial oleh sesiapa sahaja.
Apa sebenarnya yang terdapat dalam set data
Koleksi ini merangkumi 31 medan setiap persona, mencakup demografi Vietnam, taburan geografi, kepelbagaian bahasa, dan ciri-ciri tenaga kerja. Ini bukan profil yang diambil dari individu sebenar. Ia dijana secara algoritma untuk mencerminkan corak populasi sebenar sambil mengelakkan masalah privasi yang timbul daripada penggunaan data peribadi sebenar.
Set data ini sepadan dengan alat Nvidia NeMo, kerangka kerja syarikat untuk membina dan menyesuaikan model AI. FPT Corporation, yang beroperasi sebagai Rakan Awan Nvidia, membawa kecekapan tempatan yang diperlukan untuk memastikan persona-persona tersebut tepat dari segi budaya dan bahasa.
Permainan AI berdaulat
Rilisan ini merupakan sebahagian daripada inisiatif Nemotron-Personas Nvidia yang lebih luas, yang telah menghasilkan set data khusus wilayah serupa untuk Singapura, Korea, dan AS. Pelancaran ini berlaku serentak dengan Nvidia GTC Taipei dan Computex 2026, dua acara terbesar dalam kalender teknologi Asia.
Kerjasama Nvidia meluas melebihi FPT di negara ini. Viettel, sebuah syarikat teknologi besar Vietnam lain, terlibat dalam membina aplikasi AI nasional di atas infrastruktur Nvidia. Peranan FPT sebagai Rakan Disukai Nvidia juga meluas melebihi Vietnam, dengan syarikat tersebut meningkatkan pabrik AI di Vietnam dan Jepun.
Apa yang bermaksud ini terhadap landskap AI dan teknologi
Dengan menjadikan set data ini tersedia secara percuma untuk penggunaan komersial di bawah CC-BY-4.0, Nvidia dan FPT memberikan 900,000 persona kepada permulaan, universiti, dan syarikat kecil untuk digunakan tanpa kos. Penghasilan data sintetik juga mengelakkan peraturan perlindungan data yang semakin ketat, menawarkan alternatif yang selaras dengan peraturan sebagai ganti penggunaan data peribadi sebenar dalam latihan AI.
