Nvidia và Công ty Cổ phần FPT đã công bố bộ dữ liệu gồm 900.000 nhân vật tổng hợp được thiết kế để giúp các mô hình AI hiểu rõ ngôn ngữ, văn hóa và đặc điểm nhân khẩu học của Việt Nam. Bộ dữ liệu Nemotron-Personas-Vietnam, được ra mắt vào ngày 5 tháng Sáu, đã được đăng tải trên Hugging Face dưới giấy phép CC-BY-4.0, nghĩa là bất kỳ ai cũng có thể sử dụng nó cho mục đích thương mại.
Thực chất dữ liệu gồm những gì
Bộ sưu tập bao gồm 31 trường thông tin mỗi nhân vật, bao gồm các đặc điểm nhân khẩu học Việt Nam, phân bố địa lý, đa dạng ngôn ngữ và đặc điểm lao động. Đây không phải là hồ sơ được thu thập từ các cá nhân thực tế. Chúng được tạo ra bằng thuật toán để phản ánh các mô hình dân số thực tế, đồng thời tránh được những rủi ro về quyền riêng tư khi sử dụng dữ liệu cá nhân thật.
Bộ dữ liệu tương thích với các công cụ NeMo của Nvidia, nền tảng của công ty để xây dựng và tùy chỉnh các mô hình AI. Tập đoàn FPT, hoạt động với tư cách là Đối tác Đám mây của Nvidia, đã mang đến chuyên môn địa phương cần thiết để đảm bảo các nhân vật có độ chính xác về văn hóa và ngôn ngữ.
Cuộc chơi AI chủ quyền
Bản phát hành này là một phần của sáng kiến Nemotron-Personas rộng lớn hơn của Nvidia, vốn đã tạo ra các bộ dữ liệu đặc thù theo khu vực cho Singapore, Hàn Quốc và Hoa Kỳ. Việc ra mắt trùng với sự kiện Nvidia GTC Taipei và Computex 2026, hai sự kiện lớn nhất trong lịch trình công nghệ châu Á.
Các đối tác của Nvidia mở rộng vượt quá FPT trong nước. Viettel, một công ty công nghệ lớn khác của Việt Nam, đang tham gia xây dựng các ứng dụng AI quốc gia trên cơ sở hạ tầng của Nvidia. Vai trò của FPT với tư cách là Đối tác Ưu tiên của Nvidia cũng mở rộng ra ngoài Việt Nam, khi công ty tăng cường các nhà máy AI tại cả Việt Nam và Nhật Bản.
Điều này có nghĩa gì đối với cảnh quan AI và công nghệ
Bằng cách cung cấp miễn phí bộ dữ liệu này cho mục đích thương mại theo giấy phép CC-BY-4.0, Nvidia và FPT đang trao cho các startup, trường đại học và các công ty nhỏ hơn 900.000 nhân vật để sử dụng miễn phí. Việc tạo dữ liệu tổng hợp cũng tránh được các quy định bảo vệ dữ liệu ngày càng nghiêm ngặt, mang đến một giải pháp thay thế tuân thủ thay vì sử dụng dữ liệu cá nhân thực tế trong đào tạo AI.
