Nvidia и FPT выпускают набор данных из 900 000 синтетических персонажей для Вьетнама

Nvidia и корпорация FPT выпустили набор данных из 900 000 синтетических персон, предназначенных для помощи моделям ИИ в понимании языка, культуры и демографии Вьетнама. Набор данных Nemotron-Personas-Vietnam, запущенный 5 июня, был размещен на Hugging Face по лицензии CC-BY-4.0, что означает его коммерческое использование любыми лицами.

Что именно содержится в наборе данных

Коллекция включает 31 поле на каждую персону, охватывая вьетнамскую демографию, географическое распределение, языковое разнообразие и характеристики труда. Это не собранные профили реальных людей. Они генерируются алгоритмически, чтобы отражать реальные демографические паттерны, избегая при этом проблем конфиденциальности, связанных с использованием реальных персональных данных.

Данный набор данных совместим с инструментами Nvidia NeMo — платформой компании для создания и настройки ИИ-моделей. FPT Corporation, действующая в качестве партнера Nvidia Cloud, обеспечила местную экспертизу, необходимую для достижения культурной и языковой точности персонажей.

Игра с суверенным ИИ

Этот релиз является частью более широкой инициативы Nvidia Nemotron-Personas, которая уже создала аналогичные региональные наборы данных для Сингапура, Кореи и США. Запуск совпал с Nvidia GTC Taipei и Computex 2026 — двумя крупнейшими событиями на азиатском технологическом календаре.

Партнёрства Nvidia выходят за рамки сотрудничества с FPT в стране. Viettel, ещё одна крупная вьетнамская технологическая компания, участвует в создании национальных приложений ИИ на инфраструктуре Nvidia. Роль FPT как предпочитаемого партнёра Nvidia распространяется и за пределы Вьетнама: компания развивает AI-фабрики как во Вьетнаме, так и в Японии.

Что это означает для ландшафта ИИ и технологий

Предоставляя набор данных бесплатно для коммерческого использования по лицензии CC-BY-4.0, Nvidia и FPT предоставляют стартапам, университетам и небольшим компаниям 900 000 персонажей для работы без каких-либо затрат. Генерация синтетических данных также обходит все более строгие нормы защиты данных, предлагая альтернативу, соответствующую требованиям законодательства, вместо использования реальных персональных данных при обучении ИИ.