Nucleus-Image с открытым исходным кодом, 17 млрд параметров, 2 млрд активируются при каждом выводе

Согласно новости ME, 16 апреля (UTC+8), по данным мониторинга Beating, команда Nucleus AI выпустила текстово-изображательную модель Nucleus-Image, одновременно открыв веса модели, код обучения и набор данных для обучения под лицензией Apache 2.0, разрешающей коммерческое использование. Модель использует архитектуру разреженного смешанного эксперта (MoE) на основе диффузионного трансформера, общий объем параметров составляет 17 млрд, распределенных по 64 маршрутным экспертам на каждом слое, при этом во время вывода активируется только около 2 млрд параметров, что значительно снижает стоимость вывода по сравнению с плотными моделями аналогичного размера. На трех стандартных тестовых наборах Nucleus-Image демонстрирует результаты, сопоставимые или превосходящие закрытые ведущие модели: оценка GenEval — 0,87, что соответствует результату модели Qwen Image, при этом показатель пространственного положения (0,85) занимает первое место среди всех сравниваемых моделей; оценка DPG-Bench — 88,79, общее первое место; оценка OneIG-Bench — 0,522, превышающая Google Imagen4 (0,515) и Recraft V3 (0,502). Все эти результаты получены исключительно на основе предварительного обучения без применения DPO, усиленного обучения или настройки по человеческим предпочтениям. Официальный представитель Nucleus AI заявил, что это «первая полностью открытая MoE-диффузионная модель такого уровня качества». Обучающие данные были собраны в масштабе из интернета, прошли несколько этапов фильтрации, удаления дубликатов и оценки эстетики, в результате чего было сохранено 700 миллионов изображений и сформировано 1,5 миллиарда текстово-изображательных пар; обучение проходило в три этапа, постепенно увеличивая разрешение с 256 до 1024, и заняло 1,7 миллиона шагов. Текстовый энкодер использует Qwen3-VL-8B-Instruct, вызывается через библиотеку diffusers и включает в себя кэширование текстовых KV на всех этапах денойзинга, что дополнительно снижает затраты на вывод. Для разработчиков, которым необходимо развернуть генерацию изображений локально, архитектура с 17 млрд параметров, активирующих только 2 млрд, делает возможным запуск на потребительских GPU. Полное открытие (веса + код обучения + набор данных) является редкостью — большинство открытых моделей генерации изображений публикуют только веса, сохраняя наборы данных и детали обучения в закрытом доступе, что является одним из основных барьеров для воспроизводимых исследований в области текст-в-изображение. (Источник: BlockBeats)