Nucleus-Image с открытым исходным кодом, 17 млрд параметров, 2 млрд активируются при каждом выводе

iconKuCoinFlash
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
16 апреля (UTC+8) Nucleus AI открыла исходный код модели Nucleus-Image под лицензией Apache 2.0. Модель, построенная на MetaEra, использует разреженный MoE diffusion transformer с 17 млрд параметров, но во время вывода активны только 2 млрд, что снижает затраты. Она превзошла или соответствовала лучшим закрытым моделям на трех тестах без дообучения. Этот шаг соответствует растущему интересу к активам с высоким риском и усилиям CFT на глобальных криптовалютных рынках.

Согласно новости ME, 16 апреля (UTC+8), по данным мониторинга Beating, команда Nucleus AI выпустила текстово-изображательную модель Nucleus-Image, одновременно открыв веса модели, код обучения и набор данных для обучения под лицензией Apache 2.0, разрешающей коммерческое использование. Модель использует архитектуру разреженного смешанного эксперта (MoE) на основе диффузионного трансформера, общий объем параметров составляет 17 млрд, распределенных по 64 маршрутным экспертам на каждом слое, при этом во время вывода активируется только около 2 млрд параметров, что значительно снижает стоимость вывода по сравнению с плотными моделями аналогичного размера. На трех стандартных тестовых наборах Nucleus-Image демонстрирует результаты, сопоставимые или превосходящие закрытые ведущие модели: оценка GenEval — 0,87, что соответствует результату модели Qwen Image, при этом показатель пространственного положения (0,85) занимает первое место среди всех сравниваемых моделей; оценка DPG-Bench — 88,79, общее первое место; оценка OneIG-Bench — 0,522, превышающая Google Imagen4 (0,515) и Recraft V3 (0,502). Все эти результаты получены исключительно на основе предварительного обучения без применения DPO, усиленного обучения или настройки по человеческим предпочтениям. Официальный представитель Nucleus AI заявил, что это «первая полностью открытая MoE-диффузионная модель такого уровня качества». Обучающие данные были собраны в масштабе из интернета, прошли несколько этапов фильтрации, удаления дубликатов и оценки эстетики, в результате чего было сохранено 700 миллионов изображений и сформировано 1,5 миллиарда текстово-изображательных пар; обучение проходило в три этапа, постепенно увеличивая разрешение с 256 до 1024, и заняло 1,7 миллиона шагов. Текстовый энкодер использует Qwen3-VL-8B-Instruct, вызывается через библиотеку diffusers и включает в себя кэширование текстовых KV на всех этапах денойзинга, что дополнительно снижает затраты на вывод. Для разработчиков, которым необходимо развернуть генерацию изображений локально, архитектура с 17 млрд параметров, активирующих только 2 млрд, делает возможным запуск на потребительских GPU. Полное открытие (веса + код обучения + набор данных) является редкостью — большинство открытых моделей генерации изображений публикуют только веса, сохраняя наборы данных и детали обучения в закрытом доступе, что является одним из основных барьеров для воспроизводимых исследований в области текст-в-изображение. (Источник: BlockBeats)

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.