Nucleus-Image відкрито з 17 мільярдами параметрів, 2 мільярди активовано під час висновку

ME News, 16 квітня (UTC+8), за даними Beating, команда Nucleus AI випустила модель генерації зображення за текстом Nucleus-Image, одночасно відкрила ваги моделі, код навчання та набір даних для навчання з ліцензією Apache 2.0, що дозволяє комерційне використання. Модель використовує архітектуру розсіяного трансформера з розрідженими мішаними експертами (MoE), загальна кількість параметрів — 17 млрд, розподілених по 64 маршрутизуючих експертах на шар, під час висновку активується лише близько 2 млрд параметрів, що значно знижує витрати на висновок порівняно з щільними моделями того ж розміру. На трьох стандартних тестах Nucleus-Image показав результати, що дорівнюють або перевищують закриті лідерські моделі: оцінка GenEval — 0,87, що збігається з моделлю зображення Qwen; підпункт просторового розташування — 0,85, найвищий серед усіх порівнюваних моделей; оцінка DPG-Bench — 88,79, перше місце за загальним рейтингом; оцінка OneIG-Bench — 0,522, що перевищує Google Imagen4 (0,515) та Recraft V3 (0,502). Усі ці результати отримані лише за рахунок попереднього навчання без DPO, підсиленого навчання чи налаштування за людськими перевагами. Офіційно Nucleus AI заявляє, що це «перша повністю відкрита MoE-модель розсіювання такого рівня якості». Набір даних для навчання був зібраний з мережі у великих обсягах, пройшов кілька етапів фільтрації, видалення дублікатів та оцінки естетики, в результаті залишилося 700 мільйонів зображень та сформовано 1,5 мільярда текстово-зображенних пар. Навчання проводилося у три етапи — від роздільної здатності 256 до 1024 — загалом 1,7 мільйона кроків. Текстовий кодувальник — Qwen3-VL-8B-Instruct, викликається через бібліотеку diffusers, із вбудованим кешем текстових KV на всіх кроках зменшення шуму, що додатково знижує витрати на висновок. Для розробників, яким потрібно розгорнути генерацію зображень локально, дизайн з 17 млрд параметрів, але активними лише 2 млрд, робить можливим запуск на споживчих GPU. Повне відкриття (ваги + код навчання + набір даних) є досить рідкісним — багато відкритих моделей зображень публікують лише ваги, а набори даних та деталі навчання залишаються закритими, що є одним із основних обмежень для відтворюваності досліджень у сфері генерації зображень за текстом. (Джерело: BlockBeats)