ME News, 16 квітня (UTC+8), за даними Beating, команда Nucleus AI випустила модель генерації зображення за текстом Nucleus-Image, одночасно відкрила ваги моделі, код навчання та набір даних для навчання з ліцензією Apache 2.0, що дозволяє комерційне використання. Модель використовує архітектуру розсіяного трансформера з розрідженими мішаними експертами (MoE), загальна кількість параметрів — 17 млрд, розподілених по 64 маршрутизуючих експертах на шар, під час висновку активується лише близько 2 млрд параметрів, що значно знижує витрати на висновок порівняно з щільними моделями того ж розміру. На трьох стандартних тестах Nucleus-Image показав результати, що дорівнюють або перевищують закриті лідерські моделі: оцінка GenEval — 0,87, що збігається з моделлю зображення Qwen; підпункт просторового розташування — 0,85, найвищий серед усіх порівнюваних моделей; оцінка DPG-Bench — 88,79, перше місце за загальним рейтингом; оцінка OneIG-Bench — 0,522, що перевищує Google Imagen4 (0,515) та Recraft V3 (0,502). Усі ці результати отримані лише за рахунок попереднього навчання без DPO, підсиленого навчання чи налаштування за людськими перевагами. Офіційно Nucleus AI заявляє, що це «перша повністю відкрита MoE-модель розсіювання такого рівня якості». Набір даних для навчання був зібраний з мережі у великих обсягах, пройшов кілька етапів фільтрації, видалення дублікатів та оцінки естетики, в результаті залишилося 700 мільйонів зображень та сформовано 1,5 мільярда текстово-зображенних пар. Навчання проводилося у три етапи — від роздільної здатності 256 до 1024 — загалом 1,7 мільйона кроків. Текстовий кодувальник — Qwen3-VL-8B-Instruct, викликається через бібліотеку diffusers, із вбудованим кешем текстових KV на всіх кроках зменшення шуму, що додатково знижує витрати на висновок. Для розробників, яким потрібно розгорнути генерацію зображень локально, дизайн з 17 млрд параметрів, але активними лише 2 млрд, робить можливим запуск на споживчих GPU. Повне відкриття (ваги + код навчання + набір даних) є досить рідкісним — багато відкритих моделей зображень публікують лише ваги, а набори даних та деталі навчання залишаються закритими, що є одним із основних обмежень для відтворюваності досліджень у сфері генерації зображень за текстом. (Джерело: BlockBeats)
Nucleus-Image відкрито з 17 мільярдами параметрів, 2 мільярди активовано під час висновку
KuCoinFlashПоділитися






16 квітня (UTC+8) Nucleus AI відкрила код моделі Nucleus-Image за ліцензією Apache 2.0. Модель, створена на основі MetaEra, має розріджений MoE diffusion transformer з 17 млрд параметрів, але під час висновку активними є лише 2 млрд, що зменшує витрати. Вона перевершила або зрівнялася з найкращими закритими моделями на трьох тестах без додаткового навчання. Цей крок відповідає зростаючому інтересу до активів з високим ризиком та зусиллям CFT на глобальних криптовалютних ринках.
Джерело:Показати оригінал
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації.
Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.