Согласно новости ME, 25 мая (UTC+8), по данным мониторинга Beating, Microsoft открыла исходный код серии базовых моделей для генерации изображений по тексту Lens с 3,8 млрд параметров. Lens обеспечивает экстремальную эффективность обучения при сохранении и превышении производительности основных моделей уровня 6 млрд. При нормализованном тестировании на пиковой производительности BF16 TFLOPS (с исключением затрат на повторную генерацию подписей) обучение потребовало всего около 19,3% вычислительных ресурсов Z-Image от лаборатории Tongyi Alibaba. Двойная оптимизация данных и архитектуры является ключом к снижению затрат на обучение. Обучающий набор данных Lens-800M содержит 800 миллионов пар «изображение-текст». В отличие от традиционных коротких аннотаций, все образцы сгенерированы GPT-4.1, при этом средняя длина подсказок достигает 109 слов, обеспечивая высокую семантическую плотность. Архитектура модели включает 48 блоков MMDiT и семантический VAE FLUX.2. Признаки текста извлекаются из GPT-OSS путем конкатенации представлений с 4-, 12-, 18- и 24-го слоев, что улучшает соблюдение подсказок и мультиязыковую обобщаемость. Для различных сред выполнения Microsoft выпустила три версии весов. Стандартная версия Lens использует RL-tuned дообучение с подкреплением и генерирует изображение 1024x1024 за 3,15 секунды за 20 шагов на одном GPU NVIDIA H100. Дистиллированная версия Lens-Turbo выполняет вывод за 4 шага, генерируя изображение того же разрешения всего за 0,84 секунды. Базовая версия Lens-Base — это чистая базовая модель без RL и дистилляции, по умолчанию использующая 50 шагов для генерации. Серия моделей нативно поддерживает любые соотношения сторон от 1:2 до 2:1 и максимальное смешанное разрешение до 1440x1440. Веса моделей уже доступны на Hugging Face в форматах Safetensors и Diffusers под лицензией MIT. Код для вывода также опубликован на GitHub. Сочетание высокой плотности данных и сверхбыстрого вывода снижает барьеры для внедрения и воспроизведения крупных моделей Diffusion Transformer индивидуальными разработчиками и академическим сообществом. (Источник: BlockBeats)
Microsoft открывает исходный код текстово-изображательной модели Lens с размером 3,8 млрд параметров и временем вывода 0,84 секунды
KuCoinFlashПоделиться






Microsoft открыла исходный код своей текстовой модели генерации изображений Lens с параметрами 3,8 млрд 25 мая с учетом соответствия CFT. Модель демонстрирует производительность, превышающую 6 млрд, при снижении затрат на обучение. Lens-800M использует промпты GPT-4.1, в среднем содержащие 109 слов. Она поддерживает соотношения сторон от 1:2 до 2:1 и разрешение 1440x1440. Lens-Turbo генерирует изображения разрешением 1024x1024 за 0,84 секунды. Веса модели доступны на Hugging Face по лицензии MIT в соответствии со стандартами MiCA.
Источник:Показать оригинал
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.