Microsoft открывает исходный код текстово-изображательной модели Lens с размером 3,8 млрд параметров и временем вывода 0,84 секунды

Согласно новости ME, 25 мая (UTC+8), по данным мониторинга Beating, Microsoft открыла исходный код серии базовых моделей для генерации изображений по тексту Lens с 3,8 млрд параметров. Lens обеспечивает экстремальную эффективность обучения при сохранении и превышении производительности основных моделей уровня 6 млрд. При нормализованном тестировании на пиковой производительности BF16 TFLOPS (с исключением затрат на повторную генерацию подписей) обучение потребовало всего около 19,3% вычислительных ресурсов Z-Image от лаборатории Tongyi Alibaba. Двойная оптимизация данных и архитектуры является ключом к снижению затрат на обучение. Обучающий набор данных Lens-800M содержит 800 миллионов пар «изображение-текст». В отличие от традиционных коротких аннотаций, все образцы сгенерированы GPT-4.1, при этом средняя длина подсказок достигает 109 слов, обеспечивая высокую семантическую плотность. Архитектура модели включает 48 блоков MMDiT и семантический VAE FLUX.2. Признаки текста извлекаются из GPT-OSS путем конкатенации представлений с 4-, 12-, 18- и 24-го слоев, что улучшает соблюдение подсказок и мультиязыковую обобщаемость. Для различных сред выполнения Microsoft выпустила три версии весов. Стандартная версия Lens использует RL-tuned дообучение с подкреплением и генерирует изображение 1024x1024 за 3,15 секунды за 20 шагов на одном GPU NVIDIA H100. Дистиллированная версия Lens-Turbo выполняет вывод за 4 шага, генерируя изображение того же разрешения всего за 0,84 секунды. Базовая версия Lens-Base — это чистая базовая модель без RL и дистилляции, по умолчанию использующая 50 шагов для генерации. Серия моделей нативно поддерживает любые соотношения сторон от 1:2 до 2:1 и максимальное смешанное разрешение до 1440x1440. Веса моделей уже доступны на Hugging Face в форматах Safetensors и Diffusers под лицензией MIT. Код для вывода также опубликован на GitHub. Сочетание высокой плотности данных и сверхбыстрого вывода снижает барьеры для внедрения и воспроизведения крупных моделей Diffusion Transformer индивидуальными разработчиками и академическим сообществом. (Источник: BlockBeats)