Microsoft відкрила код 3,8-мільярдної моделі перетворення тексту в зображення Lens з часом виведення 0,84 секунди

Новини ME, 25 травня (UTC+8): За даними моніторингу Beating, Microsoft відкрила код серії базових моделей генерації зображення з тексту з 3,8 мільярдами параметрів під назвою Lens. Зберігаючи та перевищуючи продуктивність основних моделей рівня 6 млрд параметрів, Lens досягла екстремальної ефективності навчання. У тестах на нормалізовану пікову продуктивність BF16 TFLOPS (з виключенням витрат на повторну генерацію підписів) навчання споживало лише приблизно 19,3% обчислювальних ресурсів Z-Image від лабораторії Tongyi Alibaba. Двократна оптимізація даних та архітектури є ключовим фактором зниження витрат на навчання. Навчальний набір даних Lens-800M містить 800 мільйонів пар зображення-текст. На відміну від традиційних коротких текстових анотацій, усі зразки були згенеровані GPT-4.1, середня довжина запитів становить 109 слів, що забезпечує високу семантичну щільність інформації. Архітектура моделі використовує 48 блоків MMDiT та FLUX.2 семантичний VAE. Текстові ознаки походять з GPT-OSS і поєднуються шляхом з’єднання ознак із 4-, 12-, 18- та 24-го шарів, що покращує виконання запитів та багатомовну узагальнення. Для різних середовищ виконання Microsoft опублікувала три версії ваг. Стандартна версія Lens використовує RL-tuned підлаштування за допомогою підсиленого навчання: для генерації зображення розміром 1024x1024 на одній NVIDIA H100 GPU потрібно 20 кроків і 3,15 секунди. Дистильована швидка версія Lens-Turbo виконує висновування за 4 кроки, генеруючи зображення того ж розміру лише за 0,84 секунди. Базова версія Lens-Base — це чиста базова модель без RL та дистиляції, яка за замовчуванням виконує генерацію за 50 кроків. Серія моделей нативно підтримує будь-які співвідношення сторін від 1:2 до 2:1 та максимальну змішану роздільну здатність до 1440x1440. Ваги моделей вже доступні на Hugging Face у форматах Safetensors та Diffusers за ліцензією MIT. Код для висновування також синхронно розміщено на GitHub. Поєднання високої щільності даних і швидкого висновування знижує бар’єри для індивідуальних розробників та академічного середовища щодо розгортання та відтворення великих моделей Diffusion Transformer. (Джерело: BlockBeats)