Microsoft відкрила код 3,8-мільярдної моделі перетворення тексту в зображення Lens з часом виведення 0,84 секунди

iconKuCoinFlash
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Microsoft відкрила код свого текстово-зображення моделі Lens з 3,8 мільярда параметрів 25 травня, враховуючи вимоги CFT. Модель досягає продуктивності 6+ мільярдів параметрів, одночасно зменшуючи витрати на навчання. Lens-800M використовує промпти GPT-4.1, у середньому 109 слів. Підтримує співвідношення 1:2 до 2:1 та роздільну здатність 1440x1440. Lens-Turbo генерує зображення 1024x1024 за 0,84 секунди. Ваги доступні на Hugging Face за ліцензією MIT, що відповідає стандартам MiCA.

Новини ME, 25 травня (UTC+8): За даними моніторингу Beating, Microsoft відкрила код серії базових моделей генерації зображення з тексту з 3,8 мільярдами параметрів під назвою Lens. Зберігаючи та перевищуючи продуктивність основних моделей рівня 6 млрд параметрів, Lens досягла екстремальної ефективності навчання. У тестах на нормалізовану пікову продуктивність BF16 TFLOPS (з виключенням витрат на повторну генерацію підписів) навчання споживало лише приблизно 19,3% обчислювальних ресурсів Z-Image від лабораторії Tongyi Alibaba. Двократна оптимізація даних та архітектури є ключовим фактором зниження витрат на навчання. Навчальний набір даних Lens-800M містить 800 мільйонів пар зображення-текст. На відміну від традиційних коротких текстових анотацій, усі зразки були згенеровані GPT-4.1, середня довжина запитів становить 109 слів, що забезпечує високу семантичну щільність інформації. Архітектура моделі використовує 48 блоків MMDiT та FLUX.2 семантичний VAE. Текстові ознаки походять з GPT-OSS і поєднуються шляхом з’єднання ознак із 4-, 12-, 18- та 24-го шарів, що покращує виконання запитів та багатомовну узагальнення. Для різних середовищ виконання Microsoft опублікувала три версії ваг. Стандартна версія Lens використовує RL-tuned підлаштування за допомогою підсиленого навчання: для генерації зображення розміром 1024x1024 на одній NVIDIA H100 GPU потрібно 20 кроків і 3,15 секунди. Дистильована швидка версія Lens-Turbo виконує висновування за 4 кроки, генеруючи зображення того ж розміру лише за 0,84 секунди. Базова версія Lens-Base — це чиста базова модель без RL та дистиляції, яка за замовчуванням виконує генерацію за 50 кроків. Серія моделей нативно підтримує будь-які співвідношення сторін від 1:2 до 2:1 та максимальну змішану роздільну здатність до 1440x1440. Ваги моделей вже доступні на Hugging Face у форматах Safetensors та Diffusers за ліцензією MIT. Код для висновування також синхронно розміщено на GitHub. Поєднання високої щільності даних і швидкого висновування знижує бар’єри для індивідуальних розробників та академічного середовища щодо розгортання та відтворення великих моделей Diffusion Transformer. (Джерело: BlockBeats)

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.