Чи у вас залишилося враження про генерацію зображень з тексту, як у Nano Banana?
Але дитино, час змінився.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160
На початку квітня на платформі оцінки LM Arena з’явилися три анонімні імідж-моделі з кодовими іменами maskingtape-alpha, packingtape-alpha, gaffertape-alpha. Через кілька годин вони зникли.
Офіційно OpenAI ще не оголосила про цю модель, але на основі метаданих, що повертаються через API, та результатів тестування користувачами, вона вже отримала широко прийняту назву: GPT Image 2.

Скріншоти більше не можуть слугувати доказами
Протягом останніх кількох років однією з найбільш помітних слабких сторін моделей генерації зображень на основі ШІ були тексти на зображеннях. У епоху DALL-E 3, якщо ви просили її написати «Hello» на зображенні, ви отримували можливо «Hellp» або навіть «Hl10» — літери виглядали як п’яні, хиталися в усі боки. GPT Image 1 значно покращив це і вміє обробляти прості англійські написи. До GPT Image 1.5 точність відтворення англійського тексту наблизилася до 95%, але він все ще має помітні недоліки при роботі з китайською, японською, корейською та іншими не латинськими системами письма.
Але витік зразків зображення GPT Image 2 змінив це враження.


@MrLarus https://x.com/MrLarus/status/2044824800909054181


@akokoi1 https://x.com/akokoi1/status/2044789531615056175
Текст на зображенні має бути саме тим, що має бути. Китайський текст чіткий, шрифти точні, лінії повністю завершені. Хтось протестував створення зображення, подібного до посвідчення особи: ім’я, адреса, номер документа — все правильно відображено, розміщення відповідає стандартам, на перший погляд схоже на фотографію справжнього документа.

Це чудова новина. Покращення відтворення тексту означає, що створення інфографік, плакатів, упаковки продуктів та складних типографічних діаграм стало більш надійним.
Але у кожної монети є інша сторона. Модель, яка може генерувати зображення документів у вигляді фальшивок та точно відтворювати знімки екрану інтерфейсу, робить твердження «знімки екрану можуть слугувати доказами» все більш підозрілим.
Порівнюючи це, саме це є ключовою відмінністю між серією GPT Image та іншими моделями. Midjourney досі не досягла успіхів у відтворенні тексту, а серія Stable Diffusion стикається з тими ж старими проблемами. Згідно з утеклими результатами тестування Arena, GPT Image 2 перевершує Midjourney у чотирьох аспектах: відтворенні тексту, виконанні інструкцій, реалізмі фотографій та світових знаннях, тоді як переваги Midjourney зберігаються переважно в художньому стилі та контролі естетики.

Чи дійсно він знає, як виглядає цей світ?
Тестувальник попросив модель згенерувати фіктивну сторінку ціноутворення GPT-8, і в результаті зображення мали стиль офіційного сайту OpenAI, розташування кнопок та вибір шрифтів схожі на реальні інтерфейси, а рівнева логіка таблиці цін була правильною.

GPT Image 2 може генерувати зображення, дуже схожі на реальні інтерфейси програм, включаючи вікна браузерів, інтерфейси мобільних додатків та діаграми візуалізації даних — рівень відповідності непорівнянно вищий, ніж у попередньої версії.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758
Це дасть кілька дуже цікавих практичних застосувань. Під час створення прототипів продуктів дизайнерам не потрібно спочатку відкривати Figma та малювати купу рамок — достатньо просто описати бажаний інтерфейс текстом, і отримаєш зображення, яке можна використовувати для обговорення з командою. Під час створення інвесторського презентаційного матеріалу не потрібно чекати, поки розробники напишуть код, щоб показати «скріншот продукту». Під час написання документації приклади інтерфейсів для ілюстрацій можна генерувати безпосередньо, не витрачаючи часу на пошук скріншотів.



@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597
Ця справа з генерацією зображень вже не просто «генерація зображень»
OpenAI оголосила, що DALL-E 2 і DALL-E 3 будуть офіційно припинені 12 травня 2026 року. DALL-E 3 на Azure OpenAI вже був виведений з експлуатації у лютому.
DALL-E — це місце, де багато людей вперше зустрілися з AI-генерацією зображень, і від тих нечітких ранніх робіт до сьогодні минуло лише кілька років.
Тим часом, Google, який лише на початку 2026 року встановив свою позицію на ринку завдяки Nano Banana Pro, може відчути тиск. Ранні тести показали, що GPT Image 2 одночасно перевершив Nano Banana Pro за трьома параметрами: реалізм, відтворення тексту та світові знання — така тріумфальна серія зустрічається рідко.
Для творців це складне відчуття. Ілюстратори, графічні дизайнери, фотографи вже не вперше стикаються з цією темою. З моменту запуску GPT Image кількість вакансій для фрілансерів-графічних дизайнерів зменшилася приблизно на 18%. AI справді замінив рішення «Я хочу найняти когось, щоб зробити це» у певних сценаріях, але він також створює нові способи роботи, які дозволяють одній особі робити більше.
Швидкість еволюції моделей генерації зображень вже не залишає багато часу на адаптацію. GPT Image 1 від запуску до 1.5 зайняв лише кілька місяців. Від 1.5 до 2 — приблизно півроку. Кожне покоління вирішує ключові недоліки попереднього, одночасно відкриваючи нові можливості.
GPT Image 2 наразі перебуває на етапі A/B-тестування, і деяким користувачам ChatGPT випадково надано доступ. Офіційний запуск, як очікується, відбудеться у травні, приблизно в той самий час, коли DALL-E буде виведений з експлуатації. Щоб отримати доступ раніше, зараз можна спробувати утиліту оцінки LM Arena.

Тестовий адрес: https://arena.ai
Згідно з відгуками спільноти та відомими перевагами цієї моделі, наступний шаблон підказок максимально збільшить ваші шанси на успіх:
UI/скріншот: фотографічно реалістичний скріншот додатка банківського сервісу на телефоні, чітко видно історію транзакцій, де дата, сума та назва продавця добре читаються. Екран iPhone 16, природний спосіб тримання телефону, фон — кав’ярня.
Підпис до продукту: Фотографія високої якості пляшки місцевого пива, чітко видно етикетку з назвою пивоварні «Oakridge Brewing Co.», вміст алкоголю 6,8%, логотип гір, та список інгредієнтів. Світлення в студії, білий тло.
Підказка зображення: фотографія вуличного пейзажу вночі в Токіо, на якій видно численні двомовні неонові вивіски японською та англійською мовами, включаючи вивіску лапшевої крамниці з написом «Ichiban Ramen — Est. 1987», вивіску караоке-бару та різні світлі рекламні щити. На мокрому від дощу тротуарі відбиваються світла.
Підказка щодо інтерфейсу/світових знань: фотографічно реалістичний знімок відео з YouTube, що показує відео під назвою «Як зібрати комп’ютер у 2026 році» з 2,3 мільйонами переглядів, з реалістичним коментарями, бічною панеллю рекомендованих відео та інформацією про канал. Вигляд настільного браузера.
Підказка для широкого екрану: Це кінематографічне фото у форматі 16:9, що зображує зовнішній вигляд магазину IKEA вночі, з підсвіченим логотипом IKEA, реалістичними автомобілями на парковці та покупцями, що входять і виходять. Освітлення «золотої години».
Джерело зображення та посилання не вказані: https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide
Цей матеріал зі сторінки WeChat «APPSO», автор: Відкриття продуктів завтрашнього дня
