GPT Image 2 утек: AI-сгенерированные изображения теперь имитируют реальные документы и скриншоты

Вы всё ещё думаете о генерации изображений по тексту как о Nano Banana?

Но, ребенок, времена снова изменились.

GPT Image 2

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

GPT Image 2

@0115hippo https://x.com/0115hippo/status/2044722124611539160

В начале апреля на платформе оценки LM Arena появились три анонимные текстовые модели с кодовыми названиями maskingtape-alpha, packingtape-alpha и gaffertape-alpha. Через несколько часов они исчезли.

Официальный OpenAI еще не объявил об этом модели, но на основе метаданных, возвращаемых API, и тестовых данных с пользовательской стороны, у нее уже появилось широко признанное название: GPT Image 2.

GPT Image 2

Скриншоты больше не могут служить доказательством

За последние несколько лет одним из самых очевидных недостатков моделей генерации изображений на основе ИИ было отображение текста на изображениях. В эпоху DALL-E 3, если вы просили её написать «Hello» на изображении, результатом могло быть «Hellp» или даже «Hl10» — буквы выглядели так, будто были пьяными. GPT Image 1 значительно улучшил ситуацию и теперь может корректно обрабатывать простые английские надписи. К GPT Image 1.5 точность воспроизведения английского текста приблизилась к 95%, однако остаются явные недостатки при работе с китайским, японским, корейским и другими не латинскими алфавитами.

А утечка образцов изображений GPT Image 2 изменила это впечатление.

GPT Image 2

@MrLarus https://x.com/MrLarus/status/2044824800909054181

GPT Image 2

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

Текст на изображении должен быть таким, какой он есть. Китайский текст четкий, шрифт точный, штрихи полные. Некто протестировал генерацию изображения, имитирующего удостоверение личности: имя, адрес и номер документа были корректно отображены, макет аккуратный, на первый взгляд кажется фотографией настоящего документа.

GPT Image 2

Это отличная новость. Прогресс в обработке текста означает, что создание инфографики, плакатов, упаковки продуктов и сложных по компоновке диаграмм стало более надежным.

Но у каждой монеты есть две стороны. Модель, способная генерировать изображения документов, неотличимых от подлинных, и точно воспроизводить скриншоты интерфейса, делает все более сомнительным утверждение, что «скриншоты могут служить доказательством».

Сравнивая это, можно увидеть, в чем заключается ключевое различие между серией GPT Image и другими моделями. Midjourney до сих пор не добился успехов в рендеринге текста, а серия Stable Diffusion также сталкивается со старыми проблемами. Согласно утекшим результатам тестов Arena, GPT Image 2 превосходит Midjourney по четырем параметрам: рендерингу текста, выполнению инструкций, фотореализму и мировым знаниям, тогда как преимущества Midjourney сохраняются в основном в области художественного стиля и эстетического контроля.

GPT Image 2

Он действительно знает, как выглядит этот мир?

Тестировщик попросил модель сгенерировать гипотетическую страницу ценообразования для GPT-8, и в результате изображение имело стиль официального сайта OpenAI: расположение кнопок и выбор шрифтов выглядели как будто скопированные с реального интерфейса, а иерархия ценовой таблицы была логически корректной.

GPT Image 2

GPT Image 2 может генерировать изображения, крайне похожие на реальные интерфейсы программного обеспечения, включая окна браузеров, интерфейсы мобильных приложений и графики визуализации данных — уровень детализации непревзойден по сравнению с предыдущим поколением.

GPT Image 2

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

GPT Image 2

@levelsio https://x.com/levelsio/status/2040333489476681758

Это откроет множество интересных практических применений. При создании прототипов продуктов дизайнерам не нужно сначала открывать Figma и рисовать множество макетов — достаточно описать желаемый интерфейс текстом, и система сразу сгенерирует изображение, которое можно использовать для обсуждения с командой. При подготовке презентаций для инвесторов не придется ждать, пока инженеры напишут код, чтобы показать «скриншот продукта». При написании документации примеры интерфейсов для иллюстраций можно генерировать прямо на месте, не тратя время на поиск подходящих скриншотов.

GPT Image 2

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

Создание изображений уже стало не просто «созданием изображений»

OpenAI объявила, что службы DALL-E 2 и DALL-E 3 будут официально прекращены 12 мая 2026 года. DALL-E 3 на Azure OpenAI уже был отключен в феврале.

DALL-E стал местом, где многие впервые столкнулись с генерацией изображений с помощью ИИ, и всего за несколько лет от тех расплывчатых ранних работ до сегодняшнего дня.

В то же время Google, которая лишь в начале 2026 года укрепила свою позицию в отрасли с помощью Nano Banana Pro, возможно, почувствует давление. Результаты ранних тестов показывают, что GPT Image 2 превосходит Nano Banana Pro одновременно по трем параметрам — реализму, рендерингу текста и знаниям о мире; такая победа в трех дисциплинах встречается редко.

Для создателей чувства сложны. Иллюстраторы, графические дизайнеры, фотографы уже не впервые сталкиваются с этой темой. С момента выпуска GPT Image 1 количество вакансий для фрилансеров-графических дизайнеров сократилось примерно на 18%. ИИ действительно заменяет решение «я найму человека, чтобы сделать это» в некоторых сценариях, но он также создает новые способы работы, расширяя возможности одного человека.

Эволюция моделей генерации изображений уже не оставляет много времени на адаптацию. От запуска GPT Image 1 до версии 1.5 прошло всего несколько месяцев. От 1.5 до 2 — примерно полгода. Каждое поколение устраняет ключевые недостатки предыдущего и открывает новые возможности.

GPT Image 2 пока находится в стадии A/B-тестирования, и некоторым пользователям ChatGPT случайным образом уже предоставлен доступ. Ожидается, что официальный выпуск состоится в мае, примерно во время вывода из эксплуатации DALL-E. Чтобы попробовать его заранее, вы можете попытать удачи на платформе оценки LM Arena.

GPT Image 2

Тестовый адрес: https://arena.ai

Согласно обратной связи сообщества и известным преимуществам этой модели, следующий шаблон подсказок максимизирует ваши шансы на успех:

UI/скриншот: фотографически реалистичный скриншот банковского приложения на телефоне, четко показывающий историю транзакций, где дата, сумма и название продавца хорошо различимы. Экран iPhone 16, естественно удерживаемый телефон, фон — кофейня.

Подсказка к продукту: Фотография бутылки с пивом в стиле фотorealism, детали этикетки четко видны, указано название пивоварни «Oakridge Brewing Co.», крепость 6,8%, горный логотип и список ингредиентов. Студийное освещение, белый фон.

Подсказка по идентификации: фотография уличного пейзажа ночного токийского переулка, на которой видны многочисленные неоновые вывески на японском и английском языках, включая вывеску лапшевой «Ichiban Ramen — Est. 1987», вывеску караоке-бара и различные светящиеся рекламные щиты. На мокрой после дождя тротуарной плитке отражаются огни.

Подсказка по интерфейсу/миру: фотографически реалистичный скриншот видео YouTube, показывающий видео под названием «Как собрать компьютер в 2026 году» с 2,3 миллиона просмотров, с реалистичной секцией комментариев, рекомендованными видео на боковой панели и информацией о канале. Вид для настольного браузера.

Подсказка для широкого экрана: Это фотография в кинематографическом широкоформатном стиле, запечатлевшая внешний вид магазина IKEA на закате, с подсвеченной вывеской IKEA, реалистичными автомобилями на парковке и покупателями, входящими и выходящими из магазина. Свет золотого часа, формат 16:9.

Источник изображения и ссылки не указаны: https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

Эта статья с официального аккаунта WeChat «APPSO», автор: Обнаружение продуктов завтрашнего дня