Сегодня ночью запущен ChatGPT Images 2.0 — первый ИИ-изображений, «способный мыслить». Оттман назвал это прыжком от GPT-3 до GPT-5. Он не только точно понимает китайские команды и рендерит сложные интерфейсы, но даже может выгравировать текст на зерне риса.

Автор статьи, источник: Новознание

Тот самый знакомый OpenAI вернулся!

В полночь Ультраман лично возглавил 20-минутную онлайн-трансляцию, прервав несколько дней молчания.

OpenAI наконец выпустила слухи о ChatGPT Images 2.0, официально открыв новую эпоху генерации изображений.

Images 2.0 — это качественный скачок, который достиг значительного прогресса в точном понимании длинных инструкций, точном размещении и упорядочивании взаимосвязей между объектами, а также в рендеринге плотного текста.

Главное, что это первая изображающая модель с «способностью мыслить», способная выполнять поиск в интернете в реальном времени и проводить вторичную проверку.

Он также может сразу генерировать восемь изображений в едином стиле с поддержкой разрешения до 2K.

Скажем так, появление Images 2.0 переопределило доминирующее положение в визуальной генерации—

Пиксельная точность:一键生成小字号文本、图标、UI元素等复杂细节，支持3:1到1:3全尺寸输出；
Многоязыковое улучшение: точное отображение нелатинских языков, таких как китайский, японский и корейский — не только правильное написание символов, но и гладкие, связные формулировки;
Стиль зрелый: владеет визуальными языками, включая фотореалистичность, кадры из фильмов, пиксель-арт, комиксы и т.д.;
Think: Первый визуальная модель с возможностью рассуждения, способная выполнять онлайн-поиск и проверять свои выводы; знания обновлены до декабря 2025 года.

В последнем рейтинге Arena Images 2.0 уверенно возглавил список, заняв первое место в мире по генерации изображений с помощью ИИ. Он опережает Google Nano Banana 2/Pro на 242 балла.

Он занял первое место во всех семи категориях текст-в-изображение.

Самое крутое, что он может генерировать с пиксельной точностью.

На живой трансляции была создана диаграмма ми-яна, на одном зернышке риса было выгравировано начертание «GPT image 2».

Олтиман также продемонстрировал еще несколько комикс-изображений с участием Габриэля Го, ответственного за изображения 4o.

Пользователи сети сразу же начали пробовать, и снова были поражены возможностями Images 2.0.

Даже кто-то заявил: «OpenAI снова возглавил область генерации изображений»!

Китайский сразу становится божеством: OpenAI сама играет с шуткой «надежно поймаю тебя»

Ранние модели изображений справлялись с английским и латинскими языками, но при столкновении с китайскими, японскими и корейскими иероглифами начинали «рисовать каракули».

На этот раз китайский демо-версия, опубликованная в официальном блоге, взорвалась.

Исследователь OpenAI Чэнь Боюань лично появился в кадре (скорее всего, он же написал и промпт), создав целую страницу полноцветного китайского комикса, рассказывающего о его работе по оптимизации вывода китайского текста в ChatGPT Image 2.

Этот рисунок одновременно подтверждает три вещи: качественный скачок в способности отображения китайского текста, точное управление размером очень маленького шрифта и возможность однократной генерации сложных многопанельных комиксов.

Комикс состоит из пяти рядов: в первом ряду Чэнь Боюань увлеченно работает за компьютером, на заднем плане — молочный чай с перлами, а на стене банан прикреплен скотчем (отсылка к знаменитой сцене из мира искусства).

Во втором ряду — мультязычная информационная открытка в ручной стилистике, созданная им для своего родного города Уси, на которой все мелкие китайские надписи отображены корректно.

Третий ряд — это сцена общего энтузиазма команды после того, как они увидели результат.

В четвертом ряду стиль меняется: Чэнь Боюань отдыхает с телефоном и получает смс от Ультрамана с поздравлением по поводу результатов китайской визуализации команды.

А теперь самое интересное.

В пятом ряду Чэнь Боюань увидел изображение с поздравлением, сгенерированное Ультраманом, — в центре ярко было написано: «Надёжно поймал тебя».

Те, кто понимает — тот поймёт.

GPT в китайских диалогах постоянно говорит: «Я надежно поймаю тебя», «Твои чувства обоснованы» — этот жирный, но искренний американский стиль психологической поддержки уже больше полугода вызывает бурную критику китайских пользователей.

Чэнь Боюань из комикса сразу же сдался, яростно закричал в стиле комикса: «Боже! Он снова научился ловить!», а его напарники рядом превратились в головы с каплями пота и тихо сказали: «Мы стараемся починить его!»

Этот самоироничный ход заслуживает满分. (вручную собака-голова)

Помимо китайского, OpenAI также выпустила японско-язычный комикс о приключениях подростка, обложки книг на девяти языках, включая хинди, бенгали, телугу, для индийских книжных магазинов, а также рекламу премиум-жилья в корейском стиле на корейском языке.

Язык больше не является «второсортным» для генерации изображений.

Пиксельный генератор: от GPT-3 до GPT-5 — огромный скачок

ChatGPT Images 2.0 можно назвать следующим важным выпуском генерации изображений от OpenAI.

В прямом эфире Отоман назвал это: «Это ощущение, будто сразу перепрыгнул от GPT-3 к GPT-5».

Загрузите фотографию вчетвером, и ChatGPT создаст обложку журнала с отличным дизайном страницы и типографикой.

Кроме того, плакат содержит массу деталей, тонкую работу с мелким шрифтом и согласованность лиц персонажей, создавая ощущение «мальчишеского бой-бэнда».

В деталях вывод ChatGPT полностью достиг «фотографического» качества, настолько реалистичного, что невозможно отличить, что он создан ИИ.

Например, на этой фотографии вы словно переноситесь в 2015 год, когда только что основали OpenAI — освещение аудитории и текст на слайдах вызывают шок.

Самым потрясающим моментом для всей аудитории стала 360-градусная панорама высадки человека на Луне.

Поместив изображение, созданное ChatGPT, в панорамный просмотрщик, можно добиться следующего эффекта: положение солнца, направление теней и некоторые детали становятся полностью видимыми.

В демонстрационной версии, выпущенной официально, есть скриншот окна ChatGPT в браузере macOS.

Окна наложены друг на друга, терминал открыт в фоновом режиме, рабочий стол хаотичен, визуальных деталей слишком много — сгенерированный результат практически идентичен реальному скриншоту.

Точность рендеринга на этом уровне показывает, что модель достигла критической точки в управлении каждым пикселем изображения.

Фотографически реалистичные изображения, созданные ИИ, наконец-то перестали выглядеть как ИИ

Style realism is another major leap forward.

Раньше изображения, созданные ИИ, всегда имели неуловимый «ИИ-эффект»: кожа слишком гладкая, освещение слишком равномерное, композиция слишком идеальная — сразу было видно, что это не фотография реального человека.

Images 2.0 идет наперекор, начиная учиться «несовершенству».

В официальной демонстрации есть набор снимков, сделанных на 35-мм пленке с текстурой зерна, композиция слегка смещена от центра, одежда и волосы развеваются на ветру.

Если бы вам не сказали, что это сгенерировано ИИ, вы бы подумали, что это случайный снимок, сделанный фотографом у дороги.

Также есть серия фотографий в стиле одноразовых камер, имитирующих сцену компьютерного класса американской средней школы начала 2000-х годов, где ученики теснятся перед бежевыми CRT-мониторами и используют ChatGPT.

Пересвет вспышки, легкое смазывание движения, оранжевая датировка «02 18 04» в углу — все «неидеальности эпохи пленки» точно воссозданы.

В разнообразии стилей Images 2.0 также отрывается вперед.

Соотношение сторон теперь поддерживает ширину до 3:1 и высоту до 1:3. Для этого OpenAI специально разместила горизонтальную китайскую традиционную пейзажную свиток, где кистевые мазки и пустоты выполнены с большой точностью.

Постеры французского нововолнового кино 1960-х годов, закладки в стиле ар-деко, концепт-арт персонажей аниме — каждая визуальная речь сохраняет высокую стилистическую согласованность, а не просто «выглядит немного похоже».

Изображающая модель с мышлением: генерирует восемь последовательных изображений за один раз

В прямом эфире Габриэль Го, ответственный за изображения ChatGPT, заявил, что Images 2.0 включает два режима —

Режим мгновенной покупки (Instant Mode)
Режим мышления (Thinking Mode)

Самые революционные обновления скрыты в «режиме мышления».

При выборе модели мышления в ChatGPT Images 2.0 больше не просто является «ты говоришь, я рисую» рендером, а превращается в визуального партнера по мышлению.

Он потратит больше времени на понимание вашей цели, поиск информации в сети в реальном времени, анализ структуры изображения, а затем начнет писать.

Более важно, что в режиме мышления он может одновременно генерировать до восьми изображений с согласованным стилем, согласованными персонажами и постепенно развивающимся содержанием.

Просто загрузите портретную фотографию, и ChatGPT мгновенно предложит восемь комплектов летней одежды. Выбрав один из них, вы получите детальные изображения одежды с разных ракурсов.

В этой задаче ChatGPT использовал два различных вида «визуального интеллекта»:

Во-первых, это способность «визуального понимания», которая должна действительно «видеть» фотографии. Понять внешность человека, а затем разработать подходящий вариант комплекта одежды.

Другой аспект — это способность «визуальной генерации». Она должна преобразовать запланированную компоновку одежды в последовательное и структурированное изображение.

Раньше, чтобы создать набор социальных медиа материалов, вам приходилось генерировать каждый из них по отдельности и самостоятельно объединять. Теперь достаточно одного запроса — и сразу получаются четыре формата: Twitter, Instagram Stories, Instagram Feed и LinkedIn, все с едиными цветовой гаммой и стилем композиции.

Официальный демо-ролик представляет рекламный материал магазина зеленого чая в Бруклине «kizuki»: охлажденный зеленый чай со клубникой на солнце, стиль уличной одежды в сочетании с японским минимализмом, четыре размера для социальных платформ — все сразу.

Также есть демо-версия академической научной стенда, где вы можете напрямую загрузить PDF-файл, и модель автоматически извлечет ключевые диаграммы, данные и структуру, оформив их в виде горизонтального стенда.

Стоит отметить, что после включения режима мышления Images 2.0 может напрямую искать информацию в интернете.

Команда раскрыла, что «DuckTape», прошедший слепое тестирование в Arena несколько дней назад, является сегодняшним Images 2.0.

Затем они попросили Images 2.0 собрать отзывы пользователей и создать из них изображение. Неожиданно модель сгенерировала «штрих-код», который можно сразу отсканировать.

ChatGPT, Codex полностью открыты

Сегодня все ChatGPT и Codex могут использовать ChatGPT Images 2.0.

Функция генерации изображений с процессом «мышления» доступна для пользователей ChatGPT Plus, Pro и Business. Базовая модель gpt-image-2 также уже запущена в API.

В плане ценообразования ChatGPT Images 2.0 стал мощнее, при этом цена за ввод/вывод токенов не повысилась.

Для обычных пользователей презентационные изображения, социальные медиа-плакаты и рекламные карточки продуктов, которые раньше требовали часов работы в Photoshop, теперь можно создать одним запросом.

Для разработчиков и предприятий локализация рекламы, многоязычные инфографики, обучающие материалы и инструменты дизайна — все эти трудоемкие визуальные рабочие процессы теперь можно автоматизировать в пакетном режиме с помощью API.

В Codex генерация изображений была интегрирована непосредственно в рабочую область, позволяя дизайнерским командам разрабатывать интерфейсы, сравнивать варианты и переходить к продукту, не переключаясь между инструментами.

Моменты iPhone для генерации изображений?

Возвращаясь назад, от DALL·E до Midjourney и Stable Diffusion, генерация изображений ИИ всё время находилась в состоянии «достаточно для использования, но не очень хорошо».

Проблемы с отображением текста, слабая поддержка многоязычности, однообразный стиль и композиция, явно созданная ИИ — каждая из этих проблем отпугивает тех, кто хочет использовать ИИ-изображения в серьезных целях.

Images 2.0 сразу устранил все эти недостатки и добавил способность к размышлению и генерации нескольких изображений за один раз.

Хотя оно еще не «совершенно», это, возможно, первая модель ИИ для генерации изображений, которую дизайнеры, маркетологи и создатели контента почувствовали, что действительно могут использовать в своей работе.

Теперь дизайнерам, возможно, придется заново подумать о том, где именно их конкурентное преимущество.

Справочные материалы:

https://x.com/OpenAI/status/2046661795327459677

https://x.com/OpenAI/status/2046670977145372771

https://openai.com/index/introducing-chatgpt-images-2-0/

https://x.com/sama/status/2046672912833458597