GPT Image 2が漏洩：AI生成画像が実際の文書やスクリーンショットを模倣し始めている

あなたは画像生成の印象をまだNano Bananaのままにしていますか？

でも子供、時代はまた変わった。

GPT Image 2

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

GPT Image 2

@0115hippo https://x.com/0115hippo/status/2044722124611539160

4月上旬、LM Arena評価プラットフォームに、maskingtape-alpha、packingtape-alpha、gaffertape-alphaという3つの匿名画像モデルが登場した。数時間後にそれらは消えた。

OpenAIはまだこのモデルを公式に発表していませんが、APIから返されるメタデータとユーザー側のテスト記録によると、このモデルは広く「GPT Image 2」として認識されています。

GPT Image 2

スクリーンショットはもはや証拠にはならない

過去数年間、AI画像生成モデルの最も顕著な欠点の1つは、画像内のテキストだった。DALL-E 3の時代には、「Hello」と書くように指示しても、「Hellp」や「Hl10」のように、文字が酔ったように歪んで出ることがあった。GPT Image 1では大幅に改善され、簡単な英語ラベルを処理できるようになった。GPT Image 1.5では、英語テキストのレンダリング精度が95％近くまで向上したが、中国語、日本語、韓国語などの非ラテン文字体系では依然として明確な欠陥が残っている。

しかし、GPT Image 2の漏洩したサンプル画像がこの印象を変えた。

GPT Image 2

@MrLarus https://x.com/MrLarus/status/2044824800909054181

GPT Image 2

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

画像内の文字は、あるべきままに表示される。中国語は明確で、文字形が正確で、筆画が完全に描かれている。誰かが身分証明書の様式の画像を生成したところ、名前、住所、証明書番号がすべて正しくレンダリングされ、レイアウトも整っており、見た目は本物の書類の写真のように見える。

GPT Image 2

これは良いニュースです。文字のレンダリングの進歩により、インフォグラフィック、ポスター、製品パッケージ、複雑なタイポグラフィのチャートの生成がより信頼性を増しました。

しかし、硬貨には常に裏面があります。偽物のように本物に見える証明書のスタイル画像や、UIスクリーンショットを正確にレンダリングできるモデルは、「スクリーンショットは証拠として使える」という考えをますます疑わしくしています。

比較すると、これはGPT Imageシリーズと他のモデルの核心的な差異でもあります。Midjourneyはいまだに文字のレンダリングで何の進展も見せておらず、Stable Diffusionシリーズも従来の課題を抱えています。漏洩したArenaテスト結果によると、GPT Image 2は文字のレンダリング、指示の順守、写真のリアルさ、世界知識の4つの観点でいずれもMidjourneyを上回っています。Midjourneyの優位性は主にアートスタイルと美的制御に留まっています。

GPT Image 2

それは本当にこの世界がどのような姿をしているのか知っているのだろうか

テスト担当者がモデルに仮想のGPT-8製品価格ページを生成させたところ、レイアウトはOpenAI公式サイトのスタイルに一致し、ボタンの位置やフォントの選択は実際のインターフェースから取得したかのように見え、価格テーブルの階層構造も正確であった。

GPT Image 2

GPT Image 2は、ブラウザーウィンドウ、モバイルアプリのインターフェース、データ可視化チャートなど、リアルなソフトウェアインターフェースと非常に似た画像を生成できます。その忠実度は、前世代の製品とは比較にならないレベルです。

GPT Image 2

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

GPT Image 2

@levelsio https://x.com/levelsio/status/2040333489476681758

これはいくつかの興味深い実用性をもたらします。デザイナーがプロトタイプを作成する際、Figmaを開いてフレームをたくさん描く必要がなく、単に望むインターフェースを文字で記述するだけで、チームと議論できる参照画像が生成されます。投資家向けデッキを作成する際、エンジニアがコードを書くのを待たずに「製品スクリーンショット」を表示できます。ドキュメント作成時には、例として使用するインターフェース画像を直接生成でき、スクリーンショットをどこから探すかを空のページに向かって考える必要がありません。

GPT Image 2

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

生图という行為は、もはや「生图」だけではありません

OpenAIは、DALL-E 2およびDALL-E 3のサービスを2026年5月12日に正式に終了すると発表しました。Azure OpenAIのDALL-E 3はすでに2月に早期にサービスを終了しています。

DALL-Eは、多くの人がAI画像生成に初めて触れる場所であり、あいまいな初期の作品から今日に至るまで、たった数年で進化した。

一方で、2026年初頭でようやくNano Banana Proにより業界の地位を確立したGoogleは、圧力を感じる可能性がある。早期のテストレポートによると、GPT Image 2はリアリズム、テキストレンダリング、世界知識の3つの観点でNano Banana Proを同時に上回っており、このような3連勝はめったにない。

クリエイターにとって、この感情は複雑です。イラストレーター、グラフィックデザイナー、写真家は、この話題に直面するのは初めてではありません。GPT Image 1のリリース以来、フリーランスのグラフィックデザイン職の数は約18%減少しました。AIは特定のシナリオで「この仕事を誰かに依頼しよう」という判断を置き換えてきましたが、同時に、一人でできることが増える新たな働き方も生み出しています。

生画像モデルの進化速度は、もはや十分な適応時間を与えてくれない。GPT Image 1がリリースされてから1.5まで、たった数ヶ月だった。1.5から2まで、およそ半年。各世代は前世代の核心的な課題を解決しつつ、新たな可能性を開いている。

GPT Image 2 は現在 A/B テスト段階にあり、一部の ChatGPT ユーザーにランダムにアクセス権が付与されています。正式リリースの時期は、一般的に 5 月の DALL-E の退役前後と予測されています。早期体験を希望される方は、現在 LM Arena 評価プラットフォームで試すことができます。

GPT Image 2

テストアドレス：https://arena.ai

コミュニティのフィードバックとこのモデルの既知の利点に基づき、以下のプロンプトテンプレートを使用することで、成功の確率を最大限に高めることができます：

UI/スクリーンショットのヒント：写真級のリアリズムで描かれたモバイルバンキングアプリのスクリーンショット。日付、金額、 merchant 名が明確に読み取れる取引履歴が表示されている。iPhone 16 の画面、自然に手に持ったスマートフォン、カフェの背景。

製品ラベルのヒント：写真級のクラフトビール瓶の製品写真。ラベルの細部が明確に見え、醸造所名「Oakridge Brewing Co.」、アルコール度数6.8%、山のマーク、および原材料リストが表示されています。店内照明で、白い背景。

アイコンヒント：東京の夜の路地風景の写真。「Ichiban Ramen — Est. 1987」と書かれたラーメン店のネオンサイン、カラオケバーのサイン、さまざまな発光する広告ボードが見られます。雨上がりの湿った歩道に光が映っています。

インターフェース/世界知識のヒント：「2026年におけるパソコンの組み立て方」というタイトルの動画の、写真級にリアルなYouTubeスクリーンショット。動画の再生回数は230万回で、リアルなコメント欄、サイドバーのおすすめ動画、チャンネル情報が表示されています。デスクトップブラウザ表示。

ワイドスクリーントリガー：この写真は、夕暮れ時のイケア店舗の外観を映した映画のようなワイドスクリーン画像で、発光するイケアの看板、リアルな車が停まっている駐車場、出入りする買い物客が描かれています。ゴールデンアワーの照明、アスペクト比16:9。

画像の出典および参考文献は未記載です：https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

本文は微信公众号「APPSO」より、著者：明日の製品を発見