你對文生圖的印象還停留在 Nano Banana 嗎?
可是孩子,時代又變了。

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160
4 月初,LM Arena 評測平台上出現了三個匿名圖像模型,代號分別為 maskingtape-alpha、packingtape-alpha、gaffertape-alpha。幾小時後它們消失了。
OpenAI 官方尚未正式宣布此模型,但根據 API 傳回的元資料和用戶端的測試記錄,它已獲得一個廣泛接受的名字:GPT Image 2。

截圖已不能再當作證據
過去幾年,AI 生圖模型最明顯的短板之一就是圖片裡的文字。在 DALL-E 3 時代,你讓它在圖裡寫「Hello」,出來的可能是「Hellp」甚至「Hl10」,字母像喝醉了一樣東倒西歪。GPT Image 1 好了很多,能處理簡單的英文標籤。到 GPT Image 1.5,其對英文文字的渲染準確率已經接近 95%,但在中文、日文、韓文等非拉丁字母體系上仍有明顯缺陷。
而 GPT Image 2 的洩露樣圖改變了這個印象。


@MrLarus https://x.com/MrLarus/status/2044824800909054181


@akokoi1 https://x.com/akokoi1/status/2044789531615056175
圖片裡的文字,該是什麼就是什麼。中文清晰,字形準確,筆畫完整。有人測試生成一張身份證樣式的圖片,姓名、地址、證件號碼全部正確渲染,排版規整,初看像是真實文件的照片。

這是個好消息。文字渲染的進步,意味著生成資訊圖、海報、產品包裝、排版複雜的圖表都變得更可靠了。
但硬幣總有另一面。一個能生成以假亂真的證件樣式圖、精確渲染 UI 截圖的模型,自然也讓「截圖可以作為證據」這件事變得越來越可疑。
Comparatively, this is also the core difference between the GPT Image series and other models. Midjourney has yet to make any progress in text rendering, and the Stable Diffusion series continues to suffer from the same old issues. According to the leaked Arena test results, GPT Image 2 outperforms Midjourney in four aspects: text rendering, instruction following, photo realism, and world knowledge, while Midjourney’s advantages remain primarily in artistic style and aesthetic control.

它真的知道這個世界長什麼樣嗎
有測試者讓模型生成一個假想的 GPT-8 產品定價頁面,結果出來的圖,排版確實是 OpenAI 官網的風格,按鈕位置和字體選用像是從真實介面截取的,價格表格的層級邏輯也是對的。

GPT Image 2 能生成與真實軟體介面極為相似的圖像,包括瀏覽器視窗、行動端應用介面、數據可視化圖表,保真度是上一代產品無法比擬的。

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758
這將帶來一些非常實用的實際應用。設計師在製作產品原型時,無需先打開 Figma 繪製一堆框架,只需用文字描述想要的介面,即可直接生成一張可供團隊討論的參考圖。製作投資人簡報時,無需等待工程師編寫代碼,即可展示一張「產品截圖」。撰寫文件時,用於配圖的示例介面可直接生成,無需面對空白頁面苦思截圖該從何處取得。



@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597
生圖這件事,已經不只是「生圖」了
OpenAI 已宣布 DALL-E 2 和 DALL-E 3 將於 2026 年 5 月 12 日正式停止服務。Azure OpenAI 的 DALL-E 3 已於 2 月提前退役。
DALL-E 是許多人第一次接觸 AI 生圖的地方,從那些模糊的早期作品到今天,僅僅過了幾年。
Meanwhile, Google, which only recently established its industry position at the beginning of 2026 with the Nano Banana Pro, may feel pressure. Early test reports show that GPT Image 2 outperforms Nano Banana Pro simultaneously in realism, text rendering, and world knowledge—a three-way victory is uncommon.
對於創作者來說,感受是複雜的。插畫師、平面設計師、攝影師早已不是第一次面對這個話題。自 GPT Image 1 發布以來,自由職業平面設計職位數量下降了約 18%。AI 在某些情境下確實取代了「我要雇一個人做這件事」的決策,但它也創造了新的工作方式,讓一個人能做的事變多了。
生圖模型的進化速度,已不再給人留下太多適應時間。GPT Image 1 從上線到 1.5,不過幾個月。1.5 到 2,大概也就半年。每一代都在解決上一代的核心短板,同時打開新的可能性。
GPT Image 2 目前仍處於 A/B 測試階段,部分 ChatGPT 用戶已隨機獲得存取權限。普遍預期正式發布的時間窗口將在 5 月 DALL-E 停用前後。若想提前體驗,目前可於 LM Arena 評測平台碰碰運氣。

測試地址:https://arena.ai
根據社區反饋和該模型的已知優勢,以下提示模板可以最大限度地提高你的成功機率:
UI/截圖提示:一張照片級逼真的手機銀行應用截圖,清晰顯示交易記錄,其中日期、金額和商戶名稱清晰可辨。iPhone 16 屏幕,自然手持手機,咖啡店背景。
產品標籤提示:一張照片級精釀啤酒瓶產品照片,標籤細節清晰,顯示酒廠名稱「Oakridge Brewing Co.」,酒精度 6.8%,山脈標誌及配料表。棚內布光,白色背景。
標識提示:一張東京夜間巷道的街景照片,可見多處中英雙語霓虹燈招牌,包括寫有「Ichiban Ramen — Est. 1987」的拉麵店招牌、卡拉 OK 酒吧招牌以及各種發光的廣告牌。雨後濕滑的人行道上映著燈光。
介面/世界知識提示:一張照片級真實的 YouTube 影片截圖,展示了一段名為「如何在 2026 年組裝電腦」的影片,該影片擁有 230 萬次觀看,配有逼真的評論區、側邊欄推薦影片以及頻道資訊。桌面瀏覽器視圖。
寬屏觸發提示:這是一張電影般的寬銀幕照片,拍攝了宜家門店黃昏時分的外觀,展示了發光的宜家招牌、停車場裡有逼真的汽車,以及進進出出的購物者。黃金時刻燈光,格式 16:9。
未標註圖片來源及參考:https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide
本文來自微信公眾號「APPSO」,作者:發現明日產品
