GPT Image 2 fuité : les images générées par l'IA imitent désormais des documents et captures d'écran réels

Votre impression de la génération d'images à partir de texte est-elle encore figée à Nano Banana ?

Mais enfant, l'époque a changé.

GPT Image 2

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

GPT Image 2

@0115hippo https://x.com/0115hippo/status/2044722124611539160

Au début du mois d'avril, trois modèles d'images anonymes sont apparus sur la plateforme d'évaluation LM Arena, sous les codes maskingtape-alpha, packingtape-alpha et gaffertape-alpha. Ils ont disparu quelques heures plus tard.

OpenAI n'a pas encore officiellement annoncé ce modèle, mais selon les métadonnées renvoyées par l'API et les enregistrements de tests effectués par les utilisateurs, il possède déjà un nom largement accepté : GPT Image 2.

GPT Image 2

Les captures d'écran ne peuvent plus servir de preuve.

Au cours des dernières années, l’un des principaux défauts des modèles de génération d’images par IA a été le texte dans les images. À l’époque de DALL-E 3, si vous lui demandiez d’écrire « Hello » dans l’image, vous obteniez peut-être « Hellp » ou même « Hl10 », avec des lettres qui semblaient ivres et mal alignées. GPT Image 1 a beaucoup amélioré cela, étant capable de gérer des étiquettes en anglais simples. Avec GPT Image 1.5, la précision de la rendu du texte anglais approche désormais 95 %, mais des défauts persistants subsistent pour les langues non latines telles que le chinois, le japonais et le coréen.

Mais les images fuitées de GPT Image 2 ont changé cette impression.

GPT Image 2

@MrLarus https://x.com/MrLarus/status/2044824800909054181

GPT Image 2

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

Le texte dans l'image doit être exactement ce qu'il est. Le chinois est clair, les caractères sont précis et les traits complets. Quelqu'un a testé la génération d'une image au format carte d'identité, avec le nom, l'adresse et le numéro de pièce d'identité correctement rendus, une mise en page ordonnée, et qui ressemble à première vue à une photo de document réel.

GPT Image 2

C'est une bonne nouvelle. Les progrès dans le rendu du texte signifient que la génération d'infographies, d'affiches, d'emballages de produits et de graphiques à mise en page complexe est désormais plus fiable.

Mais chaque pièce a deux côtés. Un modèle capable de générer des images de documents d'identité trompeuses et de rendre avec précision des captures d'écran d'interfaces rend de plus en plus douteuse l'idée que « les captures d'écran peuvent servir de preuve ».

En comparaison, c’est là que réside la différence fondamentale entre la série GPT Image et les autres modèles. Midjourney n’a toujours pas fait de progrès dans la rendu du texte, et la série Stable Diffusion souffre des mêmes problèmes anciens. Selon les résultats fuités du test Arena, GPT Image 2 surpasse Midjourney dans quatre dimensions : le rendu du texte, le suivi des instructions, le réalisme photographique et les connaissances du monde. Les forces de ce dernier restent principalement concentrées sur les styles artistiques et le contrôle esthétique.

GPT Image 2

Does it really know what this world looks like?

Un testeur a demandé au modèle de générer une page de tarification fictive pour GPT-8 ; l’image produite respecte effectivement le style du site officiel d’OpenAI, avec des boutons et des polices semblant provenir d’une interface réelle, et une hiérarchie logique des prix correcte.

GPT Image 2

GPT Image 2 peut générer des images extrêmement similaires à des interfaces logicielles réelles, y compris des fenêtres de navigateur, des interfaces d'applications mobiles et des graphiques de visualisation de données, avec une fidélité inégalée par la génération précédente.

GPT Image 2

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

GPT Image 2

@levelsio https://x.com/levelsio/status/2040333489476681758

Cela ouvrira la voie à de nombreuses applications pratiques intéressantes. Lors de la création de prototypes de produits, les designers n'auront plus besoin d'ouvrir Figma pour dessiner une série de cadres ; ils pourront simplement décrire par texte l'interface souhaitée, et obtenir directement une image de référence prête à être discutée avec l'équipe. Lors de la préparation de présentations pour les investisseurs, il ne sera plus nécessaire d'attendre que les ingénieurs écrivent le code pour afficher un « screenshot de produit ». Lors de la rédaction de documents, les exemples d'interfaces à inclure comme illustrations pourront être générés directement, sans avoir à se demander d'où trouver des captures d'écran.

GPT Image 2

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

Le fait de générer des images n'est plus seulement « générer des images »

OpenAI a annoncé que DALL-E 2 et DALL-E 3 seront officiellement mis hors service le 12 mai 2026. DALL-E 3 sur Azure OpenAI a déjà été retiré en février.

DALL-E a été le point de départ pour beaucoup dans la découverte de la génération d'images par IA, en seulement quelques années depuis les premières œuvres floues.

Dans le même temps, Google, qui vient tout juste d'établir sa position sur le marché au début de 2026 avec le Nano Banana Pro, pourrait ressentir une pression. Les rapports de tests initiaux indiquent que GPT Image 2 surpasse le Nano Banana Pro simultanément sur trois critères : réalisme, rendu du texte et connaissance du monde — une triple victoire peu courante.

Pour les créateurs, les sentiments sont complexes. Illustrateurs, graphistes et photographes ne sont pas confrontés à ce sujet pour la première fois. Depuis le lancement de GPT Image 1, le nombre de postes de graphisme indépendant a diminué d’environ 18 %. L’IA remplace effectivement, dans certains cas, la décision « Je dois embaucher quelqu’un pour faire cela », mais elle crée également de nouvelles façons de travailler, permettant à une personne de accomplir davantage.

La vitesse d'évolution des modèles d'images génératives ne laisse plus beaucoup de temps pour s'adapter. De la version 1 à la 1.5 de GPT Image, il n'y a eu que quelques mois. De la 1.5 à la 2, environ six mois. Chaque génération résout les principaux défauts de la précédente tout en ouvrant de nouvelles possibilités.

GPT Image 2 est actuellement en phase de test A/B, et certains utilisateurs de ChatGPT ont déjà reçu un accès aléatoire. La fenêtre de publication officielle est généralement prévue autour de mai, à l'approche du retrait de DALL-E. Pour une expérience anticipée, vous pouvez essayer votre chance sur la plateforme d'évaluation LM Arena.

GPT Image 2

Adresse de test : https://arena.ai

Sur la base des retours de la communauté et des avantages connus de ce modèle, le modèle de prompt suivant peut maximiser vos chances de succès :

UI / Capture d’écran : Une capture d’écran photo-réaliste d’une application bancaire sur téléphone, montrant clairement les relevés de transactions avec les dates, montants et noms des commerçants lisibles. Écran d’iPhone 16, tenu naturellement à la main, avec un fond de café.

Indication d’étiquette produit : une photo réaliste d’une bouteille de bière artisanale, avec des détails d’étiquette nets, affichant le nom de la brasserie « Oakridge Brewing Co. », un titre alcoolique de 6,8 %, un symbole de montagnes et la liste des ingrédients. Éclairage en studio, fond blanc.

Indication d’image : Une scène de rue nocturne à Tokyo, montrant plusieurs enseignes néon bilingues japonais-anglais, notamment une enseigne de restaurant de ramen portant « Ichiban Ramen — Est. 1987 », une enseigne de bar karaoke et diverses publicités lumineuses. Les trottoirs humides après la pluie reflètent les lumières.

Interface / Knowledge of the world prompt : Une capture d’écran photo-réaliste d’une vidéo YouTube intitulée « Comment assembler un ordinateur en 2026 », avec 2,3 millions de vues, accompagnée d’une zone de commentaires réaliste, de vidéos recommandées sur la barre latérale et des informations de chaîne. Vue navigateur de bureau.

Notification écran large : Il s'agit d'une photo au format cinématographique 16:9, capturant l'extérieur d'un magasin IKEA au crépuscule, avec l'enseigne IKEA lumineuse, des voitures réalistes dans le parking et des clients entrant et sortant. Éclairage de l'heure dorée.

Source d'image et référence non indiquées : https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

Cet article provient du compte officiel WeChat « APPSO », auteur : Découvrez les produits de demain