GPT Image 2 filtrado: Las imágenes generadas por IA ahora imitan documentos y capturas de pantalla reales

¿Aún tienes la impresión de que la generación de imágenes por texto se limita a Nano Banana?

Pero hijo, la época ha cambiado.

GPT Image 2

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

GPT Image 2

@0115hippo https://x.com/0115hippo/status/2044722124611539160

A principios de abril, tres modelos de imagen anónimos aparecieron en la plataforma de evaluación LM Arena, con los códigos maskingtape-alpha, packingtape-alpha y gaffertape-alpha. Desaparecieron unas horas después.

OpenAI aún no ha anunciado oficialmente este modelo, pero según los metadatos devueltos por la API y los registros de pruebas realizadas por los usuarios, ya tiene un nombre ampliamente aceptado: GPT Image 2.

GPT Image 2

Las capturas de pantalla ya no pueden servir como prueba

En los últimos años, una de las debilidades más evidentes de los modelos de generación de imágenes con IA ha sido el texto dentro de las imágenes. En la era de DALL-E 3, si le pedías que escribiera «Hello» en la imagen, lo que obtenías podía ser «Hellp» o incluso «Hl10», con letras tambaleantes como si estuvieran borrachas. GPT Image 1 mejoró mucho y puede manejar etiquetas en inglés simples. Con GPT Image 1.5, la precisión en la renderización del texto en inglés ya alcanza casi el 95%, pero aún presenta deficiencias claras en idiomas no latinos como el chino, japonés y coreano.

Pero las imágenes filtradas de GPT Image 2 cambiaron esta impresión.

GPT Image 2

@MrLarus https://x.com/MrLarus/status/2044824800909054181

GPT Image 2

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

El texto en la imagen debe ser exactamente lo que es. El chino es claro, con formas de caracteres precisas y trazos completos. Alguien probó generar una imagen con el estilo de una identificación oficial, y todos los campos —nombre, dirección, número de identificación— se renderizaron correctamente, con una disposición ordenada, pareciendo al principio una foto de un documento real.

GPT Image 2

Es una buena noticia. Los avances en el renderizado de texto significan que generar infografías, carteles, envases de productos y gráficos con tipografía compleja son ahora más confiables.

Pero toda moneda tiene dos caras. Un modelo capaz de generar imágenes de documentos falsificados con alta fidelidad y renderizar capturas de pantalla de interfaces con precisión hace que la idea de que "las capturas de pantalla pueden servir como prueba" se vuelva cada vez más sospechosa.

En comparación, esta es la diferencia clave entre la serie GPT Image y otros modelos. Midjourney aún no ha logrado avances en la renderización de texto, y la serie Stable Diffusion sigue enfrentando los mismos problemas antiguos. Según los resultados filtrados de la prueba Arena, GPT Image 2 supera a Midjourney en cuatro dimensiones: renderización de texto, seguimiento de instrucciones, realismo fotográfico y conocimiento del mundo; las ventajas de este último se mantienen principalmente en el estilo artístico y el control estético.

GPT Image 2

¿Realmente sabe cómo es este mundo?

Un probador pidió al modelo que generara una página de precios ficticia para GPT-8, y la imagen resultante tenía una disposición que imitaba exactamente el estilo del sitio web oficial de OpenAI, con la ubicación de los botones y la selección de fuentes que parecían haberse tomado de una interfaz real, además de una jerarquía lógica correcta en la tabla de precios.

GPT Image 2

GPT Image 2 puede generar imágenes extremadamente similares a interfaces de software reales, incluyendo ventanas de navegador, interfaces de aplicaciones móviles y gráficos de visualización de datos, con una fidelidad incomparable con la generación anterior.

GPT Image 2

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

GPT Image 2

@levelsio https://x.com/levelsio/status/2040333489476681758

Esto traerá algunos usos prácticos muy interesantes. Cuando los diseñadores crean prototipos de productos, no necesitan abrir primero Figma y dibujar una serie de marcos; simplemente describen con texto la interfaz que desean, y se genera automáticamente una imagen de referencia para discutirla con el equipo. Al preparar presentaciones para inversores, no necesitan esperar a que los ingenieros escriban código para mostrar un "screenshot del producto". Al redactar documentación, pueden generar directamente las interfaces de ejemplo para ilustrarlas, sin tener que quedarse mirando una página en blanco preguntándose dónde encontrar capturas de pantalla.

GPT Image 2

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

Lo de generar imágenes ya no es solo «generar imágenes»

OpenAI ha anunciado que DALL-E 2 y DALL-E 3 dejarán de ofrecerse oficialmente el 12 de mayo de 2026. DALL-E 3 en Azure OpenAI ya fue retirado en febrero.

DALL-E fue el primer lugar donde muchas personas se encontraron con la generación de imágenes con IA, y desde esas primeras obras borrosas hasta hoy, han pasado solo unos pocos años.

Al mismo tiempo, Google, que recién estableció su posición en la industria a principios de 2026 con el Nano Banana Pro, podría sentir presión. Los informes de pruebas iniciales muestran que GPT Image 2 supera al Nano Banana Pro simultáneamente en tres aspectos: realismo, renderizado de texto y conocimiento del mundo; esta triple victoria no es común.

Para los creadores, los sentimientos son complejos. Ilustradores, diseñadores gráficos y fotógrafos ya no enfrentan este tema por primera vez. Desde el lanzamiento de GPT Image 1, el número de puestos de diseño freelance ha disminuido aproximadamente un 18%. La IA realmente ha reemplazado la decisión de "necesito contratar a alguien para hacer esto" en ciertos escenarios, pero también está creando nuevas formas de trabajo que permiten a una persona hacer más cosas.

La velocidad de evolución de los modelos de generación de imágenes ya no deja mucho tiempo para adaptarse. De GPT Image 1 a 1.5 pasaron solo unos meses. De 1.5 a 2, aproximadamente medio año. Cada generación resuelve las principales limitaciones de la anterior y abre nuevas posibilidades.

GPT Image 2 aún se encuentra en fase de prueba A/B, y algunos usuarios de ChatGPT ya han recibido acceso aleatorio. La ventana de lanzamiento oficial se predice generalmente para mayo, alrededor del retiro de DALL-E. Para experimentarlo con anticipación, actualmente puedes probar suerte en la plataforma de evaluación LM Arena.

GPT Image 2

Dirección de prueba: https://arena.ai

Según el feedback de la comunidad y las ventajas conocidas de este modelo, la siguiente plantilla de indicaciones puede maximizar tus posibilidades de éxito:

UI/captura de pantalla: Una captura de pantalla fotorrealista de una aplicación bancaria móvil, que muestra claramente el historial de transacciones, con fechas, montos y nombres de comerciantes legibles. Pantalla de iPhone 16, sostenida naturalmente, con fondo de cafetería.

Etiqueta del producto: Foto de alta calidad de una botella de cerveza artesanal, con detalles nítidos de la etiqueta que muestran el nombre de la cervecería «Oakridge Brewing Co.», un contenido alcohólico del 6.8%, un logotipo de montañas y la lista de ingredientes. Iluminación en estudio, fondo blanco.

Sugerencia de identificación: Una foto de una escena urbana nocturna en Tokio, que muestra múltiples letreros de neón en japonés e inglés, incluyendo el letrero de una tienda de ramen que dice «Ichiban Ramen — Est. 1987», un letrero de bar de karaoke y varios anuncios luminosos. Los faroles se reflejan en la acera mojada tras la lluvia.

Interfaz / conocimiento del mundo: Captura de pantalla fotorealista de un video de YouTube titulado «Cómo ensamblar una computadora en 2026», con 2.3 millones de visitas, incluyendo una barra de comentarios realista, videos recomendados en la barra lateral y información del canal. Vista de navegador de escritorio.

Prompt de pantalla ancha: Esta es una foto cinematográfica en formato panorámico que muestra la fachada de una tienda IKEA al atardecer, con el letrero iluminado de IKEA, automóviles realistas en el estacionamiento y compradores entrando y saliendo. Iluminación de hora dorada, formato 16:9.

Fuentes de imágenes y referencias no etiquetadas: https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

Este artículo proviene del canal de WeChat "APPSO", autor: Descubrir productos del mañana