Apakah kesan Anda tentang text-to-image masih tertinggal di Nano Banana?
Tapi anakku, zaman sudah berubah.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160
Pada awal April, tiga model gambar anonim muncul di platform evaluasi LM Arena, dengan kode maskingtape-alpha, packingtape-alpha, dan gaffertape-alpha. Beberapa jam kemudian, mereka menghilang.
OpenAI belum secara resmi mengumumkan model ini, tetapi berdasarkan metadata yang dikembalikan oleh API dan catatan pengujian di sisi pengguna, model ini telah memiliki nama yang diterima luas: GPT Image 2.

Screenshot tidak lagi bisa dijadikan bukti
Dalam beberapa tahun terakhir, salah satu kelemahan paling jelas dari model generasi gambar AI adalah teks dalam gambar. Di era DALL-E 3, jika Anda meminta gambar dengan teks "Hello", hasilnya mungkin "Hellp" atau bahkan "Hl10", dengan huruf-hurufnya miring dan tak beraturan seolah mabuk. GPT Image 1 jauh lebih baik dan mampu menangani label bahasa Inggris sederhana. Pada GPT Image 1.5, akurasi render teks bahasa Inggris telah mendekati 95%, tetapi masih memiliki kelemahan nyata dalam menangani bahasa non-Latin seperti Cina, Jepang, dan Korea.
Namun, sampel gambar yang bocor dari GPT Image 2 mengubah kesan ini.


@MrLarus https://x.com/MrLarus/status/2044824800909054181


@akokoi1 https://x.com/akokoi1/status/2044789531615056175
Teks dalam gambar, apa adanya. Teks Cina jelas, bentuk huruf akurat, garis-garis kuas lengkap. Seseorang menguji menghasilkan gambar berformat KTP, nama, alamat, dan nomor dokumen semuanya dirender dengan benar, tata letak rapi, terlihat seperti foto dokumen asli saat dilihat sekilas.

Ini adalah kabar baik. Kemajuan dalam rendering teks berarti pembuatan infografis, poster, kemasan produk, dan grafik dengan tata letak kompleks menjadi lebih andal.
Tapi setiap koin selalu memiliki dua sisi. Model yang dapat menghasilkan gambar format dokumen palsu yang sangat mirip asli dan merender tangkapan layar UI secara akurat membuat gagasan bahwa "tangkapan layar dapat dijadikan bukti" menjadi semakin diragukan.
Dibandingkan dengan itu, ini juga merupakan perbedaan utama antara seri GPT Image dan model-model lainnya. Midjourney hingga kini belum berhasil dalam rendering teks, dan seri Stable Diffusion juga menghadapi masalah lama. Berdasarkan hasil uji Arena yang bocor, GPT Image 2 unggul di empat aspek: rendering teks, pengikutan instruksi, realisme foto, dan pengetahuan dunia, dibandingkan Midjourney, yang keunggulannya tetap terbatas pada gaya seni dan kontrol estetika.

Apakah ia benar-benar tahu seperti apa dunia ini?
Seorang tester meminta model untuk menghasilkan halaman penetapan harga produk GPT-8 fiktif, dan gambar yang dihasilkan memiliki tata letak yang sesuai dengan gaya situs web resmi OpenAI, posisi tombol dan pemilihan font tampak seperti diambil dari antarmuka asli, serta hierarki logis tabel harga juga benar.

GPT Image 2 dapat menghasilkan gambar yang sangat mirip dengan antarmuka perangkat lunak asli, termasuk jendela browser, antarmuka aplikasi seluler, dan grafik visualisasi data, dengan tingkat keakuratan yang tak sebanding dengan produk generasi sebelumnya.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758
Ini akan membawa beberapa penggunaan praktis yang sangat menarik. Saat desainer membuat prototipe produk, mereka tidak perlu membuka Figma terlebih dahulu untuk menggambar serangkaian kerangka; cukup deskripsikan antarmuka yang diinginkan dengan teks, dan hasilnya akan langsung menjadi gambar referensi yang bisa digunakan untuk diskusi dengan tim. Saat membuat Deck investor, Anda tidak perlu menunggu insinyur menulis kode untuk menampilkan "screenshot produk". Saat menulis dokumentasi, contoh antarmuka yang digunakan sebagai ilustrasi dapat langsung dihasilkan, tanpa perlu memikirkan dari mana mencari screenshot.



@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597
Hal membuat gambar, sekarang bukan lagi sekadar "membuat gambar"
OpenAI telah mengumumkan bahwa DALL-E 2 dan DALL-E 3 akan secara resmi dihentikan pada 12 Mei 2026. DALL-E 3 di Azure OpenAI telah ditarik lebih awal pada Februari.
DALL-E adalah tempat pertama kali banyak orang mengenal AI menghasilkan gambar, hanya dalam beberapa tahun sejak karya-karya awal yang kabur hingga sekarang.
Sementara itu, Google, yang baru saja memperkuat posisinya di industri awal 2026 dengan Nano Banana Pro, mungkin akan merasakan tekanan. Laporan pengujian awal menunjukkan bahwa GPT Image 2 secara bersamaan mengungguli Nano Banana Pro dalam tiga aspek: realisme, render teks, dan pengetahuan dunia—kemenangan tiga berturut-turut seperti ini tidak umum.
Bagi para kreator, perasaannya kompleks. Ilustrator, desainer grafis, dan fotografer sudah bukan pertama kalinya menghadapi topik ini. Sejak peluncuran GPT Image 1, jumlah lowongan desain grafis freelance turun sekitar 18%. AI memang benar-benar menggantikan keputusan "Saya akan menyewa seseorang untuk melakukan ini" dalam beberapa skenario, tetapi AI juga menciptakan cara kerja baru yang memungkinkan satu orang bisa melakukan lebih banyak hal.
Kecepatan evolusi model generasi gambar sudah tidak lagi memberi banyak waktu untuk beradaptasi. Dari peluncuran GPT Image 1 hingga versi 1.5, hanya memakan waktu beberapa bulan. Dari 1.5 hingga 2, sekitar enam bulan. Setiap generasi menyelesaikan kelemahan utama generasi sebelumnya sekaligus membuka kemungkinan baru.
GPT Image 2 saat ini masih dalam tahap pengujian A/B, sebagian pengguna ChatGPT telah diberi akses secara acak. Jendela rilis resmi secara umum diprediksi akan terjadi pada Mei, sekitar waktu pensiunnya DALL-E. Jika ingin mencoba lebih awal, saat ini Anda bisa mencoba keberuntungan Anda di platform evaluasi LM Arena.

Alamat Uji: https://arena.ai
Berdasarkan umpan balik komunitas dan keunggulan yang diketahui dari model ini, template petunjuk berikut dapat memaksimalkan peluang keberhasilan Anda:
UI/ screenshot prompt: Sebuah tangkapan layar aplikasi perbankan ponsel yang realistis, menampilkan rekaman transaksi dengan jelas, di mana tanggal, jumlah, dan nama pedagang terlihat jelas. Layar iPhone 16, memegang ponsel secara alami, latar belakang kedai kopi.
Petunjuk label produk: Foto produk botol bir kerajinan fotorealistik, detail label jelas, menampilkan nama pabrik bir «Oakridge Brewing Co.», kadar alkohol 6,8%, simbol gunung, dan daftar bahan. Pencahayaan dalam ruangan, latar belakang putih.
Petunjuk identifikasi: Foto pemandangan jalan malam di Tokyo, menampilkan berbagai papan neon bilingual Jepang-Inggris, termasuk papan nama restoran ramen yang bertuliskan «Ichiban Ramen — Est. 1987», papan nama bar karaoke, serta berbagai papan iklan bercahaya. Jalur pejalan kaki yang licin setelah hujan memantulkan cahaya.
Petunjuk antarmuka/dunia: Tangkapan layar video YouTube yang realistis seperti foto, menampilkan video berjudul "Cara Merakit Komputer pada Tahun 2026" dengan 2,3 juta tayangan, dilengkapi kolom komentar yang realistis, rekomendasi video samping, dan informasi saluran. Tampilan browser desktop.
Prompt layar lebar: Ini adalah foto bergaya film dengan rasio 16:9, menampilkan eksterior toko IKEA saat senja, dengan tanda IKEA yang bersinar, mobil-mobil realistis di tempat parkir, serta pembeli yang datang dan pergi. Cahaya golden hour.
Sumber gambar dan referensi tidak ditandai: https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide
Artikel ini berasal dari akun WeChat "APPSO", penulis: Menemukan produk masa depan
