Bu gece, ChatGPT Images 2.0, ilk "düşünen" görsel AI olarak piyasaya sürüldü. Otoman, bunun GPT-3'ten GPT-5'e bir sıçrama olduğunu söyledi. Bu sistem, Çince komutları tam olarak anlayabiliyor, karmaşık UI'leri oluşturabiliyor ve hatta pirinç tanesi üzerine yazı yazabiliyor.

Yazan: Yeni Zihin

O tanıdık OpenAI tekrar geri döndü!

Gece yarısı, Ultraman doğrudan liderlik ederek 20 dakikalık çevrimiçi canlı yayın başlattı ve birkaç gündür süren sessizliği kırdı.

OpenAI, söylenen ChatGPT Images 2.0'ı nihayet piyasaya sürdü ve görsel oluşturma konusunda yeni bir dönem başlattı.

Images 2.0, uzun komutları tam olarak anlama, nesneleri doğru şekilde yerleştirme ve aralarındaki ilişkileri netleştirme ile yoğun metin oluşturma konularında büyük bir atılım sunuyor.

En önemlisi, gerçek zamanlı bilgi için internete bağlanabilen ve ikinci bir kontrole sahip olan ilk "düşünebilen" görüntü modelidir.

Aynı anda sekiz, tarz olarak tutarlı resim oluşturabilir ve en yüksek 2K ultra netlik çözünürlüğünü destekler.

Images 2.0'ın ortaya çıkışı, görsel üretimin hakimiyetini yeniden tanımlıyor—

Piksel düzeyinde doğruluk: Küçük boyutlu metinler, simgeler, UI öğeleri gibi karmaşık detayları tek tıkla oluşturun; 3:1'den 1:3'e kadar tam boyutlu çıktı desteğiyle;
Çok dilli dönüşüm: Çince, Japonca, Korece gibi Latin olmayan yazı sistemlerindeki metinler, sadece harfler doğru değil, cümleler de akıcı ve anlamlı şekilde görüntülenir;
Olgun stil: Fotoğrafik gerçekçilik, film kareleri, piksel sanatı, komikler gibi görsel dilleri ustaca yönetir;
Düşünen: Bağlantı kurarak arama yapabilen, çıktılarını kontrol edebilen ve bilgisi Aralık 2025'e kadar güncellenmiş olan ilk akıllı görsel model.

Arena'nın en son sıralamasında Images 2.0, küresel AI görsel üretme tahtında birinci oldu ve Google Nano Banana 2/Pro sürümlerini 242 puanla geride bıraktı.

Bu, tüm yedi resim üretme kategorisinde birinci oldu.

En etkileyeni, piksel düzeyinde üretme yeteneğine sahip olması.

Canlı yayın sırasında oluşturulan bir mişan resminde, bir pirinç tanesine "GPT image 2" fontu kazınmış.

Otaman, 4o görsel sorumlusu Gabriel Goh ile birlikte daha fazla GPU komik resmi sergiledi.

Kullanıcılar, Images 2.0'nın gücünü tekrar etkileyici buldu.

Hatta bazıları, “OpenAI nihayet tekrar görüntü üretme alanını öncülük ediyor!” dedi.

Çince doğrudan tanrısal seviyeye ulaştı: OpenAI kendi kendine alay ediyor “Sakin bir şekilde yakalayacağım”

Geçmişteki görsel modeller, İngilizce ve Latin alfabesi dilleri için iyi performans gösteriyordu, ancak Çince, Japonca ve Korece metinlerle karşılaştığında “şifresiz çizimler” üretmeye başladı.

Bu sefer, resmi blogda paylaşılan Çince demo doğrudan patladı.

OpenAI araştırmacı bilim insanı Chen Boyuan, kendi (muhtemelen kendi yazdığı) prompt’u kullanarak, OpenAI’de ChatGPT Image 2’nin Çince metin işleme optimizasyonu üzerine tam bir Çince renkli manşet çizgi romanı oluşturdu.

Bu resim, Çince metin işleme yeteneğindeki kalitesel değişimi, çok küçük yazı boyutlarındaki hassas kontrolü ve karmaşık çok panelli komiklerin tek seferde oluşturulma yeteneğini aynı anda kanıtlamaktadır.

Manga beş satır halinde; ilk satırda Chen Boyuan bilgisayarın önünde başını eğmiş çalışıyor, arka planda sütlü çay, duvarda bir muz bir bantla yapıştırılmış (sanat dünyasının ünlü sahnesine bir atıf).

İkinci satır, memleketi Wuxi için oluşturduğu çok dilli el yazısı tarzı bilgi panosu posteridir ve üzerindeki yoğun Çince küçük metinler tamamen doğru şekilde işlenmiştir.

Üçüncü sıradaki sahne, takımın etkiyi gördükten sonra birlikte heyecanlandığı anı göstermektedir.

Dördüncü sırada, Chen Boyuan telefonunu alarak dinlenirken, takımın Çince görselleştirme sonuçlarını kutlayan bir Ultraman mesajı alır.

Sonra, ana olay başlıyor.

Beşinci sırada, Chen Boyuan, Ultraman'ın oluşturduğu tebrik resminde ortada "Sizi güvenle yakaladım" yazısını gördü.

Anlayan anlar.

GPT, Çince diyaloglarda sürekli olarak “Sizi güvenle tutarım” veya “Hissedikleriniz mantıklıdır” demektedir; bu yağlı ve samimi Amerikan psikolojik danışmanlık havası, Çinli kullanıcılar tarafından daha önce yedi aydır şiddetle eleştirilmiştir.

Mangada Chen Boyuan hemen bozuldu, manga tarzı bir öfkeyle bağırıyor: “Tanrım! Yine yakalamayı öğrendi!” Yanındaki takım arkadaşları ise kafalarından ter damlatıyor, hafifçe “Onu tamir etmek için çabalıyoruz!” diyorlar.

Bu self-deprecation için tam puan verilebilir. (Elle yapılmış köpek başı)

Çince dışında, OpenAI, günlük Japonca diyaloglara sahip bir gençlik macera çizgi romanı, Hint kitapçılarında Hindi, Bengali, Telugu dahil dokuz dilin kapaklarını içeren kitaplar ve Korece yüksek seviyeli韩屋 konaklama reklamını da yayınladı.

Dil artık görüntü üretiminin "ikinci sınıf vatandaşı" değil.

Piksel düzeyinde üretimi: GPT-3'ten GPT-5'e büyük atlama

ChatGPT Images 2.0, OpenAI'nin görsel üretimi konusundaki bir sonraki dönüm noktası olarak adlandırılabilir.

Canlı yayın sırasında Otomann, bunu "GPT-3'ten doğrudan GPT-5'e sıçramış gibi bir his" olarak tanımladı.

Dört kişilik bir fotoğraf yükleyin, ChatGPT bir dergi kapağı oluşturuyor, sayfa tasarımı ve metin düzenlemesi çok dikkatli.

Ayrıca panoda, küçük yazıların işlenmesi ve karakterlerin yüz ifadelerinin tutarlılığı, bir "erkek grubu" hissi veriyor.

Ayrıntılarda ChatGPT çıktısı tamamen "fotografik" düzeyde bir etki sağlıyor ve AI tarafından üretildiğini fark edilemez kadar gerçekçi.

Örneğin, aşağıdaki resimde 2015 yılında OpenAI kurulduğunda geri dönüyorsunuz, basamaklı sınıfın ışık ortamı ve PPT metni sizi şok ediyor.

Tamamını şaşırtan, insanların Ay'a adım attığını gösteren 360° panoramik bir görüntüydü.

ChatGPT tarafından oluşturulan resimleri panorma görünümüne eklerseniz, güneşin konumu, gölgelerin yönü ve bazı detaylar net bir şekilde görülebilir.

Resmi olarak yayınlanan demo'da, macOS tarayıcısında bir ChatGPT penceresinin ekran görüntüsü yer alıyor.

Pencereler üst üste, terminal arka planda açılıyor, masaüstü düzensiz ve görsel detaylar aşırı derecede fazla, oluşturulan sonuç neredeyse gerçek bir ekran görüntüsüyle tamamen aynı.

Bu düzeydeki render doğruluğu, modelin görüntüdeki her bir piksele olan kontrolünün bir kritik noktayı aştığını gösterir.

Fotoğrafik gerçekçilikteki AI tarafından oluşturulan görüntüler artık AI gibi görünmüyor.

Stil gerçekçiliği başka büyük bir ilerlemedir.

Geçmişte yapay zeka tarafından oluşturulan görüntülerde, cilt çok pürüzsüz, ışık çok düzgün, kompozisyon çok mükemmel olduğu için, gerçek birinin çekmediğini hemen anlayabiliyorduk.

Images 2.0, aksine, "eksiklik" öğrenmeye başlıyor.

Resmi demo'da, 35 mm filmin dokusuyla çekilmiş bir dizi anlık görüntü bulunuyor, taneler görünüyor, kompozisyon hafifçe merkezden sapmış ve giysiler ile saçlar rüzgârda savruluyor.

Bunu bir yapay zeka tarafından üretilmiş olduğunu söylemezsem, bir fotoğrafçının bir yolda yanından rastgele çekim yapmış gibi görürsünüz.

Ayrıca, 2000'lerin başındaki ABD lisesi bilgisayar laboratuvarını simüle eden, öğrencilerin bej CRT ekranların önünde ChatGPT kullanırken yoğunlaştığı bir dizi tek kullanımlık kamera stili fotoğraf da var.

Flaşın aşırı aydınlatması, hafif hareket bulanıklığı, köşede «02 18 04» yazan turuncu tarih damgası; "filmler çağındaki eksiklikler" tümüyle tam olarak yeniden oluşturuldu.

Stil çeşitliliğinde Images 2.0 da fark yaratıyor.

En geniş 3:1 ve en yüksek 1:3 oranları artık desteklenmektedir. Bu amaçla OpenAI, Türkülerin geleneksel uzun sahne manzaralarından birini yatay olarak yayınladı; mürekkep lekeleri ve boşluklar dikkatlice uygulanmıştır.

1960'lu yılların Fransız Yeni Dalga film afişleri, dekoratif sanat tarzı kitap işaretleyicileri, anime karakter tasarımı görselleri; her bir görsel dil, sadece "biraz benzer görünmek" yerine yüksek bir stil tutarlılığı koruyor.

Düşünen bir görsel model, bir seferde sekiz ardışık görüntü oluşturuyor

Canlı yayında ChatGPT Görüntüler sorumlu Gabriel Goh, Images 2.0'ın toplamda iki modu başlatıldığını belirtti—

Anında Mod
Düşünme Modu

En köklü yükseltme, tamamen "Düşünme Modu" içinde saklıdır.

ChatGPT'te düşünme modeli seçildiğinde, Images 2.0 artık yalnızca "söyle, ben çizerim" bir render aracı değil, görsel bir düşünme ortağı haline gelir.

Daha fazla zaman alarak niyetinizi anlayacak, gerçek zamanlı bilgi için interneti arayacak, görüntü yapısını çıkaracak ve ardından yazmaya başlayacaktır.

Daha da önemlisi, düşünme modunda en fazla sekiz adet, tarz olarak tutarlı, karakter olarak tutarlı ve içerik olarak ilerleyen görsel oluşturabilir.

Yalnızca bir yüz fotoğrafı yükleyin, ChatGPT hemen sekiz farklı yazlık kıyafet kombinasyonu önerir. Birini seçtiğinizde, farklı açılardan daha fazla kıyafet detayı oluşturur.

Bu görevde ChatGPT, iki farklı «görsel akıl» çağrıldı:

Öncelikle «Görsel Anlama» yeteneği, fotoğrafları gerçekten «görmek» zorundadır. Bir kişinin görünümünü anlar ve uygun giyim kombinasyonları planlar.

Diğer bir boyut ise «görsel oluşturma» yeteneğidir. Bu, planlanan kıyafet düzenlemesini tutarlı ve düzenli bir resme dönüştürmek gerektirir.

Daha önce sosyal medya malzemeleri oluşturmak için tek tek üretip kendiniz birleştirmeniz gerekirdi. Şimdi bir tek prompt ile Twitter, Instagram Stories, Instagram Feed ve LinkedIn için dört farklı boyutu aynı anda, renk tonu ve kompozisyon stili uyumlu şekilde elde edin.

Resmi demo, Brooklyn'deki bir matcha dükkanı olan "kizuki" için reklam malzemelerini gösteriyor: Güneş altında buz gibi çilekli matcha, sokak giyim estetiği ve Japon minimalizmi bir araya gelmiş, dört sosyal medya boyutu tek adımda hazır.

Bir akademik makale afişinin demo versiyonu daha var; PDF dosyasını doğrudan yükleyin, model otomatik olarak ana grafikleri, verileri ve yapıyı çıkarıp yatay bir afişe düzenler.

Dikkat edilmesi gereken nokta, Images 2.0'nın düşünme modunu etkinleştirdikten sonra doğrudan internetten bilgi arayabilmesidir.

Takım, birkaç gün önce Arena'da gizli test edilen 'DuckTape''in bugünün Images 2.0 olduğunu açıkladı.

Daha sonra, Images 2.0, internet kullanıcılarının geri bildirimlerini toplamak ve bunları bir görsel haline getirmek için kullanıldı. Beklenmedik bir şekilde, model doğrudan taranabilir bir «kod» oluşturdu.

ChatGPT, Codex tamamen açıldı

Bugünden itibaren tüm ChatGPT ve Codex, ChatGPT Images 2.0'ı kullanabilecek.

"Düşünme" süreciyle görüntü üretme özelliği, ChatGPT Plus, Pro ve Business kullanıcılarına açılmıştır. Altta yatan model olan gpt-image-2 ayrıca API'de yayınlanmıştır.

Fiyatlandırma açısından ChatGPT Images 2.0 daha güçlü hale geldi, aynı zamanda token girdi/çıktı fiyatları artmadı.

Ortak kullanıcılar için, geçmişte Photoshop'u açıp uzunca uğraşılması gereken sunum görselleri, sosyal medya afişleri ve ürün tanıtım kartları artık tek bir prompt ile tamamlanıyor.

Geliştiriciler ve işletmeler için, yerelleştirilmiş reklamlar, çok dilli infografikler, eğitim içerikleri ve tasarım araçları gibi yoğun insan gücü gerektiren görsel iş akışları artık API ile toplu olarak otomatikleştirilebilir.

Codex'te görüntü oluşturma, çalışma alanına entegre edildi ve tasarım ekibi, aracın tamamen değiştirilmeden aynı ortamda UI çözümleri oluşturabilir, seçenekleri karşılaştırabilir ve ürünü dönüştürebilir.

Resim oluşturma için iPhone anıları?

DALL·E'den Midjourney'e ve Stable Diffusion'a kadar, AI görüntü üretimi "yeterli ama pek iyi değil" durumunda kaldı.

Metin oluşturma hataları, çok dilli destek zayıf, stil tekrarlayıcı, kompozisyon hemen AI gibi görünüyor—bu her bir sorun, AI görsellerini ciddi senaryolarda kullanmak isteyenleri soğutuyor.

Images 2.0, bu eksikliklerin tümünü tek seferde giderdi ve düşünme yeteneği ile çoklu resimleri aynı anda oluşturma özelliğini ekledi.

Mükemmel olmaktan uzak olsa da, bu, tasarımcılar, pazarlamacılar ve içerik üreticileri için ilk kez "Bunu işimde gerçekten kullanabilirim" diye düşündüren bir AI görsel modeli olabilir.

Şimdi tasarımcılar, kendi koruma duvarlarının nerede olduğunu yeniden düşünmek zorunda kalabilirler.

Kaynaklar:

https://x.com/OpenAI/status/2046661795327459677

https://x.com/OpenAI/status/2046670977145372771

https://openai.com/index/introducing-chatgpt-images-2-0/

https://x.com/sama/status/2046672912833458597