GPT Image 2 लीक: AI-जनित छवियाँ अब वास्तविक दस्तावेजों और स्क्रीनशॉट्स का अनुकरण करती हैं

क्या आपकी टेक्स्ट-टू-इमेज की छवि अभी भी नैनो बनाना पर सीमित है?

लेकिन बच्चे, समय फिर से बदल गया है।

GPT इमेज 2

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

GPT इमेज 2

@0115hippo https://x.com/0115hippo/status/2044722124611539160

अप्रैल के शुरू में, LM Arena आकलन मंच पर तीन अज्ञात चित्र मॉडल दिखाई दिए, जिनके कोडनाम maskingtape-alpha, packingtape-alpha, gaffertape-alpha थे। कुछ घंटों के बाद वे गायब हो गए।

OpenAI ने अभी तक इस मॉडल की आधिकारिक घोषणा नहीं की है, लेकिन API द्वारा लौटाए गए मेटाडेटा और उपयोगकर्ता-पक्ष के परीक्षण रिकॉर्ड के आधार पर, इसका एक व्यापक रूप से स्वीकृत नाम है: GPT Image 2।

GPT इमेज 2

स्क्रीनशॉट अब साक्ष्य के रूप में उपयोग नहीं किए जा सकते

पिछले कुछ वर्षों में, AI इमेज जनरेशन मॉडल की सबसे स्पष्ट कमजोरियों में से एक चित्रों में पाठ था। DALL-E 3 के समय, जब आप इसे चित्र में "Hello" लिखने के लिए कहते थे, तो परिणाम "Hellp" या यहां तक कि "Hl10" हो सकता था, जहां अक्षर बेहोशी की तरह टेढ़े-मेढ़े होते थे। GPT Image 1 बहुत बेहतर हुआ, जो साधारण अंग्रेजी लेबल्स को संभाल सकता है। GPT Image 1.5 तक, इसकी अंग्रेजी पाठ रेंडरिंग की सटीकता लगभग 95% हो गई है, लेकिन चीनी, जापानी, कोरियाई जैसे गैर-लैटिन वर्णमाला प्रणालियों पर अभी भी स्पष्ट दोष हैं।

लेकिन GPT Image 2 के लीक हुए इमेज ने इस छवि को बदल दिया।

GPT इमेज 2

@MrLarus https://x.com/MrLarus/status/2044824800909054181

GPT इमेज 2

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

चित्र में लिखा गया पाठ वही होना चाहिए जो है। चीनी भाषा स्पष्ट, अक्षर सटीक और रेखाएँ पूर्ण होनी चाहिए। किसी ने एक आईडी कार्ड के रूप में एक छवि बनाने का परीक्षण किया, जिसमें नाम, पता और पहचान प्रमाण संख्या सभी सही ढंग से प्रदर्शित हुईं, लेआउट व्यवस्थित था, और पहली नज़र में यह वास्तविक दस्तावेज़ की तस्वीर जैसा लगा।

GPT इमेज 2

यह एक अच्छी खबर है। टेक्स्ट रेंडरिंग में सुधार का अर्थ है कि इनफोग्राफिक्स, पोस्टर्स, उत्पाद पैकेजिंग और जटिल टाइपोग्राफी वाले चार्ट्स बनाना अब अधिक विश्वसनीय हो गया है।

लेकिन सिक्के का हमेशा दूसरा पहलू होता है। एक मॉडल जो झूठे दस्तावेज़ के रूप में दिखने वाली छवियाँ और यूआई स्क्रीनशॉट को सटीक रूप से रेंडर कर सकता है, वह "स्क्रीनशॉट को साक्ष्य के रूप में उपयोग किया जा सकता है" इस बात को और अधिक संदिग्ध बना रहा है।

इसकी तुलना में, यही GPT Image श्रृंखला और अन्य मॉडल के बीच मुख्य अंतर है। मिडजर्नी अब तक टेक्स्ट रेंडरिंग में कोई प्रगति नहीं कर पाई है, और स्टेबल डिफ्यूजन श्रृंखला में भी पुरानी समस्याएँ बनी हुई हैं। लीक हुए एरेना परीक्षण परिणामों के अनुसार, GPT Image 2 टेक्स्ट रेंडरिंग, निर्देश अनुसरण, फोटोग्राफिक रियलिज़्म और विश्व ज्ञान चार पहलुओं में मिडजर्नी को पार कर गया है, जबकि मिडजर्नी का मुख्य लाभ अभी भी कलात्मक शैली और सौंदर्यात्मक नियंत्रण में है।

GPT इमेज 2

क्या इसे वास्तव में यह जानना है कि दुनिया कैसी दिखती है?

एक परीक्षक ने मॉडल को एक काल्पनिक GPT-8 उत्पाद मूल्य निर्धारण पृष्ठ बनाने के लिए कहा, और परिणामी चित्र में लेआउट वास्तविक OpenAI वेबसाइट के शैली के अनुरूप था, बटनों की स्थिति और फ़ॉन्ट चयन वास्तविक इंटरफ़ेस से लिए गए लगते थे, और मूल्य सारणी का स्तरीय तर्क भी सही था।

GPT इमेज 2

GPT Image 2 ब्राउज़र विंडो, मोबाइल ऐप इंटरफ़ेस, डेटा विज़ुअलाइज़ेशन चार्ट सहित वास्तविक सॉफ़्टवेयर इंटरफ़ेस के अत्यधिक समान छवियाँ बना सकता है, जिसकी सत्यता पिछली पीढ़ी की तुलना में अप्रतिम है।

GPT इमेज 2

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

GPT इमेज 2

@levelsio https://x.com/levelsio/status/2040333489476681758

इससे कुछ बहुत दिलचस्प व्यावहारिक उपयोग आएंगे। डिज़ाइनर जब उत्पाद प्रोटोटाइप बना रहे हों, तो Figma खोलकर कई फ्रेम बनाने की जरूरत नहीं होगी; वे सिर्फ वांछित इंटरफेस का वर्णन कर सकते हैं, और एक ऐसी संदर्भ छवि प्राप्त होगी जिसका उपयोग टीम के साथ चर्चा के लिए किया जा सकता है। निवेशक Deck बनाते समय, इंजीनियर को कोड लिखने का इंतजार किए बिना एक “उत्पाद स्क्रीनशॉट” प्रदर्शित किया जा सकता है। दस्तावेज़ लिखते समय, उदाहरण इंटरफेस को सीधे जेनरेट किया जा सकता है, और आपको स्क्रीनशॉट कहाँ से प्राप्त करें, इसके लिए खाली पेज के सामने सोचने की आवश्यकता नहीं होगी।

GPT इमेज 2

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

इस चित्र उत्पन्न करने की बात अब केवल 'चित्र उत्पन्न करना' ही नहीं रह गई है

OpenAI ने घोषणा की है कि DALL-E 2 और DALL-E 3 की सेवाएँ 12 मई, 2026 को बंद हो जाएंगी। Azure OpenAI का DALL-E 3 पहले ही फरवरी में सेवा से हटा दिया गया है।

DALL-E बहुत से लोगों के लिए AI इमेज जनरेशन का पहला स्थान था, जो कि उन धुंधली प्रारंभिक कृतियों से आज तक केवल कुछ ही वर्षों में आया है।

इसी बीच, 2026 की शुरुआत में Nano Banana Pro के साथ उद्योग में स्थिति स्थापित करने वाला Google दबाव महसूर कर सकता है। प्रारंभिक परीक्षण रिपोर्ट्स के अनुसार, GPT Image 2 ने वास्तविकता, पाठ रेंडरिंग और विश्व ज्ञान के तीनों पहलुओं में Nano Banana Pro को पार कर लिया है, जो एक तीन-लगातार जीत है जो असामान्य है।

क्रिएटर्स के लिए, भावनाएँ जटिल हैं। चित्रकार, ग्राफिक डिजाइनर, फोटोग्राफर पहले भी इस विषय का सामना कर चुके हैं। GPT Image 1 के लॉन्च के बाद से, फ्रीलांस ग्राफिक डिजाइन के पदों की संख्या लगभग 18% घट गई है। AI कुछ परिदृश्यों में वास्तव में "मुझे इस काम के लिए कोई व्यक्ति नियुक्त करना है" के निर्णय को बदल रहा है, लेकिन यह नए कार्य पद्धतियों को भी जन्म दे रहा है, जिससे एक व्यक्ति कर सकता है वह अधिक काम।

स्टिल इमेज मॉडल का विकास इतना तेज हो गया है कि अब इसके साथ अनुकूलित होने के लिए बहुत समय नहीं मिल रहा है। GPT Image 1 को लॉन्च होने से 1.5 तक केवल कुछ महीने लगे। 1.5 से 2 तक करीब छह महीने। प्रत्येक नया संस्करण पिछले संस्करण की मुख्य कमजोरियों को दूर करता है और नए संभावनाएँ खोलता है।

GPT Image 2 अभी A/B टेस्टिंग चरण में है, और कुछ ChatGPT उपयोगकर्ताओं को यादृच्छिक रूप से एक्सेस प्राप्त हो चुका है। आधिकारिक लॉन्च का समय सामान्य रूप से मई में DALL-E के सेवानिवृत्त होने के आसपास के समय अवधि में होने का अनुमान है। अगर आप पहले से अनुभव करना चाहते हैं, तो वर्तमान में LM Arena मूल्यांकन प्लेटफॉर्म पर अपनी किस्मत आजमा सकते हैं।

GPT इमेज 2

टेस्ट पता: https://arena.ai

समुदाय की प्रतिक्रिया और इस मॉडल के ज्ञात लाभों के आधार पर, निम्नलिखित प्रॉम्प्ट टेम्पलेट आपकी सफलता की संभावना को अधिकतम कर सकता है:

UI/स्क्रीनशॉट सुझाव: एक फोटो-रियलिस्टिक मोबाइल बैंकिंग ऐप का स्क्रीनशॉट, जिसमें लेनदेन का रिकॉर्ड स्पष्ट रूप से दिखाई दे रहा हो, जिसमें तारीख, राशि और व्यापारी का नाम स्पष्ट रूप से पढ़ा जा सके। iPhone 16 स्क्रीन, प्राकृतिक रूप से हाथ में पकड़ा हुआ मोबाइल, कॉफीशॉप का पृष्ठभूमि।

उत्पाद लेबल सुझाव: एक फोटो-रियलिस्टिक बियर बोतल की तस्वीर, लेबल के विवरण स्पष्ट रूप से दिखाई देते हैं: ब्रूवरी का नाम 'Oakridge Brewing Co.', अल्कोहल की मात्रा 6.8%, पहाड़ों का लोगो और सामग्री की सूची। स्टूडियो में प्रकाशन, सफेद पृष्ठभूमि।

आइडेंटिफायर नोट: टोक्यो की रात की गली का दृश्य, जिसमें कई जापानी-अंग्रेजी द्विभाषी नीयर बोर्ड दिखाई देते हैं, जिनमें 'Ichiban Ramen — Est. 1987' लिखा हुआ रामेन की दुकान का बोर्ड, काराओके बार का बोर्ड और विभिन्न प्रकाशमान विज्ञापन बोर्ड शामिल हैं। बारिश के बाद की चिकनी सड़क पर प्रकाश प्रतिबिंबित होता है।

इंटरफ़ेस/विश्व ज्ञान सुझाव: एक फोटो-रियलिस्टिक YouTube वीडियो स्क्रीनशॉट, जो '2026 में कंप्यूटर कैसे बनाएं' शीर्षक के साथ एक वीडियो दिखाता है, जिसमें 2.3 मिलियन व्यू हैं, वास्तविक टिप्पणियों, साइडबार सुझाव और चैनल जानकारी के साथ। डेस्कटॉप ब्राउज़र दृश्य।

Wide-screen trigger prompt: This is a cinematic wide-screen photo capturing the exterior of an IKEA store at dusk, showcasing the glowing IKEA sign, realistic cars in the parking lot, and shoppers coming and going. Golden hour lighting, aspect ratio 16:9.

चित्र स्रोत और संदर्भ अनुपलब्ध: https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

यह लेख वेचेन ग्रुप "APPSO" से आया है, लेखक: भविष्य के उत्पादों की खोज