क्या आपकी टेक्स्ट-टू-इमेज की छवि अभी भी नैनो बनाना पर सीमित है?
लेकिन बच्चे, समय फिर से बदल गया है।

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160
अप्रैल के शुरू में, LM Arena आकलन मंच पर तीन अज्ञात चित्र मॉडल दिखाई दिए, जिनके कोडनाम maskingtape-alpha, packingtape-alpha, gaffertape-alpha थे। कुछ घंटों के बाद वे गायब हो गए।
OpenAI ने अभी तक इस मॉडल की आधिकारिक घोषणा नहीं की है, लेकिन API द्वारा लौटाए गए मेटाडेटा और उपयोगकर्ता-पक्ष के परीक्षण रिकॉर्ड के आधार पर, इसका एक व्यापक रूप से स्वीकृत नाम है: GPT Image 2।

स्क्रीनशॉट अब साक्ष्य के रूप में उपयोग नहीं किए जा सकते
पिछले कुछ वर्षों में, AI इमेज जनरेशन मॉडल की सबसे स्पष्ट कमजोरियों में से एक चित्रों में पाठ था। DALL-E 3 के समय, जब आप इसे चित्र में "Hello" लिखने के लिए कहते थे, तो परिणाम "Hellp" या यहां तक कि "Hl10" हो सकता था, जहां अक्षर बेहोशी की तरह टेढ़े-मेढ़े होते थे। GPT Image 1 बहुत बेहतर हुआ, जो साधारण अंग्रेजी लेबल्स को संभाल सकता है। GPT Image 1.5 तक, इसकी अंग्रेजी पाठ रेंडरिंग की सटीकता लगभग 95% हो गई है, लेकिन चीनी, जापानी, कोरियाई जैसे गैर-लैटिन वर्णमाला प्रणालियों पर अभी भी स्पष्ट दोष हैं।
लेकिन GPT Image 2 के लीक हुए इमेज ने इस छवि को बदल दिया।


@MrLarus https://x.com/MrLarus/status/2044824800909054181


@akokoi1 https://x.com/akokoi1/status/2044789531615056175
चित्र में लिखा गया पाठ वही होना चाहिए जो है। चीनी भाषा स्पष्ट, अक्षर सटीक और रेखाएँ पूर्ण होनी चाहिए। किसी ने एक आईडी कार्ड के रूप में एक छवि बनाने का परीक्षण किया, जिसमें नाम, पता और पहचान प्रमाण संख्या सभी सही ढंग से प्रदर्शित हुईं, लेआउट व्यवस्थित था, और पहली नज़र में यह वास्तविक दस्तावेज़ की तस्वीर जैसा लगा।

यह एक अच्छी खबर है। टेक्स्ट रेंडरिंग में सुधार का अर्थ है कि इनफोग्राफिक्स, पोस्टर्स, उत्पाद पैकेजिंग और जटिल टाइपोग्राफी वाले चार्ट्स बनाना अब अधिक विश्वसनीय हो गया है।
लेकिन सिक्के का हमेशा दूसरा पहलू होता है। एक मॉडल जो झूठे दस्तावेज़ के रूप में दिखने वाली छवियाँ और यूआई स्क्रीनशॉट को सटीक रूप से रेंडर कर सकता है, वह "स्क्रीनशॉट को साक्ष्य के रूप में उपयोग किया जा सकता है" इस बात को और अधिक संदिग्ध बना रहा है।
इसकी तुलना में, यही GPT Image श्रृंखला और अन्य मॉडल के बीच मुख्य अंतर है। मिडजर्नी अब तक टेक्स्ट रेंडरिंग में कोई प्रगति नहीं कर पाई है, और स्टेबल डिफ्यूजन श्रृंखला में भी पुरानी समस्याएँ बनी हुई हैं। लीक हुए एरेना परीक्षण परिणामों के अनुसार, GPT Image 2 टेक्स्ट रेंडरिंग, निर्देश अनुसरण, फोटोग्राफिक रियलिज़्म और विश्व ज्ञान चार पहलुओं में मिडजर्नी को पार कर गया है, जबकि मिडजर्नी का मुख्य लाभ अभी भी कलात्मक शैली और सौंदर्यात्मक नियंत्रण में है।

क्या इसे वास्तव में यह जानना है कि दुनिया कैसी दिखती है?
एक परीक्षक ने मॉडल को एक काल्पनिक GPT-8 उत्पाद मूल्य निर्धारण पृष्ठ बनाने के लिए कहा, और परिणामी चित्र में लेआउट वास्तविक OpenAI वेबसाइट के शैली के अनुरूप था, बटनों की स्थिति और फ़ॉन्ट चयन वास्तविक इंटरफ़ेस से लिए गए लगते थे, और मूल्य सारणी का स्तरीय तर्क भी सही था।

GPT Image 2 ब्राउज़र विंडो, मोबाइल ऐप इंटरफ़ेस, डेटा विज़ुअलाइज़ेशन चार्ट सहित वास्तविक सॉफ़्टवेयर इंटरफ़ेस के अत्यधिक समान छवियाँ बना सकता है, जिसकी सत्यता पिछली पीढ़ी की तुलना में अप्रतिम है।

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758
इससे कुछ बहुत दिलचस्प व्यावहारिक उपयोग आएंगे। डिज़ाइनर जब उत्पाद प्रोटोटाइप बना रहे हों, तो Figma खोलकर कई फ्रेम बनाने की जरूरत नहीं होगी; वे सिर्फ वांछित इंटरफेस का वर्णन कर सकते हैं, और एक ऐसी संदर्भ छवि प्राप्त होगी जिसका उपयोग टीम के साथ चर्चा के लिए किया जा सकता है। निवेशक Deck बनाते समय, इंजीनियर को कोड लिखने का इंतजार किए बिना एक “उत्पाद स्क्रीनशॉट” प्रदर्शित किया जा सकता है। दस्तावेज़ लिखते समय, उदाहरण इंटरफेस को सीधे जेनरेट किया जा सकता है, और आपको स्क्रीनशॉट कहाँ से प्राप्त करें, इसके लिए खाली पेज के सामने सोचने की आवश्यकता नहीं होगी।



@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597
इस चित्र उत्पन्न करने की बात अब केवल 'चित्र उत्पन्न करना' ही नहीं रह गई है
OpenAI ने घोषणा की है कि DALL-E 2 और DALL-E 3 की सेवाएँ 12 मई, 2026 को बंद हो जाएंगी। Azure OpenAI का DALL-E 3 पहले ही फरवरी में सेवा से हटा दिया गया है।
DALL-E बहुत से लोगों के लिए AI इमेज जनरेशन का पहला स्थान था, जो कि उन धुंधली प्रारंभिक कृतियों से आज तक केवल कुछ ही वर्षों में आया है।
इसी बीच, 2026 की शुरुआत में Nano Banana Pro के साथ उद्योग में स्थिति स्थापित करने वाला Google दबाव महसूर कर सकता है। प्रारंभिक परीक्षण रिपोर्ट्स के अनुसार, GPT Image 2 ने वास्तविकता, पाठ रेंडरिंग और विश्व ज्ञान के तीनों पहलुओं में Nano Banana Pro को पार कर लिया है, जो एक तीन-लगातार जीत है जो असामान्य है।
क्रिएटर्स के लिए, भावनाएँ जटिल हैं। चित्रकार, ग्राफिक डिजाइनर, फोटोग्राफर पहले भी इस विषय का सामना कर चुके हैं। GPT Image 1 के लॉन्च के बाद से, फ्रीलांस ग्राफिक डिजाइन के पदों की संख्या लगभग 18% घट गई है। AI कुछ परिदृश्यों में वास्तव में "मुझे इस काम के लिए कोई व्यक्ति नियुक्त करना है" के निर्णय को बदल रहा है, लेकिन यह नए कार्य पद्धतियों को भी जन्म दे रहा है, जिससे एक व्यक्ति कर सकता है वह अधिक काम।
स्टिल इमेज मॉडल का विकास इतना तेज हो गया है कि अब इसके साथ अनुकूलित होने के लिए बहुत समय नहीं मिल रहा है। GPT Image 1 को लॉन्च होने से 1.5 तक केवल कुछ महीने लगे। 1.5 से 2 तक करीब छह महीने। प्रत्येक नया संस्करण पिछले संस्करण की मुख्य कमजोरियों को दूर करता है और नए संभावनाएँ खोलता है।
GPT Image 2 अभी A/B टेस्टिंग चरण में है, और कुछ ChatGPT उपयोगकर्ताओं को यादृच्छिक रूप से एक्सेस प्राप्त हो चुका है। आधिकारिक लॉन्च का समय सामान्य रूप से मई में DALL-E के सेवानिवृत्त होने के आसपास के समय अवधि में होने का अनुमान है। अगर आप पहले से अनुभव करना चाहते हैं, तो वर्तमान में LM Arena मूल्यांकन प्लेटफॉर्म पर अपनी किस्मत आजमा सकते हैं।

टेस्ट पता: https://arena.ai
समुदाय की प्रतिक्रिया और इस मॉडल के ज्ञात लाभों के आधार पर, निम्नलिखित प्रॉम्प्ट टेम्पलेट आपकी सफलता की संभावना को अधिकतम कर सकता है:
UI/स्क्रीनशॉट सुझाव: एक फोटो-रियलिस्टिक मोबाइल बैंकिंग ऐप का स्क्रीनशॉट, जिसमें लेनदेन का रिकॉर्ड स्पष्ट रूप से दिखाई दे रहा हो, जिसमें तारीख, राशि और व्यापारी का नाम स्पष्ट रूप से पढ़ा जा सके। iPhone 16 स्क्रीन, प्राकृतिक रूप से हाथ में पकड़ा हुआ मोबाइल, कॉफीशॉप का पृष्ठभूमि।
उत्पाद लेबल सुझाव: एक फोटो-रियलिस्टिक बियर बोतल की तस्वीर, लेबल के विवरण स्पष्ट रूप से दिखाई देते हैं: ब्रूवरी का नाम 'Oakridge Brewing Co.', अल्कोहल की मात्रा 6.8%, पहाड़ों का लोगो और सामग्री की सूची। स्टूडियो में प्रकाशन, सफेद पृष्ठभूमि।
आइडेंटिफायर नोट: टोक्यो की रात की गली का दृश्य, जिसमें कई जापानी-अंग्रेजी द्विभाषी नीयर बोर्ड दिखाई देते हैं, जिनमें 'Ichiban Ramen — Est. 1987' लिखा हुआ रामेन की दुकान का बोर्ड, काराओके बार का बोर्ड और विभिन्न प्रकाशमान विज्ञापन बोर्ड शामिल हैं। बारिश के बाद की चिकनी सड़क पर प्रकाश प्रतिबिंबित होता है।
इंटरफ़ेस/विश्व ज्ञान सुझाव: एक फोटो-रियलिस्टिक YouTube वीडियो स्क्रीनशॉट, जो '2026 में कंप्यूटर कैसे बनाएं' शीर्षक के साथ एक वीडियो दिखाता है, जिसमें 2.3 मिलियन व्यू हैं, वास्तविक टिप्पणियों, साइडबार सुझाव और चैनल जानकारी के साथ। डेस्कटॉप ब्राउज़र दृश्य।
Wide-screen trigger prompt: This is a cinematic wide-screen photo capturing the exterior of an IKEA store at dusk, showcasing the glowing IKEA sign, realistic cars in the parking lot, and shoppers coming and going. Golden hour lighting, aspect ratio 16:9.
चित्र स्रोत और संदर्भ अनुपलब्ध: https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide
यह लेख वेचेन ग्रुप "APPSO" से आया है, लेखक: भविष्य के उत्पादों की खोज
