هل لا تزال صورتك عن توليد الصور من النص تتمحور حول Nano Banana؟
لكن يا ولدي، تغير الزمن مرة أخرى.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160
في بداية أبريل، ظهرت ثلاثة نماذج صور مجهولة على منصة تقييم LM Arena، بأسماء رمزية maskingtape-alpha و packingtape-alpha و gaffertape-alpha. واندثرت بعد ساعات قليلة.
لم تُعلن OpenAI رسميًا عن هذا النموذج بعد، لكن وفقًا للبيانات الوصفية التي تُرجعها واجهة برمجة التطبيقات وسجلات الاختبار من جانب المستخدمين، فقد اكتسب اسمًا مقبولًا على نطاق واسع: GPT Image 2.

الصور الملتقطة لا يمكن أن تُستخدم كأدلة بعد الآن
خلال السنوات الأخيرة، كان أحد أبرز نقاط الضعف في نماذج توليد الصور بالذكاء الاصطناعي هو النصوص داخل الصور. في عصر DALL-E 3، عندما تطلب منها كتابة "Hello" في الصورة، قد تظهر النتيجة كـ "Hellp" أو حتى "Hl10"، حيث تبدو الحروف وكأنها مخمورَة ومائلة. وقد تحسّن GPT Image 1 بشكل كبير، حيث يمكنه التعامل مع العلامات الإنجليزية البسيطة. أما في GPT Image 1.5، فقد وصلت دقة عرض النصوص الإنجليزية إلى حوالي 95٪، لكنه لا يزال يعاني من عيوب واضحة في التعامل مع اللغات غير اللاتينية مثل الصينية واليابانية والكورية.
لكن صور العينة المسرّبة لـ GPT Image 2 غيّرت هذا الانطباع.


@MrLarus https://x.com/MrLarus/status/2044824800909054181


@akokoi1 https://x.com/akokoi1/status/2044789531615056175
النص في الصورة يجب أن يكون كما هو. الصينية واضحة، والأشكال الدقيقة، والخطوط كاملة. قام شخص ما باختبار إنشاء صورة بتنسيق بطاقة هوية، حيث تم عرض الاسم والعنوان ورقم الوثيقة بدقة، مع تخطيط منظم، وتشبه في البداية صورة وثيقة حقيقية.

هذا خبر جيد. تقدم في عرض النصوص يعني أن إنشاء المعلومات المرئية، والملصقات، وعبوات المنتجات، والرسوم البيانية المعقدة التخطيط أصبح أكثر موثوقية.
لكن لكل عملة وجه آخر. إن النموذج الذي يمكنه إنشاء صور تشبه الوثائق الأصلية بدقة وعرض لقطات شاشة واجهة المستخدم بدقة، يجعل فكرة "يمكن استخدام لقطات الشاشة كدليل" أكثر شكًا.
من ناحية المقارنة، هذه هي الفروق الأساسية بين سلسلة GPT Image والنماذج الأخرى. لم تحقق Midjourney أي تقدم حتى الآن في عرض النصوص، كما أن سلسلة Stable Diffusion لا تزال تعاني من نفس المشكلات القديمة. وفقًا لنتائج اختبار Arena المتسربة، تتفوق GPT Image 2 على Midjourney في أربعة جوانب: عرض النصوص، اتباع الأوامر، واقعية الصور، والمعرفة العالمية، بينما لا تزال ميزات Midjourney الرئيسية مقتصرة على الأنماط الفنية والتحكم الجمالي.

هل تعرف حقًا كيف يبدو هذا العالم؟
طلب أحد المُختبرين من النموذج توليد صفحة تسعير وهمية لمنتج GPT-8، وكانت النتيجة مرئية: التخطيط كان على طراز موقع OpenAI الرسمي، ومواقع الأزرار واختيارات الخطوط تبدو وكأنها مأخوذة من واجهة حقيقية، ومستويات جدول الأسعار كانت منطقية أيضًا.

يمكن لـ GPT Image 2 إنشاء صور تشبه بشكل كبير واجهات البرامج الحقيقية، بما في ذلك نوافذ المتصفح وواجهات تطبيقات الجوال والمخططات المرئية للبيانات، بدرجة دقة لا يمكن مقارنتها بالإصدار السابق.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758
سيجلب هذا بعض الاستخدامات العملية المثيرة للاهتمام. عند تصميم نماذج المنتجات، لا يحتاج المصممون إلى فتح Figma أولاً لرسم مجموعة من الإطارات، بل يمكنهم ببساطة وصف الواجهة المرغوبة نصياً، وسيتم إنشاء صورة مرجعية يمكن استخدامها للنقاش مع الفريق. عند إعداد عروض المستثمرين، لا حاجة لانتظار المطورين لكتابة الكود لعرض "لقطة شاشة للمنتج". عند كتابة الوثائق، يمكن توليد واجهات مثال مباشرة كصور توضيحية، دون الحاجة للتفكير في أين يمكن العثور على لقطات شاشة مناسبة.



@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597
مسألة توليد الصور لم تعد مجرد "توليد صور" بعد الآن
أعلنت OpenAI أن خدمات DALL-E 2 و DALL-E 3 ستُوقف رسميًا في 12 مايو 2026. وقد تم إيقاف تشغيل DALL-E 3 على Azure OpenAI مسبقًا في فبراير.
DALL-E كان المكان الذي تعرف فيه الكثيرون على توليد الصور بالذكاء الاصطناعي لأول مرة، ومن تلك الأعمال المبكرة الضبابية حتى اليوم، لم يمر سوى بضع سنوات.
في الوقت نفسه، قد تشعر Google، التي تأسست للتو في بداية عام 2026 بفضل Nano Banana Pro، بضغط. أظهرت تقارير الاختبار المبكرة أن GPT Image 2 تفوق على Nano Banana Pro في ثلاثة جوانب: الواقعية، وعرض النص، والمعرفة العالمية، وهو انتصار ثلاثي غير شائع.
بالنسبة للمبدعين، فإن المشاعر معقدة. لم يكن فناني الرسوم التوضيحية، ومصممي الجرافيك، والمصورون يواجهون هذا الموضوع للمرة الأولى. منذ إصدار GPT Image 1، انخفض عدد وظائف التصميم الحر بنسبة حوالي 18%. في بعض السيناريوهات، استبدل الذكاء الاصطناعي قرار "أريد توظيف شخص لفعل هذا"، لكنه أيضًا يخلق طرقًا جديدة للعمل، مما يزيد من قدرة الشخص على القيام بمهام أكثر.
سرعة تطور نماذج توليد الصور لم تعد تترك الكثير من الوقت للتكيف. من إطلاق GPT Image 1 إلى 1.5، لم يمر سوى بضعة أشهر. ومن 1.5 إلى 2، استغرق الأمر حوالي ستة أشهر. كل إصدار يعالج نقاط الضعف الأساسية في الإصدار السابق، في الوقت نفسه الذي يفتح فيه إمكانيات جديدة.
لا يزال GPT Image 2 في مرحلة الاختبار A/B، وقد حصل بعض مستخدمي ChatGPT عشوائيًا على حق الوصول. يُتوقع بشكل عام أن يكون إطار الإصدار الرسمي قريبًا من إيقاف تشغيل DALL-E في مايو. إذا أردت تجربته مبكرًا، يمكنك الآن محاولة الحظ على منصة تقييم LM Arena.

عنوان الاختبار: https://arena.ai
بناءً على ملاحظات المجتمع ومزايا النموذج المعروفة، يمكن لنموذج التلميح التالي أن يزيد من فرص نجاحك قدر الإمكان:
ملاحظة واجهة المستخدم/لقطة شاشة: لقطة شاشة لتطبيق بنك على الهاتف بجودة فوتوغرافية واقعية، تُظهر بوضوح سجلات المعاملات، حيث تكون التواريخ والكميات وأسماء البائعين مرئية بوضوح. شاشة iPhone 16، مع حمل طبيعي للهاتف، مع خلفية مقهى قهوة.
ملاحظة على Etiquette المنتج: صورة فوتوغرافية واقعية لزجاجة بيرة مصنوعة يدويًا، مع تفاصيل واضحة لل_etiquette_، تُظهر اسم المصنع "Oakridge Brewing Co."، ونسبة الكحول 6.8%، وشعار جبال، وقائمة المكونات. إضاءة داخل مبنى، خلفية بيضاء.
ملاحظة التحديد: صورة مشهد شارع ليلي في طوكيو، تظهر لوحات إعلانية نيون ثنائية اللغة اليابانية والإنجليزية، بما في ذلك لافتة مطعم رامن مكتوب عليها «Ichiban Ramen — Est. 1987»، ولافتات حانات كاراوك، وألواح إعلانية مضاءة متنوعة. تنعكس الأضواء على رصيف مبلل بعد المطر.
ملاحظة واجهة/معرفة عالمية: لقطة شاشة لفيديو على يوتيوب بجودة فوتوغرافية واقعية، تعرض فيديو بعنوان "كيفية تجميع كمبيوتر في عام 2026" بـ 2.3 مليون مشاهدة، مع منطقة تعليقات واقعية، ومقاطع مقترحة على الشريط الجانبي، ومعلومات القناة. عرض متصفح سطح المكتب.
تنبيه الشاشة العريضة: هذه صورة واسعة الزاوية تشبه الفيلم، تُظهر مظهر متجر إيكيا في وقت الغروب، مع شعار إيكيا المضيء، وسيارات واقعية في موقف السيارات، ومشترين يدخلون ويخرجون. إضاءة الساعة الذهبية، التنسيق 16:9.
لم يتم توضيح مصدر الصورة أو المرجع: https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide
هذا المقال من حساب WeChat "APPSO"، المؤلف: اكتشاف منتجات الغد
