আপনি কি এখনও ন্যানো ব্যানানা দিয়ে টেক্সট টু ইমেজের ধারণা রাখেন?
কিন্তু বাচ্চা, সময় আবার বদলে গেছে।

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160
এপ্রিলের প্রথমে, এলএম আরেনা মূল্যায়ন প্ল্যাটফর্মে তিনটি অজ্ঞাত চিত্র মডেল দেখা গিয়েছিল, যাদের কোডনাম ছিল maskingtape-alpha, packingtape-alpha, gaffertape-alpha। কয়েক ঘন্টার মধ্যেই তারা অদৃশ্য হয়ে যায়।
ওপেনএআইয়ের অফিসিয়াল পক্ষ এখনও এই মডেলটি ঘোষণা করেননি, তবে API থেকে ফেরত আসা মেটাডেটা এবং ব্যবহারকারীদের পরীক্ষার রেকর্ড অনুযায়ী, এটির একটি প্রচলিত নাম রয়েছে: GPT Image 2।

স্ক্রিনশট আর প্রমাণ হিসেবে কাজ করবে না
গত কয়েক বছরে, এআই-ভিত্তিক চিত্র তৈরি মডেলের সবচেয়ে স্পষ্ট দুর্বলতাগুলির মধ্যে একটি ছিল চিত্রের মধ্যে টেক্সট। DALL-E 3 এর যুগে, আপনি যদি এটিকে চিত্রে "Hello" লিখতে বলেন, তাহলে ফলাফল হতে পারে "Hellp" বা এমনকি "Hl10", যেখানে অক্ষরগুলি মাতালের মতো বিক্ষিপ্তভাবে বিচ্ছিন্ন হয়ে যায়। GPT Image 1 এটি অনেকটা উন্নতি করেছে, যা সহজ ইংরেজি লেবেলগুলি পরিচালনা করতে পারে। GPT Image 1.5-এ, ইংরেজি টেক্সটের রেন্ডারিংয়ের সঠিকতা 95% এর কাছাকাছি পৌঁছেছে, তবে চীনা, জাপানি, কোরিয়ানসহ ল্যাটিন-অ-অক্ষর ভিত্তিক ভাষাগুলিতে এখনও স্পষ্ট ত্রুটি রয়েছে।
কিন্তু GPT Image 2-এর প্রকাশিত ছবিগুলি এই ছবিকে পরিবর্তন করেছে।


@MrLarus https://x.com/MrLarus/status/2044824800909054181


@akokoi1 https://x.com/akokoi1/status/2044789531615056175
ছবিতে যা লেখা আছে, তাই থাকুক। চীনা ভাষায় পরিষ্কার, অক্ষরগুলি সঠিক এবং বর্ণগুলি সম্পূর্ণ। কেউ একটি পরিচয়পত্রের মতো ছবি তৈরি করেছেন, যেখানে নাম, ঠিকানা, পরিচয় নম্বর সবই সঠিকভাবে রেন্ডার করা হয়েছে, বিন্যাসটি সুসজ্জিত, প্রথম দৃষ্টিতে এটি প্রকৃত দলিলের ছবির মতো দেখায়।

এটি একটি ভালো খবর। টেক্সট রেন্ডারিংয়ের উন্নতির মানে হল ইনফোগ্রাফিক, পোস্টার, পণ্যের প্যাকেজিং, এবং জটিল টাইপোগ্রাফি সহ গ্রাফিকগুলি তৈরি করা আরও বিশ্বস্ত হয়েছে।
কিন্তু মুদ্রার অপর পাশও থাকে। একটি মডেল যা মিথ্যা দলিলের মতো ছবি এবং পরিশুদ্ধভাবে UI স্ক্রিনশট তৈরি করতে পারে, তা স্বাভাবিকভাবেই "স্ক্রিনশটকে প্রমাণ হিসাবে ব্যবহার করা যেতে পারে" এই ধারণাকে আরও সন্দেহজনক করে তোলে।
এই বিষয়ে তুলনা করলে, এটিই GPT Image সিরিজ এবং অন্যান্য মডেলের মূল পার্থক্য। মিডজার্নি এখনও টেক্সট রেন্ডারিংয়ে কোনো অগ্রগতি করেনি, স্টেবল ডিফিউশন সিরিজও পুরনো সমস্যায় আটকে আছে। প্রকাশিত এরেনা পরীক্ষার ফলাফলের ভিত্তিতে, GPT Image 2 টেক্সট রেন্ডারিং, নির্দেশ অনুসরণ, ফটোগ্রাফিক রিয়ালিজম এবং বিশ্বজনীন জ্ঞান—চারটি দিকেই Midjourney-কে ছাড়িয়েছে, যার সুবিধা মূলত শুধুমাত্র শিল্পধর্মী স্টাইল এবং সৌন্দর্যমূলক নিয়ন্ত্রণেই বজায় রয়েছে।

এটি কি সত্যিই জানে যে এই বিশ্বটির আকৃতি কেমন?
একজন পরীক্ষাকারী মডেলকে একটি কল্পিত GPT-8 পণ্য মূল্য নির্ধারণ পৃষ্ঠা তৈরি করতে বললেন, ফলাফলের চিত্রটি প্রকৃতপক্ষে OpenAI-এর অফিসিয়াল ওয়েবসাইটের স্টাইলে ডিজাইন করা হয়েছিল, বোতামগুলির অবস্থান এবং ফন্ট বাছাই প্রকৃত ইন্টারফেস থেকে কপি করা মনে হচ্ছে, এবং মূল্যের টেবিলের স্তরগুলির যুক্তি সঠিক।

GPT Image 2 ব্রাউজার উইন্ডো, মোবাইল অ্যাপ ইন্টারফেস, ডেটা ভিজুয়ালাইজেশন চার্ট সহ বাস্তব সফটওয়্যার ইন্টারফেসের সাথে অত্যন্ত সাদৃশ্যপূর্ণ ছবি তৈরি করতে পারে, যার বাস্তবতা আগের প্রজন্মের চেয়ে অপরিসীম।

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758
এটি কিছু খুব আকর্ষণীয় ব্যবহারিক প্রয়োগ আনবে। ডিজাইনাররা পণ্য প্রোটোটাইপ তৈরি করার সময় Figma খুলে অনেকগুলি ফ্রেম আঁকার প্রয়োজন হবে না, তারা শুধুমাত্র লিখে ফেলবে যে তারা কী ধরনের ইন্টারফেস চায়, এবং ফলাফলটি হবে একটি দলের সাথে আলোচনার জন্য ব্যবহারযোগ্য রেফারেন্স ছবি। বিনিয়োগকারীদের জন্য Deck তৈরি করার সময়, ইঞ্জিনিয়ারদের কোড লেখার অপেক্ষা করার প্রয়োজন হবে না, একটি “পণ্যের স্ক্রিনশট” প্রদর্শন করা যাবে। ডকুমেন্টেশন লিখার সময়, ছবির জন্য উদাহরণস্বরূপ ইন্টারফেসটি সরাসরি তৈরি করা যাবে, কোথা থেকে স্ক্রিনশট খুঁজবেন তা নিয়ে খালি পৃষ্ঠার সামনে ভাবতে হবে না।



@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597
চিত্র তৈরি করা এখন শুধুমাত্র 'চিত্র তৈরি' নয়
OpenAI ঘোষণা করেছে যে 2026 সালের 12 মে ড্যাল-ই 2 এবং ড্যাল-ই 3 সেবা বন্ধ করে দেওয়া হবে। Azure OpenAI-এর ড্যাল-ই 3 ইতিমধ্যে ফেব্রুয়ারিতে পূর্বসূচনা করে বন্ধ করে দেওয়া হয়েছে।
DALL-E অনেকের জন্য এআই ছবি তৈরির প্রথম অভিজ্ঞতা ছিল, সেই অস্পষ্ট প্রাথমিক কাজগুলি থেকে আজ পর্যন্ত কেবল কয়েক বছর লেগেছে।
এর মধ্যে, ২০২৬ সালের শুরুতে শুধুমাত্র Nano Banana Pro এর মাধ্যমে শিল্পের অবস্থান প্রতিষ্ঠা করা Google-এর উপর চাপ পড়তে পারে। প্রাথমিক পরীক্ষার রিপোর্টগুলি দেখায় যে GPT Image 2 বাস্তবসম্মতি, টেক্সট রেন্ডারিং এবং বিশ্বজ্ঞান—এই তিনটি মাপদণ্ডেই Nano Banana Pro-কে ছাড়িয়েছে, এমন তিনটি জয় খুবই দুর্লভ।
ক্রিয়েটরদের জন্য অনুভূতি জটিল। ইলাস্ট্রেটর, গ্রাফিক ডিজাইনার, ফটোগ্রাফাররা এই বিষয়ে প্রথমবারের মতো মুখোমুখি হচ্ছেন না। GPT Image 1 প্রকাশের পর থেকে ফ্রিল্যান্স গ্রাফিক ডিজাইনের চাকরির সংখ্যা প্রায় 18% হ্রাস পেয়েছে। AI কিছু পরিস্থিতিতে আসলেই “আমি এটি করতে কাউকে নিয়োগ করব” এই সিদ্ধান্তকে প্রতিস্থাপন করেছে, কিন্তু এটি নতুন কাজের পদ্ধতি তৈরি করেছে, যাতে একজন ব্যক্তি আরও বেশি কাজ করতে পারে।
চিত্র মডেলের উন্নয়নের গতি এখন আর আপনাকে অভ্যস্ত হওয়ার জন্য বেশি সময় দেয় না। GPT Image 1 এর লঞ্চ থেকে 1.5 পর্যন্ত কেবল কয়েক মাস লাগল। 1.5 থেকে 2 এর জন্য প্রায় ছয় মাস। প্রতিটি প্রজন্ম পূর্ববর্তী প্রজন্মের মূল দুর্বলতা সমাধান করছে এবং নতুন সম্ভাবনা খুলছে।
GPT Image 2 এখনও A/B টেস্টিং পর্যায়ে রয়েছে, এবং কিছু ChatGPT ব্যবহারকারীকে র্যান্ডমভাবে অ্যাক্সেস প্রদান করা হয়েছে। আনুষ্ঠানিক প্রকাশের সময়সীমা সাধারণত মে মাসে DALL-E-এর অপসারণের সময়ের সাথে মিলে যাওয়ার পূর্বানুমান করা হচ্ছে। আগে থেকেই অভিজ্ঞতা লাভ করতে চাইলে, বর্তমানে LM Arena মূল্যায়ন প্ল্যাটফর্মে সৌভাগ্য চেষ্টা করতে পারেন।

টেস্ট ঠিকানা: https://arena.ai
সম্প্রদায়ের ফিডব্যাক এবং এই মডেলের পরিচিত সুবিধাগুলির ভিত্তিতে, নিম্নলিখিত প্রম্পট টেমপ্লেটটি আপনার সাফল্যের সম্ভাবনা সর্বোচ্চ করবে:
UI/স্ক্রিনশট নির্দেশ: একটি ফটো-রিয়েলিস্টিক মোবাইল ব্যাংকিং অ্যাপের স্ক্রিনশট, যেখানে ট্রানজেকশন রেকর্ড স্পষ্টভাবে দেখা যাচ্ছে, যাতে তারিখ, পরিমাণ এবং ব্যবসায়িক নাম স্পষ্টভাবে পড়া যায়। iPhone 16 স্ক্রিন, প্রাকৃতিকভাবে হাতে ধরা মোবাইল, কফি শপের ব্যাকগ্রাউন্ড।
পণ্য লেবেল নির্দেশ: একটি ফটো-রিয়েলিস্টিক ব্রু বোতলের ছবি, লেবেলের বিস্তারিত বিবরণ সহ, ব্রুওয়ারির নাম "Oakridge Brewing Co.", 6.8% অ্যালকোহল কন্টেন্ট, পাহাড়ের লোগো এবং উপাদানের তালিকা দেখানো হয়েছে। স্টুডিও লাইটিং, সাদা ব্যাকগ্রাউন্ড।
চিহ্নিতকরণ প্রস্তাব: টোকিওর রাতের একটি গলির দৃশ্য যাতে বিভিন্ন জাপানি-ইংরেজি দ্বিভাষিক নিয়ন্ট বোর্ড দেখা যাচ্ছে, যার মধ্যে রয়েছে 'Ichiban Ramen — Est. 1987' লেখা রামেন দোকানের বোর্ড, কারাওকে বারের বোর্ড এবং বিভিন্ন আলোকিত বিজ্ঞাপন। বৃষ্টির পরে আর্দ্র পথে আলোর প্রতিবিম্ব পড়েছে।
ইন্টারফেস/বিশ্ব জ্ঞান প্রস্তাব: একটি ফটো-রিয়েলিস্টিক ইউটিউব ভিডিও স্ক্রিনশট, যা "2026 সালে কম্পিউটার সংগঠন কিভাবে" শিরোনামের একটি ভিডিও দেখাচ্ছে, যার 2.3 মিলিয়ন দর্শক রয়েছে, একটি বাস্তবসম্মত মন্তব্য বিভাগ, পাশের প্রস্তাবিত ভিডিও এবং চ্যানেল তথ্য সহ। ডেস্কটপ ব্রাউজার দৃশ্য।
ওয়াইডস্ক্রিন ট্রিগার প্রম্পট: এটি একটি চলচ্চিত্রের মতো ওয়াইডস্ক্রিন ছবি, যা আইকিয়া স্টোরের সন্ধ্যার বেলায় বাইরের দৃশ্য ধরেছে, যেখানে আলোকিত আইকিয়া লোগো, পার্কিং লটে বাস্তবসম্মত গাড়ি এবং প্রবেশ-প্রস্থানকারী ক্রেতাদের দেখা যাচ্ছে। গোল্ডেন আওয়ার লাইটিং, 16:9 অনুপাত।
চিত্রের উৎস এবং রেফারেন্স উল্লেখ করা হয়নি: https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide
এই লেখাটি ওয়েইচ্যাট গ্রুপ "APPSO" থেকে এসেছে, লেখক: ভবিষ্যতের পণ্য আবিষ্কার করুন
