GPT ইমেজ 2 প্রকাশিত: এআই-তৈরি ইমেজগুলি এখন বাস্তব দলিল এবং স্ক্রিনশটের মতো দেখায়

আপনি কি এখনও ন্যানো ব্যানানা দিয়ে টেক্সট টু ইমেজের ধারণা রাখেন?

কিন্তু বাচ্চা, সময় আবার বদলে গেছে।

GPT ইমেজ 2

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

GPT ইমেজ 2

@0115hippo https://x.com/0115hippo/status/2044722124611539160

এপ্রিলের প্রথমে, এলএম আরেনা মূল্যায়ন প্ল্যাটফর্মে তিনটি অজ্ঞাত চিত্র মডেল দেখা গিয়েছিল, যাদের কোডনাম ছিল maskingtape-alpha, packingtape-alpha, gaffertape-alpha। কয়েক ঘন্টার মধ্যেই তারা অদৃশ্য হয়ে যায়।

ওপেনএআইয়ের অফিসিয়াল পক্ষ এখনও এই মডেলটি ঘোষণা করেননি, তবে API থেকে ফেরত আসা মেটাডেটা এবং ব্যবহারকারীদের পরীক্ষার রেকর্ড অনুযায়ী, এটির একটি প্রচলিত নাম রয়েছে: GPT Image 2।

GPT ইমেজ 2

স্ক্রিনশট আর প্রমাণ হিসেবে কাজ করবে না

গত কয়েক বছরে, এআই-ভিত্তিক চিত্র তৈরি মডেলের সবচেয়ে স্পষ্ট দুর্বলতাগুলির মধ্যে একটি ছিল চিত্রের মধ্যে টেক্সট। DALL-E 3 এর যুগে, আপনি যদি এটিকে চিত্রে "Hello" লিখতে বলেন, তাহলে ফলাফল হতে পারে "Hellp" বা এমনকি "Hl10", যেখানে অক্ষরগুলি মাতালের মতো বিক্ষিপ্তভাবে বিচ্ছিন্ন হয়ে যায়। GPT Image 1 এটি অনেকটা উন্নতি করেছে, যা সহজ ইংরেজি লেবেলগুলি পরিচালনা করতে পারে। GPT Image 1.5-এ, ইংরেজি টেক্সটের রেন্ডারিংয়ের সঠিকতা 95% এর কাছাকাছি পৌঁছেছে, তবে চীনা, জাপানি, কোরিয়ানসহ ল্যাটিন-অ-অক্ষর ভিত্তিক ভাষাগুলিতে এখনও স্পষ্ট ত্রুটি রয়েছে।

কিন্তু GPT Image 2-এর প্রকাশিত ছবিগুলি এই ছবিকে পরিবর্তন করেছে।

GPT ইমেজ 2

@MrLarus https://x.com/MrLarus/status/2044824800909054181

GPT ইমেজ 2

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

ছবিতে যা লেখা আছে, তাই থাকুক। চীনা ভাষায় পরিষ্কার, অক্ষরগুলি সঠিক এবং বর্ণগুলি সম্পূর্ণ। কেউ একটি পরিচয়পত্রের মতো ছবি তৈরি করেছেন, যেখানে নাম, ঠিকানা, পরিচয় নম্বর সবই সঠিকভাবে রেন্ডার করা হয়েছে, বিন্যাসটি সুসজ্জিত, প্রথম দৃষ্টিতে এটি প্রকৃত দলিলের ছবির মতো দেখায়।

GPT ইমেজ 2

এটি একটি ভালো খবর। টেক্সট রেন্ডারিংয়ের উন্নতির মানে হল ইনফোগ্রাফিক, পোস্টার, পণ্যের প্যাকেজিং, এবং জটিল টাইপোগ্রাফি সহ গ্রাফিকগুলি তৈরি করা আরও বিশ্বস্ত হয়েছে।

কিন্তু মুদ্রার অপর পাশও থাকে। একটি মডেল যা মিথ্যা দলিলের মতো ছবি এবং পরিশুদ্ধভাবে UI স্ক্রিনশট তৈরি করতে পারে, তা স্বাভাবিকভাবেই "স্ক্রিনশটকে প্রমাণ হিসাবে ব্যবহার করা যেতে পারে" এই ধারণাকে আরও সন্দেহজনক করে তোলে।

এই বিষয়ে তুলনা করলে, এটিই GPT Image সিরিজ এবং অন্যান্য মডেলের মূল পার্থক্য। মিডজার্নি এখনও টেক্সট রেন্ডারিংয়ে কোনো অগ্রগতি করেনি, স্টেবল ডিফিউশন সিরিজও পুরনো সমস্যায় আটকে আছে। প্রকাশিত এরেনা পরীক্ষার ফলাফলের ভিত্তিতে, GPT Image 2 টেক্সট রেন্ডারিং, নির্দেশ অনুসরণ, ফটোগ্রাফিক রিয়ালিজম এবং বিশ্বজনীন জ্ঞান—চারটি দিকেই Midjourney-কে ছাড়িয়েছে, যার সুবিধা মূলত শুধুমাত্র শিল্পধর্মী স্টাইল এবং সৌন্দর্যমূলক নিয়ন্ত্রণেই বজায় রয়েছে।

GPT ইমেজ 2

এটি কি সত্যিই জানে যে এই বিশ্বটির আকৃতি কেমন?

একজন পরীক্ষাকারী মডেলকে একটি কল্পিত GPT-8 পণ্য মূল্য নির্ধারণ পৃষ্ঠা তৈরি করতে বললেন, ফলাফলের চিত্রটি প্রকৃতপক্ষে OpenAI-এর অফিসিয়াল ওয়েবসাইটের স্টাইলে ডিজাইন করা হয়েছিল, বোতামগুলির অবস্থান এবং ফন্ট বাছাই প্রকৃত ইন্টারফেস থেকে কপি করা মনে হচ্ছে, এবং মূল্যের টেবিলের স্তরগুলির যুক্তি সঠিক।

GPT ইমেজ 2

GPT Image 2 ব্রাউজার উইন্ডো, মোবাইল অ্যাপ ইন্টারফেস, ডেটা ভিজুয়ালাইজেশন চার্ট সহ বাস্তব সফটওয়্যার ইন্টারফেসের সাথে অত্যন্ত সাদৃশ্যপূর্ণ ছবি তৈরি করতে পারে, যার বাস্তবতা আগের প্রজন্মের চেয়ে অপরিসীম।

GPT ইমেজ 2

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

GPT ইমেজ 2

@levelsio https://x.com/levelsio/status/2040333489476681758

এটি কিছু খুব আকর্ষণীয় ব্যবহারিক প্রয়োগ আনবে। ডিজাইনাররা পণ্য প্রোটোটাইপ তৈরি করার সময় Figma খুলে অনেকগুলি ফ্রেম আঁকার প্রয়োজন হবে না, তারা শুধুমাত্র লিখে ফেলবে যে তারা কী ধরনের ইন্টারফেস চায়, এবং ফলাফলটি হবে একটি দলের সাথে আলোচনার জন্য ব্যবহারযোগ্য রেফারেন্স ছবি। বিনিয়োগকারীদের জন্য Deck তৈরি করার সময়, ইঞ্জিনিয়ারদের কোড লেখার অপেক্ষা করার প্রয়োজন হবে না, একটি “পণ্যের স্ক্রিনশট” প্রদর্শন করা যাবে। ডকুমেন্টেশন লিখার সময়, ছবির জন্য উদাহরণস্বরূপ ইন্টারফেসটি সরাসরি তৈরি করা যাবে, কোথা থেকে স্ক্রিনশট খুঁজবেন তা নিয়ে খালি পৃষ্ঠার সামনে ভাবতে হবে না।

GPT ইমেজ 2

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

চিত্র তৈরি করা এখন শুধুমাত্র 'চিত্র তৈরি' নয়

OpenAI ঘোষণা করেছে যে 2026 সালের 12 মে ড্যাল-ই 2 এবং ড্যাল-ই 3 সেবা বন্ধ করে দেওয়া হবে। Azure OpenAI-এর ড্যাল-ই 3 ইতিমধ্যে ফেব্রুয়ারিতে পূর্বসূচনা করে বন্ধ করে দেওয়া হয়েছে।

DALL-E অনেকের জন্য এআই ছবি তৈরির প্রথম অভিজ্ঞতা ছিল, সেই অস্পষ্ট প্রাথমিক কাজগুলি থেকে আজ পর্যন্ত কেবল কয়েক বছর লেগেছে।

এর মধ্যে, ২০২৬ সালের শুরুতে শুধুমাত্র Nano Banana Pro এর মাধ্যমে শিল্পের অবস্থান প্রতিষ্ঠা করা Google-এর উপর চাপ পড়তে পারে। প্রাথমিক পরীক্ষার রিপোর্টগুলি দেখায় যে GPT Image 2 বাস্তবসম্মতি, টেক্সট রেন্ডারিং এবং বিশ্বজ্ঞান—এই তিনটি মাপদণ্ডেই Nano Banana Pro-কে ছাড়িয়েছে, এমন তিনটি জয় খুবই দুর্লভ।

ক্রিয়েটরদের জন্য অনুভূতি জটিল। ইলাস্ট্রেটর, গ্রাফিক ডিজাইনার, ফটোগ্রাফাররা এই বিষয়ে প্রথমবারের মতো মুখোমুখি হচ্ছেন না। GPT Image 1 প্রকাশের পর থেকে ফ্রিল্যান্স গ্রাফিক ডিজাইনের চাকরির সংখ্যা প্রায় 18% হ্রাস পেয়েছে। AI কিছু পরিস্থিতিতে আসলেই “আমি এটি করতে কাউকে নিয়োগ করব” এই সিদ্ধান্তকে প্রতিস্থাপন করেছে, কিন্তু এটি নতুন কাজের পদ্ধতি তৈরি করেছে, যাতে একজন ব্যক্তি আরও বেশি কাজ করতে পারে।

চিত্র মডেলের উন্নয়নের গতি এখন আর আপনাকে অভ্যস্ত হওয়ার জন্য বেশি সময় দেয় না। GPT Image 1 এর লঞ্চ থেকে 1.5 পর্যন্ত কেবল কয়েক মাস লাগল। 1.5 থেকে 2 এর জন্য প্রায় ছয় মাস। প্রতিটি প্রজন্ম পূর্ববর্তী প্রজন্মের মূল দুর্বলতা সমাধান করছে এবং নতুন সম্ভাবনা খুলছে।

GPT Image 2 এখনও A/B টেস্টিং পর্যায়ে রয়েছে, এবং কিছু ChatGPT ব্যবহারকারীকে র‍্যান্ডমভাবে অ্যাক্সেস প্রদান করা হয়েছে। আনুষ্ঠানিক প্রকাশের সময়সীমা সাধারণত মে মাসে DALL-E-এর অপসারণের সময়ের সাথে মিলে যাওয়ার পূর্বানুমান করা হচ্ছে। আগে থেকেই অভিজ্ঞতা লাভ করতে চাইলে, বর্তমানে LM Arena মূল্যায়ন প্ল্যাটফর্মে সৌভাগ্য চেষ্টা করতে পারেন।

GPT ইমেজ 2

টেস্ট ঠিকানা: https://arena.ai

সম্প্রদায়ের ফিডব্যাক এবং এই মডেলের পরিচিত সুবিধাগুলির ভিত্তিতে, নিম্নলিখিত প্রম্পট টেমপ্লেটটি আপনার সাফল্যের সম্ভাবনা সর্বোচ্চ করবে:

UI/স্ক্রিনশট নির্দেশ: একটি ফটো-রিয়েলিস্টিক মোবাইল ব্যাংকিং অ্যাপের স্ক্রিনশট, যেখানে ট্রানজেকশন রেকর্ড স্পষ্টভাবে দেখা যাচ্ছে, যাতে তারিখ, পরিমাণ এবং ব্যবসায়িক নাম স্পষ্টভাবে পড়া যায়। iPhone 16 স্ক্রিন, প্রাকৃতিকভাবে হাতে ধরা মোবাইল, কফি শপের ব্যাকগ্রাউন্ড।

পণ্য লেবেল নির্দেশ: একটি ফটো-রিয়েলিস্টিক ব্রু বোতলের ছবি, লেবেলের বিস্তারিত বিবরণ সহ, ব্রুওয়ারির নাম "Oakridge Brewing Co.", 6.8% অ্যালকোহল কন্টেন্ট, পাহাড়ের লোগো এবং উপাদানের তালিকা দেখানো হয়েছে। স্টুডিও লাইটিং, সাদা ব্যাকগ্রাউন্ড।

চিহ্নিতকরণ প্রস্তাব: টোকিওর রাতের একটি গলির দৃশ্য যাতে বিভিন্ন জাপানি-ইংরেজি দ্বিভাষিক নিয়ন্ট বোর্ড দেখা যাচ্ছে, যার মধ্যে রয়েছে 'Ichiban Ramen — Est. 1987' লেখা রামেন দোকানের বোর্ড, কারাওকে বারের বোর্ড এবং বিভিন্ন আলোকিত বিজ্ঞাপন। বৃষ্টির পরে আর্দ্র পথে আলোর প্রতিবিম্ব পড়েছে।

ইন্টারফেস/বিশ্ব জ্ঞান প্রস্তাব: একটি ফটো-রিয়েলিস্টিক ইউটিউব ভিডিও স্ক্রিনশট, যা "2026 সালে কম্পিউটার সংগঠন কিভাবে" শিরোনামের একটি ভিডিও দেখাচ্ছে, যার 2.3 মিলিয়ন দর্শক রয়েছে, একটি বাস্তবসম্মত মন্তব্য বিভাগ, পাশের প্রস্তাবিত ভিডিও এবং চ্যানেল তথ্য সহ। ডেস্কটপ ব্রাউজার দৃশ্য।

ওয়াইডস্ক্রিন ট্রিগার প্রম্পট: এটি একটি চলচ্চিত্রের মতো ওয়াইডস্ক্রিন ছবি, যা আইকিয়া স্টোরের সন্ধ্যার বেলায় বাইরের দৃশ্য ধরেছে, যেখানে আলোকিত আইকিয়া লোগো, পার্কিং লটে বাস্তবসম্মত গাড়ি এবং প্রবেশ-প্রস্থানকারী ক্রেতাদের দেখা যাচ্ছে। গোল্ডেন আওয়ার লাইটিং, 16:9 অনুপাত।

চিত্রের উৎস এবং রেফারেন্স উল্লেখ করা হয়নি: https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

এই লেখাটি ওয়েইচ্যাট গ্রুপ "APPSO" থেকে এসেছে, লেখক: ভবিষ্যতের পণ্য আবিষ্কার করুন