আজ রাতে, ChatGPT Images 2.0 চালু হয়েছে, যা প্রথম 'চিন্তা করতে পারে' এমন ইমেজ AI। ওটিম্যান এটিকে GPT-3 থেকে GPT-5-এর প্রগতি বলেছেন। এটি শুধু চীনা নির্দেশ সঠিকভাবে বুঝতে পারে, জটিল UI রেন্ডার করতে পারে, এমনকি চালের দানায় অক্ষর খোদাই করতে পারে।

লেখক এবং উৎস: নিউ জ্ঞান

সেই পরিচিত OpenAI ফিরে এসেছে!

Midnight, Ultraman personally led a 20-minute live stream, breaking several days of silence.

OpenAI চূড়ান্তভাবে চ্যাটজিপিটি ইমেজেস 2.0 চালু করেছে, যা চিত্র তৈরির একটি নতুন যুগের সূচনা করেছে।

ইমেজেস 2.0 একটি মৌলিক প্রগতি, যা দীর্ঘ নির্দেশ বুঝতে, বস্তুগুলি সঠিকভাবে সাজাতে এবং তাদের মধ্যে সম্পর্ক পরিষ্কার করতে, এবং ঘন টেক্সট রেন্ডার করতে বিপুল উন্নতি এনেছে।

সবচেয়ে গুরুত্বপূর্ণ বিষয় হল এটি প্রথম চিত্র মডেল যা চিন্তার ক্ষমতা রাখে, যা বাস্তবসময়ের তথ্য খোঁজার জন্য ইন্টারনেটে সংযুক্ত হতে পারে এবং পুনরায় নিজেকে পরীক্ষা করতে পারে।

এটি একসাথে আটটি সামঞ্জস্যপূর্ণ স্টাইলের ছবি তৈরি করতে পারে এবং সর্বোচ্চ 2K হাই-ডিফিনিশন রেজোলিউশন সমর্থন করে।

বলুন তো, Images 2.0-এর উত্থান দৃশ্যমান তৈরির শাসনকে পুনর্ব্যাখ্যা করেছে—

পিক্সেল-পরিশুদ্ধতা: ছোট আকারের টেক্সট, আইকন, UI উপাদান ইত্যাদি জটিল বিস্তারিত একক্লিকে জেনারেট করুন, 3:1 থেকে 1:3 পর্যন্ত সম্পূর্ণ সাইজ আউটপুট সমর্থন করে;
বহুভাষিক উন্নতি: চীনা, জাপানি, কোরিয়ান সহ ল্যাটিন বর্ণমালার বাইরের ভাষাগুলির সঠিক রেন্ডারিং, শুধু বর্ণগুলি সঠিকভাবে প্রদর্শন করা হয়নি, বাক্যগুলিও প্রবাহিত এবং সংযুক্ত হয়েছে;
প্রাপ্তবয়স্ক স্টাইল: ফটো-রিয়েলিস্টিক লুক, সিনেমাটিক স্টিল, পিক্সেল আর্ট, কমিক ইত্যাদি ভিজুয়াল ভাষা সবই দক্ষতার সাথে ব্যবহার করা যায়;
চিন্তা করে: প্রথম যুক্তিসংগঠিত ইমেজ মডেল, যা ইন্টারনেটে অনুসন্ধান করতে পারে, আউটপুট নিজে চেক করতে পারে, এবং 2025 সালের ডিসেম্বর পর্যন্ত জ্ঞান আপডেট করা হয়েছে।

এরেনার সর্বশেষ র‍্যাঙ্কিংয়ে, ইমেজেস 2.0 শীর্ষে উঠেছে এবং বিশ্বের শীর্ষ AI ইমেজ জেনারেটর হিসাবে স্থান নিয়েছে। এটি গুগল ন্যানো ব্যানানা 2/প্রো ভার্সনকে 242 পয়েন্ট আগাইয়ে পরাজিত করেছে।

এটি সমস্ত 7টি টেক্সট-টু-ইমেজ শ্রেণীতে প্রথম স্থান অধিকার করেছে।

সবচেয়ে বেশি চমকে দেওয়ার বিষয় হলো, এটি পিক্সেল-লেভেলে জেনারেট করতে পারে।

একটি লাইভস্ট্রিমে তৈরি একটি মিয়ান চিত্রে, একটি চালের দানায় «GPT image 2» ফন্টের লেখা খোদাই করা হয়েছে।

অ্যাটমান আরও একটি গ্রাফিক্স প্রসেসিং ইউনিট (GPU) ব্যবহার করে 4o ইমেজ টিমের প্রধান গ্যাব্রিয়েল গোহের সাথে কমিক চিত্র শেয়ার করেছেন।

ব্যবহারকারীরা এখনই হাতে নিয়েছেন এবং Images 2.0-এর ক্ষমতায় আবারও অবাক হয়েছেন।

এমনকি, কেউ কেউ বলেছেন, "OpenAI চূড়ান্তভাবে আবার ছবি তৈরির ক্ষেত্রে নেতৃত্ব দিয়েছে!"

চীনা ভাষায় সরাসরি দেবত্ব প্রাপ্ত; OpenAI নিজেই মজা করছে "আপনাকে নিরাপদে ধরে রাখা"

পূর্বের ইমেজ মডেলগুলি ইংরেজি এবং ল্যাটিন অক্ষর ভাষাগুলির জন্য ভালো কাজ করত, কিন্তু চীনা, জাপানি এবং কোরিয়ান লিপির সাথে মোকাবেলা করতে গিয়ে "অপরিষ্কার চিত্র" তৈরি করত।

এবার, অফিসিয়াল ব্লগে প্রকাশিত চীনা ডেমো সরাসরি বিস্ফোরিত হয়ে গেল।

ওপেনএআই-এর গবেষণা বিজ্ঞানী চেন বোয়ান নিজেই চিত্রিত হয়েছেন (সম্ভবত নিজেই প্রম্পট লিখেছেন), এবং একটি পূর্ণাঙ্গ চীনা ভাষার রঙিন কমিক পৃষ্ঠা তৈরি করেছেন, যা তাঁর OpenAI-এ ChatGPT Image 2-এর জন্য চীনা টেক্সট রেন্ডারিং অপ্টিমাইজেশনের গল্প বলে।

এই চিত্রটি একসাথে তিনটি বিষয় প্রমাণ করে: চীনা টেক্সট রেন্ডারিং ক্ষমতার মৌলিক পরিবর্তন, অত্যন্ত ছোট ফন্ট সাইজের পরিশুদ্ধতা নিয়ন্ত্রণ, এবং জটিল বহু-প্যানেল কমিকের একক জেনারেশন ক্ষমতা।

চারটি সারিতে কমিক, প্রথম সারিতে চেন বোয়ান কম্পিউটারের সামনে মাথা নিচু করে কাজ করছেন, পটভূমিতে পিয়ারল মিল্ক টি এবং দেয়ালে একটি ব্যান্ড দিয়ে একটি কলা আটকানো (শিল্প জগতের প্রসিদ্ধ দৃশ্যটির প্রতি শ্রদ্ধা)।

দ্বিতীয় সারিতে তিনি তাঁর স্বদেশ উইশির জন্য একটি বহুভাষিক হস্তাঙ্কিত স্টাইলের ইনফোগ্রাফিক পোস্টার তৈরি করেছেন, যার উপরে চীনা অক্ষরের ছোট ছোট লাইনগুলি সঠিকভাবে রেন্ডার করা হয়েছে।

তৃতীয় সারিতে দলটি ফলাফল দেখে একসাথে উত্তেজিত হয়ে উঠছে।

চতুর্থ সারিতে দৃশ্য পরিবর্তিত হল, চেন বোয়ান তার মোবাইল নিয়ে বিশ্রাম নিচ্ছেন এবং আউটারম্যান থেকে একটি অনুবাদিত এসএমএস পেলেন, যা দলের চীনা রেন্ডারিং ফলাফলের জন্য অভিনন্দন জানাচ্ছে।

তারপর, প্রধান আকর্ষণ আসছে।

পঞ্চম সারি, চেন বোয়ান অটেরম্যান দ্বারা তৈরি অভিনন্দন চিত্রটি দেখতে পেলেন, যার কেন্দ্রে স্পষ্টভাবে লেখা ছিল "আপনাকে নিশ্চিতভাবে ধরে রাখা হবে।"

যারা বুঝেছে, তারাই বুঝবে।

গত বছর ধরে চীনা ব্যবহারকারীরা জিপিটির চীনা কথোপকথনে এই ধরনের বাক্যগুলি—যেমন “আমি নিশ্চিতভাবে তোমাকে ধরে রাখব” বা “তোমার অনুভূতি যুক্তিসঙ্গত”—এর উপর প্রচুর সমালোচনা করেছে, যা একটি মসৃণ কিন্তু সত্যিকারের মার্কিন মনোবিজ্ঞানীর স্বাদ বহন করে।

কমিকে চেন বোয়ান তার মানসিক সীমা ভেঙে ফেলেন, কমিক স্টাইলে রাগে চিৎকার করে উঠেন, "ওহ না! এটি আবার ধরতে শিখে ফেলেছে!" পাশের দলের সদস্যরা ঠাণ্ডা ঘামের ফোঁটা নিয়ে ছোট্ট মাথা বানিয়ে দুর্বলভাবে বলে, "আমরা এটিকে ঠিক করার চেষ্টা করছি!"

এই আত্ম-হাস্যকর প্রকাশটির জন্য পূর্ণ মার্ক দেওয়া যেতে পারে। (ম্যানুয়ালি ডগহেড)

চীনা ভাষার বাইরে, ওপেনএআই একটি জাপানি ভাষার ডায়ালগ সহ যুবক অ্যাডভেঞ্চার কমিক, হিন্দি, বাংলা, তেলুগু সহ নয়টি ভাষার বইয়ের কভার সহ একটি ভারতীয় বইয়ের দোকান, এবং কোরিয়ান উচ্চস্তরের হানওক থাকার বিজ্ঞাপনও প্রকাশ করেছে।

ভাষা এখন ইমেজ জেনারেশনের দ্বিতীয় শ্রেণীর নাগরিক নয়।

পিক্সেল-লেভেল জেনারেশন: GPT-3 থেকে GPT-5 পর্যন্ত বড় প্রগতি

ChatGPT Images 2.0 কে অপেনএআইয়ের চিত্র তৈরির পরবর্তী গুরুত্বপূর্ণ প্রকাশ হিসাবে বলা যেতে পারে।

লাইভ স্ট্রিমে, অ্যাটমান এটিকে "এটি GPT-3 থেকে সরাসরি GPT-5-এ পরিবর্তন হওয়ার মতো অনুভূতি" বলেছেন।

চারজনের একটি সমষ্টিগত ছবি আপলোড করুন, চ্যাটজিপিটি একটি ম্যাগাজিন কভার তৈরি করে, পেজ ডিজাইন এবং টেক্সট লেআউটে খুব বেশি মনোযোগ দেওয়া হয়েছে।

এছাড়াও, পোস্টারটিতে অসংখ্য বিস্তারিত রয়েছে, ছোট অক্ষরের প্রক্রিয়াকরণ, চরিত্রগুলির মুখের সামঞ্জস্যতা, যা একটি "বয় গ্রুপ"-এর অনুভূতি দেয়।

বিস্তারিতভাবে, ChatGPT-এর আউটপুট সম্পূর্ণরূপে "ফটোগ্রাফিক" মানের হয়েছে, যা এতটাই বাস্তবসম্মত যে এটি একটি AI-জেনারেটেড ছবি বলে বোঝা যায় না।

উদাহরণস্বরূপ, নিচের এই ছবিটি ২০১৫ সালে OpenAI প্রতিষ্ঠার সময়ে ফিরে যায়, যেখানে সিঁড়িবিশিষ্ট ক্লাসরুমের আলোর পরিবেশ এবং PPT টেক্সট অবাক করে দেয়।

পুরো হলে বিস্মিত করে দেয় একটি মানুষের চাঁদে পদার্পণের 360° প্যানোরামিক ছবি।

চ্যাটজিপিটি দ্বারা তৈরি ছবিটিকে প্যানোরামিক ভিউয়ারে রাখলে, সূর্যের অবস্থান, ছায়ার দিক এবং কিছু বিস্তারিত বিষয় স্পষ্টভাবে দেখা যায়।

অফিসিয়াল ডেমোতে, একটি macOS ব্রাউজারে ChatGPT উইন্ডোর স্ক্রিনশট রয়েছে।

উইন্ডো স্ট্যাকড, টার্মিনাল ব্যাকগ্রাউন্ডে খোলা, ডেস্কটপ বিশৃঙ্খল, দৃশ্যমান বিস্তারিত অসম্ভব বেশি, উত্পাদিত ফলাফল প্রায় বাস্তব স্ক্রিনশটের মতো।

এই মানের রেন্ডারিং সূক্ষ্মতা নির্দেশ করে যে মডেলটি চিত্রের প্রতিটি পিক্সেলের উপর নিয়ন্ত্রণ একটি সীমানা অতিক্রম করেছে।

ফটোগ্রাফিক রিয়েলিজম সহ এআই-জেনারেটেড ছবি এখন এআই-এর মতো দেখায় না

Style realism is another major leap.

গতকালের এআই তৈরি ছবিগুলির সবসময় একটা অবিবৃত «এআই গুণ» ছিল—ত্বক খুব মসৃণ, আলো খুব সমান, কম্পোজিশন খুব পারফেক্ট, এক নজরেই বোঝা যেত যে এগুলি বাস্তব মানুষের তোলা নয়।

ইমেজেস 2.0 বিপরীত পথে যাচ্ছে এবং "অপূর্ণতা" শিখতে শুরু করছে।

অফিসিয়াল ডেমোতে একটি স্ন্যাপশট রয়েছে, 35mm ফিল্মের টেক্সচার সহ, কণা দৃশ্যমান, কম্পোজিশন কেন্দ্র থেকে সামান্য বিচ্যুত, পোশাক এবং চুল বাতাসে উড়ছে।

আপনি যদি না জানেন যে এটি একটি এআই দ্বারা তৈরি, তাহলে আপনি মনে করবেন এটি কোনও ফটোগ্রাফার সড়কের পাশে হঠাৎ শাটার চাপার ফলাফল।

একটি সেট একবারের জন্য ক্যামেরার ছবি, যা ২০০০-এর দশকের শুরুর মার্কিন হাইস্কুল কম্পিউটার ল্যাবের দৃশ্যকে অনুকরণ করে, যেখানে শিক্ষার্থীরা মিটি CRT মনিটরের সামনে চ্যাটজিপিটি ব্যবহার করছে।

ফ্ল্যাশ ওভারএক্সপোজড, হালকা মোশন ব্লার, কোণে «02 18 04» লেখা কমলা তারিখের স্ট্যাম্প, সমস্ত «ফিল্ম যুগের অপূর্ণতা» সঠিকভাবে পুনর্নির্মিত হয়েছে।

স্টাইলের বৈচিত্র্যে, Images 2.0 পার্থক্য তৈরি করেছে।

অনুপাত এখন সর্বাধিক 3:1 প্রস্থ এবং সর্বাধিক 1:3 উচ্চতা সমর্থন করে। এর জন্য, OpenAI একটি অনুভূমিক চীনা পারম্পরিক স্ক্রোল পেইন্টিং প্রকাশ করেছে, যাতে স্যাঙ্কিং এবং ফাঁকা জায়গা উভয়ই সঠিকভাবে প্রকাশিত হয়েছে।

1960-এর দশকের ফরাসি নুভেল ভাঙ চলচ্চিত্রের পোস্টার, আর্ট ডেকো স্টাইলের বুকমার্ক, অ্যানিমে চরিত্র ডিজাইন আইটেম—প্রতিটি দৃশ্য ভাষা শুধু “কিছুটা মনে করিয়ে দেয়” নয়, বরং উচ্চ স্তরের স্টাইলিস্টিক সামঞ্জস্যতা বজায় রাখে।

একটি চিন্তাশীল চিত্র মডেল একসাথে আটটি সংযুক্ত ছবি তৈরি করে

লাইভ স্ট্রিমিংয়ে, ChatGPT ইমেজের প্রধান গাব্রিয়েল গোহ বলেন যে, Images 2.0-এ মোট দুটি মোড চালু করা হয়েছে—

ইনস্ট্যান্ট মোড
চিন্তার মোড

সবচেয়ে বিপ্লবী আপগ্রেডগুলি সম্পূর্ণভাবে «থিংকিং মোড»-এ লুকিয়ে আছে।

যখন ChatGPT-এ থিংকিং মডেলটি নির্বাচন করা হয়, তখন Images 2.0 শুধুমাত্র একটি "আপনি বলুন, আমি আঁকি" রেন্ডারার নয়, বরং এটি একটি দৃশ্যমান চিন্তার সহযোগীতে পরিণত হয়।

এটি আপনার ইচ্ছা বুঝতে, রিয়েল-টাইম তথ্য পেতে ওয়েব অনুসন্ধান করতে, ছবির কাঠামো বিশ্লেষণ করতে এবং তারপর লিখতে বেশি সময় নেবে।

সবচেয়ে গুরুত্বপূর্ণ বিষয় হলো, চিন্তার মোডে এটি একসাথে সর্বোচ্চ আটটি সামঞ্জস্যপূর্ণ স্টাইল, একই চরিত্র এবং প্রগতিশীল কন্টেন্টযুক্ত ছবি তৈরি করতে পারে।

শুধু একটি চেহারার ছবি আপলোড করুন, চ্যাটজিপিটি তাত্ক্ষণিকভাবে আটটি গ্রীষ্মকালীন পোশাকের কম্বিনেশন দেবে। যেকোনো একটি বেছে নিলে, আপনার জন্য আরও বিভিন্ন কোণ থেকে পোশাকের বিস্তারিত তৈরি করা হবে।

এই কাজে, ChatGPT দুটি ভিন্ন প্রকারের 'ভিজুয়াল ইন্টেলিজেন্স' কল করেছে:

প্রথমে হলো ভিজুয়াল বুঝার ক্ষমতা, যা ছবি সত্যিকার অর্থে “দেখতে” হবে। একজন ব্যক্তির চেহারা বুঝে, উপযুক্ত পোশাকের সংমিশ্রণ পরিকল্পনা করা।

অন্য একটি মাত্রা হলো «ভিজুয়াল জেনারেশন» ক্ষমতা। এটি পরিকল্পিত পোশাকের বিন্যাসকে একটি সংযুক্ত এবং সুসংগঠিত চিত্রে রূপান্তরিত করতে পারে।

আগে একটি সোশ্যাল মিডিয়া ম্যাটেরিয়াল সেট তৈরি করতে আপনাকে একটি করে ছবি জেনারেট করে নিজেরা জোড়া লাগাতে হত। এখন একটি প্রম্পটেই Twitter, Instagram Stories, Instagram Feed, LinkedIn-এর চারটি সাইজ একসাথে পাবেন, সবগুলোর টোন এবং কম্পোজিশন স্টাইল একই রাখা হয়েছে।

অফিসিয়াল ডেমোতে ব্রুকলিন-ভিত্তিক মাচা দোকান 'kizuki'-এর বিজ্ঞাপন মাল্টিমিডিয়া দেখানো হয়েছে, যেখানে সূর্যের আলোয় বরফ দিয়ে ঠাণ্ডা করা স্ট্রবেরি মাচা দেখা যাচ্ছে, স্ট্রিটওয়্যার এস্থেটিক্স এবং জাপানি মিনিমালিজমের সমন্বয়ে, চারটি সোশ্যাল মিডিয়া সাইজের জন্য একক পদক্ষেপে।

একটি শৈক্ষিক পেপার পোস্টারের ডেমোও রয়েছে, যেখানে আপনি সরাসরি PDF আপলোড করতে পারেন, মডেলটি স্বয়ংক্রিয়ভাবে মূল চিত্র, ডেটা এবং কাঠামো বের করে একটি অনুভূমিক পোস্টারে সাজায়।

উল্লেখ্য যে, Images 2.0 চিন্তার মোড চালু করার পরে, এটি সরাসরি ইন্টারনেটের মাধ্যমে তথ্য অনুসন্ধান করতে পারে।

টিম প্রকাশ করেছে যে, কয়েক দিন আগে Arena-এ ব্লাইন্ড টেস্ট করা 'DuckTape' হল আজকের Images 2.0।

তারপর, তারা Images 2.0 কে অনলাইন ব্যবহারকারীদের প্রতিক্রিয়া সংগ্রহ করে একটি চিত্র তৈরি করতে বলেছিল। অপ্রত্যাশিতভাবে, মডেলটি একটি সরাসরি স্ক্যানযোগ্য "কোয়ার্ট কোড" তৈরি করেছিল।

ChatGPT, Codex সম্পূর্ণরূপে উন্মুক্ত

আজ থেকে, সমস্ত ChatGPT এবং Codex ChatGPT Images 2.0 ব্যবহার করতে পারবেন।

চিন্তার প্রক্রিয়া সহ ইমেজ জেনারেশন ফিচারটি ChatGPT Plus, Pro, এবং Business ব্যবহারকারীদের জন্য উন্মুক্ত। অধীনস্থ মডেল gpt-image-2 এখন API-এ লঞ্চ করা হয়েছে।

দামের ক্ষেত্রে, ChatGPT Images 2.0 আরও শক্তিশালী হয়েছে, একইসাথে টোকেন ইনপুট/আউটপুট দাম বৃদ্ধি পায়নি।

সাধারণ ব্যবহারকারীদের জন্য, প্রাক্তনে যেসব কাজ যেমন প্রেজেন্টেশন ইমেজ, সোশ্যাল মিডিয়া পোস্টার, পণ্য প্রচার কার্ড তৈরি করতে পিএস খুলে ঘণ্টার পর ঘণ্টা কাজ করতে হত, এখন শুধু একটি প্রম্পট দিয়েই সেগুলো সম্পন্ন হয়ে যায়।

ডেভেলপার এবং ব্যবসাগুলির জন্য, স্থানীয়করণ বিজ্ঞাপন, বহুভাষিক ইনফোগ্রাফিক্স, শিক্ষামূলক কন্টেন্ট, ডিজাইন টুলস এর মতো প্রচুর মানব প্রয়াস প্রয়োজনীয় ভিজুয়াল ওয়ার্কফ্লোগুলি এখন API এর মাধ্যমে ব্যাচ অটোমেশনের মাধ্যমে সম্ভব।

কোডেক্সে ইমেজ জেনারেশনকে কাজের ক্ষেত্রে একীভূত করা হয়েছে, যাতে ডিজাইন টিম একই পরিবেশে UI সমাধান, বিকল্প তুলনা এবং পণ্যে রূপান্তর করতে পারে, যেকোনো টুল পরিবর্তন ছাড়াই।

ইমেজ জেনারেশনের আইফোন মুহূর্ত?

পিছনে ফিরে তাকালে, DALL·E থেকে মিডজার্নি এবং স্টেবল ডিফিউশন পর্যন্ত, AI ইমেজ জেনারেশন সবসময় “যথেষ্ট কাজ করে কিন্তু খুব ভালো নয়” অবস্থায় ছিল।

টেক্সট রেন্ডারিংয়ে ব্যর্থতা, বহুভাষিক সমর্থনের দুর্বলতা, স্টাইলের একঘেয়েমি, এবং কম্পোজিশনে এআই-এর চিহ্ন—এই সমস্ত সমস্যাগুলি এআই ছবিকে পেশাদার পরিস্থিতিতে ব্যবহার করতে চাওয়া মানুষকে বিচলিত করে।

ইমেজেস 2.0 এই সব দুর্বলতা একসাথে পূরণ করেছে এবং চিন্তার ক্ষমতা এবং একাধিক ছবি একসাথে তৈরির সুবিধা যোগ করেছে।

এটি এখনও "আদর্শ" থেকে দূরে রয়েছে, তবে এটি প্রথম AI ইমেজ মডেল হতে পারে যা ডিজাইনারদের, মার্কেটিংয়ের বিশেষজ্ঞদের এবং কনটেন্ট তৈরি করার বিশেষজ্ঞদের মনে করিয়ে দেয় যে "এই জিনিসটি আমি আমার কাজে ব্যবহার করতে পারি।"

এখন, ডিজাইনারদের নিজেদের প্রতিদ্বন্দ্বিতামূলক সুবিধার বাস্তব অবস্থান নিয়ে আবার চিন্তা করতে হবে।

প্রসঙ্গ:

https://x.com/OpenAI/status/2046661795327459677

https://x.com/OpenAI/status/2046670977145372771

https://openai.com/index/introducing-chatgpt-images-2-0/

https://x.com/sama/status/2046672912833458597