অ্যাপলের পিকো এআই ইমেজ কম্প্রেশন একই কোয়ালিটিতে ফাইল সাইজ দুই-তৃতীয়াংশ কমিয়ে দেয়

একটি ছবি কতটা ছোট করা যায়?

ফেব্রুয়ারি ২০২৫-এ, ইন্টারন্যাশনাল জেপিইজি গ্রুপ (JPEG) ঘোষণা করেছে যে একটি শিল্পের দ্বারা নীরবে উদযাপিত ঘটনা: JPEG AI, যা বহু বছর ধরে বিকাশিত এবং প্রথম এন্ড-টু-এন্ড লার্নিং-ভিত্তিক ইমেজ কোডিং ইন্টারন্যাশনাল স্ট্যান্ডার্ড, আনুষ্ঠানিকভাবে প্রকাশিত হয়েছে।

পিকো

সংবাদ ছড়িয়ে পড়ল, অনেক গবেষক সোশ্যাল মিডিয়ায় শেয়ার করলেন, এবং মন্তব্য করলেন, "AI চূড়ান্তভাবে মানদণ্ডে প্রবেশ করল!"

জেপিইজি স্ট্যান্ডার্ড ১৯৯২ সালে জন্ম নেয়, এবং তিন দশকেরও বেশি সময় ধরে মানুষের ডিজিটাল ছবির একটি মৌলিক ভাষা হয়ে আসছে। এখন, কৃত্রিম বুদ্ধিমত্তা শুরু করেছে এই ভাষার ব্যাকরণ পুনর্লিখনের।

তবে, উৎসবের পিছনে একটি সূক্ষ্ম বাস্তবতা রয়েছে: জেপিইজি এআই-এর জন্যও প্রকৃত "পার্সেপচুয়াল কমপ্রেশন" অর্জনের জন্য এখনও বেশ দূরত্ব বাকি রয়েছে।

ইঞ্জিনিয়ারদের জানা আছে যে, সাধারণ কম্প্রেশন গুণমান পরিমাপের মাপকাঠি পিক সিগন্যাল-টু-নয়েস রেশিও (PSNR) মানুষের চোখের দ্বারা অনুভূত “সুন্দরতা” এর সাথে বেশি সম্পর্কিত নয়। একটি ছবি PSNR-এ উচ্চ স্কোর পেলেও, মানুষ দেখলে হয়তো এটিকে সাধারণ মনে করবে; আবার অন্য একটি PSNR-এর মান কম হলেও, মানুষ এটিকে বিস্তারিত এবং বাস্তবসম্মত মনে করতে পারে। গাণিতিক মাপকাঠি উন্নত করা এবং মানুষের দৃষ্টিভঙ্গি উন্নত করা—এগুলি দুটি সম্পূর্ণভাবে ভিন্ন বিষয়।

বছর শতকের বেশি সময় ধরে, JPEG থেকে VVC এবং তারপর JPEG AI পর্যন্ত, প্রায় সমস্ত কোডেকের ডিজাইন যুক্তি গণিতমূলক মাপদণ্ডের চক্রের মধ্যেই ঘুরে বেড়াচ্ছে। প্রত্যক্ষ সংকোচন (যা মানুষের চোখের অভিজ্ঞতার উপর সরাসরি অপ্টিমাইজেশন করে) সবসময়ই একটি শুধুমাত্র গবেষণা পত্রের দূরবর্তী লক্ষ্য হয়ে থাকে, যা মোবাইলে বাস্তবায়নযোগ্য প্রকৌশলগত বাস্তবতা নয়।

এই সময়ে, অ্যাপলের একটি ইঞ্জিনিয়ারিং দল চুপচাপ একটি পেপার প্রকাশ করেছে, যার কোডনাম: PICO।

পিকো

প্রায়োগিক শিক্ষিত ইমেজ কম্প্রেশনে কী গুরুত্বপূর্ণ

পেপারের লিঙ্ক: https://arxiv.org/pdf/2605.05148

কেন "দেখতে ভালো" এর চেয়ে "সংখ্যা বেশি" অনেক কঠিন?

পিকো বুঝতে হলে প্রথমে বুঝতে হবে যে ইমেজ কম্প্রেশন কী করছে।

একটি ছবিকে ফাইল হিসেবে সংরক্ষণ করা মূলত একটি “কী ভুলে যাবেন, কী মনে রাখবেন” এর সিদ্ধান্ত নেওয়ার বিষয়। সংরক্ষণ স্থান সীমিত হওয়ায়, অংশশেষ তথ্য বাদ দিতে হয়, যাতে দর্শকরা এটি অনুভব না করেন। বিভিন্ন কোডেক বিভিন্ন “বাদ দেওয়ার” পদ্ধতি অনুসরণ করে।

জেপিইজি, এভি১, ভিভিসি ইত্যাদি প্রাচীন কোডেকগুলি ইঞ্জিনিয়ারদের হাতে তৈরি নিয়মের সিস্টেম। এগুলি চিত্রকে ব্লকে বিভক্ত করে, ট্রান্সফর্ম করে, কোয়ান্টাইজ করে, এনট্রপি কোডিং করে—প্রতিটি ধাপই দশকের পর দশক ধরে জমা হওয়া মানব অভিজ্ঞতা। এই ধরনের সিস্টেমগুলি PSNR এর মতো গাণিতিক মাপদণ্ডে অত্যন্ত ভালোভাবে কাজ করতে পারে, কিন্তু এদের ডিজাইনের মূল উদ্দেশ্য হল "পিক্সেল ত্রুটি কমানো", "মানব চোখের অস্বস্তি কমানো" নয়।

সমস্যা হলো, মানুষের চোখ পিক্সেল ত্রুটির গণনাকারী নয়। মানুষের চোখ টেকচার, টেক্সট এবং বিস্তারিত বিষয়গুলির প্রতি অনেক বেশি সংবেদনশীল, যা গাণিতিক সূত্রের চেয়ে অনেক জটিল। যখন আপনি একটি রাস্তার দৃশ্যের ছবি খুব ছোট করে কম্প্রেস করেন, তখন PSNR এখনও গ্রহণযোগ্য হতে পারে, কিন্তু আপনি দেখতে পাবেন ভবনের প্রান্তগুলির ধোঁয়াশা, রাস্তার বোর্ডের টেক্সটের বিকৃতি—এবং এইগুলিই হলো মানুষের চোখের প্রথমেই লক্ষ্য করা বিষয়।

শিক্ষামূলক এনকোডার-ডিকোডারের উত্থান তাত্ত্বিকভাবে একটি নতুন দরজা খুলে দেয়: নিউরাল নেটওয়ার্কগুলি গাণিতিক সূত্রের পরিবর্তে মানুষের অনুভূতির উপর সরাসরি এন্ড-টু-এন্ড প্রশিক্ষণ পেতে পারে। তবে PICO-এর আগে, বিদ্যমান অনুভূতিমূলক শিক্ষামূলক এনকোডার-ডিকোডারগুলি বা তখনই অপ্রায়োগিক হারে কাজ করত, বা ডিভাইস-ব্যাপী সামঞ্জস্যতা হারিয়ে ফেলত, বা বিটরেটকে নমনীয়ভাবে নিয়ন্ত্রণ করতে অক্ষম হত, ফলে এগুলি কোনও ভোক্তা-স্তরের পণ্যে স্থান পেত না।

তিনটি মূল প্রশ্ন, তিনটি সমাধান

PICO-এর পূর্ণরূপ হল পারসেপচুয়াল ইমেজ কোডেক (Perceptual Image Codec)। এই নামটি সরাসরি এর লক্ষ্যকে চিহ্নিত করে: মানুষের চোখকে সন্তুষ্ট করা।

পিকো

গবেষণা দল মিলিয়ন মডেল কনফিগারেশন সিস্টেমেটিকভাবে অন্বেষণ করেছে এবং কয়েকটি কী প্রযুক্তিগত উদ্ভাবন চালু করেছে।

প্রথম প্রশ্ন: এনট্রপি এনকোডিং ধীর হলে কী করবেন?

চিত্র সংকুচনে একটি চ্যালেঞ্জ রয়েছে: আরও কম জায়গায় চিত্র সংকুচিত করতে, কোডেককে প্রতিটি পিক্সেলের তথ্যের পরিমাণ সঠিকভাবে অনুমান করতে হয়, যা 'এনট্রপি মডেল' ব্যবহার করে করা হয়। সবচেয়ে সঠিক পদ্ধতিটি হলো স্ব-নির্ভরশীল কোডিং: প্রতিটি পিক্সেল সংকুচিত করার আগে, পূর্বে সংকুচিত পিক্সেলগুলির চারপাশের অবস্থা পর্যবেক্ষণ করে ধাপে ধাপে ভবিষ্যদ্বাণী করতে হয়। এটি ঠিক যেন একজন রান্নাচা'রা প্রতিবার একটি উপকরণ যোগ করার আগে, পাত্রের বর্তমান অবস্থা দেখে পরবর্তী পদক্ষেপ নির্ধারণ করে। এটি সঠিক, কিন্তু অত্যন্ত ধীর।

পিকোর সমাধান হল "ওয়ান-শট কনটেক্সট মডেল": এনট্রপি কোডিংয়ের সবচেয়ে গুরুত্বপূর্ণ "স্কেল প্যারামিটার" কে আলাদা করে একবারের ফরওয়ার্ড প্রোপাগেশনে সম্পূর্ণভাবে গণনা করা হয়, যার ফলে আর কোনো অপেক্ষা লাগে না; অন্যান্য প্যারামিটারগুলি সমান্তরালভাবে গণনা করা যায়, যা স্ব-প্রত্যাবর্তনের সঠিকতা বজায় রাখে এবং এর গতির বাধা এড়িয়ে চলে। ফলাফল: এই মডিউলটি বাদ দিলে, মডেলের কার্যক্ষমতা 10.28% হ্রাস পায়; এটি যোগ করলে, গতি প্রায় অপরিবর্তিত থাকে।

পিকো

দ্বিতীয় প্রশ্ন: পার্থক্য প্রশিক্ষণ হ্যালুসিনেশন তৈরি করে, কী করবেন?

GAN (প্রতিদ্বন্দ্বী নিউরাল নেটওয়ার্ক) দিয়ে প্রশিক্ষিত চিত্রগুলি প্রায়শই "খুব বাস্তবসম্মত" দেখায়, কিন্তু সেগুলি হতে পারে কল্পিত বাস্তবতা—চুলের গুচ্ছ অস্তিত্বহীন প্যাটার্নে পরিণত হয়, সমতল পৃষ্ঠে মিথ্যা টেকসই প্যাটার্ন যোগ হয়। আরও বড় সমস্যা হলো, মানুষের চোখ লিখনের প্রতি অত্যন্ত সংবেদনশীল, এমনকি একটি অক্ষরেরও ক্ষুদ্রতম বিকৃতি দেখলেই এটি তাৎক্ষণিকভাবে চিনে ফেলে।

PICO পাঠ্যের জন্য বিশেষভাবে TextFidelityLoss ডিজাইন করেছে: একটি প্রস্তুত পাঠ্য শনাক্তকারী ব্যবহার করে চিত্রের পাঠ্য অঞ্চলগুলি স্বয়ংক্রিয়ভাবে শনাক্ত করা হয়, এবং এই অঞ্চলগুলিতে কঠোর পিক্সেল ফিডেলিটি সীমাবদ্ধতা প্রয়োগ করা হয়, যখন GAN-এর পাঠ্য অঞ্চলে "খেলার জায়গা" কমিয়ে দেওয়া হয়। পরীক্ষা দেখিয়েছে যে, এই ক্ষতি ফাংশনটি যোগ করার পর, পাঠ্য অঞ্চলের পরম ত্রুটি অর্ধেকেরও কমে গেছে।

পিকো

তৃতীয় প্রশ্ন: চিত্র ব্লক প্রসেসিংয়ের ফলে রংয়ের সীমানা থাকে, কীভাবে সমাধান করবেন?

মোবাইল চিপে দ্রুত চলার জন্য, পিকো ছবিগুলিকে 504×504 পিক্সেলের টাইলগুলিতে কেটে আলাদাভাবে প্রক্রিয়া করে আবার একসাথে জোড়া লাগায়। কিন্তু GAN প্রশিক্ষণের সময় নিম্ন ফ্রিকোয়েন্সি রংগুলি উপেক্ষা করার প্রবণতা দেখায়, যার ফলে পাশাপাশি টাইলগুলির মধ্যে দৃশ্যমান রংয়ের অসামঞ্জস্যতা দেখা যায়, যা ফটো এডিটিংয়ের সময় “ভালভাবে জোড়া লাগানো হয়নি” এর মতো অনুভূতি দেয়। গবেষণা দলটি TilingArtifactLoss-এর মতো একটি বহু-রেজোলিউশন L1 লস প্রবর্তন করেছে, যা মডেলকে বিভিন্ন স্থানীয় ফ্রিকোয়েন্সিতে রঙের সামঞ্জস্যতা বজায় রাখতে বাধ্য করে। এই ব্যবস্থাটি টাইলগুলির সীমানার ত্রুটি 50%এরও বেশি কমিয়েছে।

পরীক্ষার ফলাফল

অ্যাপল টিম শুধুমাত্র বেঞ্চমার্ক মাপদণ্ডের উপর নির্ভর করেনি। তারা তৃতীয় পক্ষের প্ল্যাটফর্ম Mabyduck-কে একটি বৃহৎ মানব বিষয়বস্তু মূল্যায়ন আয়োজনের জন্য নিযুক্ত করেছে।

মূল্যায়নটি অন্ধ পরীক্ষা পদ্ধতিতে দুটি দুটি তুলনা করে করা হয়েছে: 610 জন নির্বাচিত মূল্যায়ক (যাদের রঙের অন্ধত্ব এবং কম্প্রেশন কৃত্রিমতা শনাক্তকরণ পরীক্ষা পাস করতে হয়েছে) একই ছবির বিভিন্ন কোডেকের পুনর্গঠিত ফলাফলগুলির জন্য জোড়াভিত্তিক তুলনা করেছেন, যা চূড়ান্তভাবে Bayesian ELO স্কোরে সামগ্রিকভাবে সংকলিত হয়েছে। 74,925টি জোড়াভিত্তিক তুলনা সংগ্রহ করা হয়েছে।

পিকো

শেষ সংখ্যাগুলি সবকিছু ব্যাখ্যা করে: একই দৃশ্যমান মানের ক্ষেত্রে, PICO-এর ফাইল আকার AV1, AV2, VVC, ECM এবং JPEG AI-এর তুলনায় এক-তৃতীয়াংশ থেকে অর্ধেক — অর্থাৎ, একই ছবি সংরক্ষণের জন্য, এটি শুধুমাত্র এই মানগুলির 30%-43% বিট প্রয়োজন। বর্তমানের সবচেয়ে শক্তিশালী শিক্ষিত পারসেপচুয়াল কোডেকগুলি (HiFiC, MRIC ইত্যাদি) এর সাথে তুলনা করলে, PICO 20%-40% ফাইল আকার সঞ্চয় করে।

পিকো

স্পিডের ক্ষেত্রে, iPhone 17 Pro Max-এ 12MP একটি ছবি এনকোড করতে শুধুমাত্র 230 মিলিসেকেন্ড এবং ডিকোড করতে 150 মিলিসেকেন্ড সময় লাগে। অন্যদিকে, বেশিরভাগ শীর্ষস্থানীয় ML এনকোডার-ডিকোডার NVIDIA V100 সার্ভার গ্রাফিক্স কার্ডে চললে এটির চেয়ে ধীর।

উল্লেখ্য যে, পেপারটি একটি "বিপরীত উদাহরণ"ও বিশদভাবে রেকর্ড করেছে: প্রাচীন মাপকাঠি PSNR-এ, PICO সাধারণ পারফরম্যান্স দেখিয়েছে, এমনকি DCVC-RT এবং VVC-এর চেয়েও খারাপ। এটি ঠিক সেই মৌলিক বিচারকে নিশ্চিত করে যে, পরিলক্ষিত গুণমান অপ্টিমাইজ করা এবং গাণিতিক মাপকাঠি অপ্টিমাইজ করা মূলত দুটি ভিন্ন দিক, যা একসাথে অর্জনযোগ্য নয়।

একটি যুগের পর্যায়, শেষ নয়

PICO-এর নিজস্ব সীমাবদ্ধতা রয়েছে। গবেষণাপত্রটি স্বীকার করে যে, কার্টুন, চিত্রাঙ্কন ইত্যাদি অত্যন্ত নিয়মিত সংশ্লেষিত চিত্রের জন্য, PICO-এর কম্প্রেশন দক্ষতা পারম্পরিক কোডেকগুলির চেয়ে কম, কারণ এই ধরনের কনটেন্ট স্বাভাবিকভাবেই নিয়ম-ভিত্তিক স্বয়ংসম্পূর্ণ মডেলিংয়ের জন্য উপযুক্ত, পারসেপচুয়াল জেনারেশনের চেয়ে।

কিন্তু এই সীমাবদ্ধতাগুলি এই কাজের গুরুত্বকে অস্বীকার করে না।

গত তিন দশকে, চিত্র সংকুচনের প্রযুক্তিগত উন্নতি প্রায়শই "ডিজিটাল চিত্রকে আরও ভালো দেখানো" এর পথে ঘটেছে। JPEG থেকে HEVC এবং VVC পর্যন্ত, প্রকৌশলীরা প্রতিপুরুষে PSNR, SSIM এর মতো মাপদণ্ডগুলি উন্নত করেছেন। কিন্তু মানুষের দৃষ্টির ধারণা এখনও একটি এড়িয়ে যাওয়া "সমস্যা" হয়েই রয়েছে।

পিকো হল প্রথম ব্যক্তি যিনি এই জটিল সমস্যাটিকে সিস্টেমেটিকভাবে সমাধান করেছেন: আর্কিটেকচার সার্চ, লস ফাংশন ডিজাইন, বড় পরিসরের মানুষের মনোভাবমূলক মূল্যায়ন পর্যন্ত, এবং শেষ পর্যন্ত একটি মোবাইল ফোনে রিয়েল-টাইমে চলার মতো এনকোডার-ডিকোডারে এটিকে সংকুচিত করেছেন।

যখন আপনি পরবর্তী বার আপনার অ্যাপল ডিভাইস ব্যবহার করে একটি ছবি শেয়ার করবেন, তখন হয়তো আপনি কোনো পার্থক্য অনুভব করবেন না। কিন্তু সেই নীরব কম্প্রেশন প্রক্রিয়ার মধ্যে, একটি মানব দৃষ্টির প্রতিক্রিয়াকে অনুকূলিত অ্যালগরিদম সিদ্ধান্ত নিচ্ছে যে কোন তথ্যগুলি বজায় রাখা উচিত এবং কোনগুলি চুপচাপ ভুলে যাওয়া যাবে।

টিম: ওয়েভওন থেকে অ্যাপল

এই পেপারের যোগাযোগের লেখক ওরেন রিপেল, যিনি অ্যাপলের গবেষক এবং কম্প্রেশন ক্ষেত্রের পরিচিত মুখ।

তার নাম প্রথম ব্যাপকভাবে উঠে আসে ২০১৭ সালে। সেই সময় তিনি স্টার্টআপ ওয়েভওনে কাজ করছিলেন এবং "রিয়েল-টাইম অ্যাডাপটিভ ইমেজ কমপ্রেশন" শিরোনামে একটি পেপার প্রকাশ করেন, যেখানে নিউরাল নেটওয়ার্ক ব্যবহার করে তিনি তখনকার সমস্ত প্রধান কোডেককে পরাজিত করেন, একইসাথে রিয়েল-টাইম পারফরম্যান্স বজায় রেখে। সেই পেপারটি একাডেমিক বিশ্বে বড় আলোচনা তৈরি করেছিল এবং রিপ্পেলকে লার্নিং-বেসড কমপ্রেশনের ক্ষেত্রে একটি স্থান দিয়েছিল।

পিকো

এরপর, একই মূল দল WaveOne-এ কাজ চালিয়ে ভিডিও কম্প্রেশনের জন্য ELF-VC চালু করে, যা UVG ভিডিও টেস্ট সেটে H.264-এর তুলনায় 44% বিটরেট সঞ্চয় করে এবং অনুরূপ ML কোডেকের তুলনায় পাঁচগুণ দ্রুত।

ওয়েভওনের এই দল পরে সম্পূর্ণভাবে অ্যাপলে যোগ দেয়। এবং এই পিকো, তারা অ্যাপলের ক্যালকুলেশন ক্ষমতা এবং প্ল্যাটফর্ম সম্পদ নিয়ে চিত্র পরিচয় সংকুচনে প্রথম ব্যবস্থিত উত্তর দিয়েছে।

এই লেখাটি ওয়েইচ্যাট গ্রুপ "মেশিন সিন্টিস" (ID: almosthuman2014) থেকে, লেখক: কম্প্রেশন ইস ইন্টেলিজেন্স