एप्पल का PICO AI इमेज कम्प्रेशन समान गुणवत्ता पर फाइल साइज को दो-तिहाई तक कम कर देता है

एक छवि कितनी छोटी हो सकती है?

फरवरी 2025 में, अंतरराष्ट्रीय जेपीईजी समूह ने एक ऐसी बात की घोषणा की जिसे उद्योग ने शांति से मनाया: JPEG AI, जो कि वर्षों के विकास के बाद लॉन्च होने वाला पहला अंतरराष्ट्रीय मानक है जो एंड-टू-एंड लर्निंग-आधारित इमेज कोडिंग को समर्थित करता है।

PICO

संदेश फैल गया, और कई शोधकर्ताओं ने सोशल मीडिया पर इसे शेयर किया, जिसमें "AI अंततः मानक में प्रवेश कर गया" का टिप्पणी जोड़ी।

JPEG मानक 1992 में बना, और तीस से अधिक वर्षों तक मानव डिजिटल छवियों की एक मूलभूत भाषा रहा है। अब, कृत्रिम बुद्धिमत्ता इस भाषा के व्याकरण को पुनः लिखने लगी है।

हालांकि, जश्न के पीछे एक सूक्ष्म वास्तविकता है: यहां तक कि JPEG AI के लिए भी, वास्तविक "परिलक्षित संपीड़न" तक पहुंचने में काफी दूरी है।

इंजीनियर जानते हैं कि पारंपरिक संपीड़न गुणवत्ता माप के लिए शीर्ष सिग्नल-नॉइज़ अनुपात (PSNR) वास्तव में मानव दृष्टि द्वारा "कितना अच्छा लगता है" से कम संबंधित है। एक छवि PSNR पर उच्च स्कोर प्राप्त कर सकती है, लेकिन मनुष्य द्वारा देखने पर यह साधारण लग सकती है; जबकि एक अन्य PSNR कम वाली छवि मनुष्य को विस्तृत विवरण और वास्तविक बनावट के साथ लग सकती है। गणितीय सूचकों को अनुकूलित करना और मानव दृष्टि को अनुकूलित करना, दो पूरी तरह से अलग बातें हैं।

दशकों से, JPEG से लेकर VVC और फिर JPEG AI तक, लगभग सभी कोडेक के डिजाइन का तर्क गणितीय सूचकों के ढांचे में ही घूमता रहा है। प्रत्यक्ष संपीड़न (जो सीधे मानव दृष्टि के अनुभव के लिए अनुकूलित होता है) हमेशा एक शैक्षणिक पेपर में दूर का लक्ष्य रहा है, न कि एक मोबाइल फोन में समायोजित किया जा सकने वाला इंजीनियरिंग वास्तविकता।

इसी समय, ऐपल की एक इंजीनियर टीम ने चुपचाप एक पेपर प्रकाशित किया, जिसमें उनका उत्तर दिया गया, कोडनेम: PICO।

PICO

प्रैक्टिकल लर्न्ड इमेज कम्प्रेशन में क्या मायने रखता है

पेपर का लिंक: https://arxiv.org/pdf/2605.05148

क्यों "अधिक अच्छा दिखना" "अधिक उच्च संख्या" की तुलना में बहुत अधिक कठिन है?

PICO को समझने से पहले, आपको यह समझना होगा कि इमेज कंप्रेशन वास्तव में क्या कर रहा है।

एक फोटो को फाइल के रूप में सहेजना, मूल रूप से एक “क्या भूलना है, क्या याद रखना है” का एक संतुलन का प्रश्न है। स्टोरेज स्पेस सीमित है, इसलिए कुछ जानकारी को फेंकना पड़ता है, जबकि देखने वाले को इसकी अनुभूति न हो। विभिन्न कोडेक्स अलग-अलग “फेंकने के तरीके” का पालन करते हैं।

JPEG, AV1, VVC जैसे पारंपरिक कोडेक्स इंजीनियर्स द्वारा हाथ से डिज़ाइन किए गए नियम प्रणालियाँ हैं। वे छवि को ब्लॉक में काटते हैं, ट्रांसफॉर्म करते हैं, क्वांटाइज़ करते हैं और एंट्रॉपी कोडिंग करते हैं, प्रत्येक चरण दशकों के शिक्षित अनुभव से निकला हुआ है। ऐसी प्रणालियाँ PSNR जैसे गणितीय मापदंडों पर बहुत अच्छा प्रदर्शन कर सकती हैं, लेकिन उनका डिज़ाइन मूल रूप से 'पिक्सेल त्रुटि को कम करने' के लिए है, 'मानव आँखों की असुविधा को कम करने' के लिए नहीं।

समस्या यह है कि मानव आँखें पिक्सेल त्रुटि गिनने वाले उपकरण नहीं हैं। मानव आँखें टेक्सचर, पाठ और विवरण के प्रति उतनी ही संवेदनशील हैं, जितनी गणितीय सूत्र हैं। जब आप एक स्ट्रीट सीन फोटो को बहुत छोटा कम्प्रेस करते हैं, तो PSNR अभी भी स्वीकार्य हो सकता है, लेकिन आप भवनों के किनारों को धुंधला और सड़क के संकेतों के पाठ को विकृत देखेंगे — और ये ही वे चीजें हैं जिन्हें मानव आँखें सबसे पहले पहचानती हैं।

लर्निंग कोडेक के आगमन से सिद्धांत रूप से एक नया द्वार खुल गया: न्यूरल नेटवर्क सीधे गणितीय सूत्रों के बजाय मानव अनुभव के लिए एंड-टू-एंड प्रशिक्षित किए जा सकते हैं। लेकिन PICO से पहले, मौजूदा पर्सेप्चुअल लर्निंग कोडेक या तो इतने धीमे थे कि व्यावहारिक नहीं थे, या फिर डिवाइस-अंतर्गत संगतता की कमी थी, या फिर बिटरेट को लचीले ढंग से नियंत्रित करने में असमर्थ थे, और इसलिए किसी उपभोक्ता-स्तरीय उत्पाद में समाहित नहीं हो सके।

तीन मुख्य प्रश्न, तीन समाधान

PICO का पूरा नाम Perceptual Image Codec (परसेप्चुअल इमेज कोडेक) है। इस नाम से सीधे तौर पर इसका लक्ष्य स्पष्ट होता है: मानव आँखों को संतुष्ट करना।

PICO

रिसर्च टीम ने लाखों मॉडल कॉन्फ़िगरेशन का प्रणालीगत अध्ययन किया और कुछ महत्वपूर्ण तकनीकी नवाचार शामिल किए।

पहला प्रश्न: एंट्रॉपी कोडिंग धीमी है, क्या करें?

इमेज कंप्रेशन में एक चुनौती है: छोटा फाइल बनाने के लिए, कोडेक को प्रत्येक पिक्सेल की जानकारी की मात्रा का सटीक अनुमान लगाने के लिए 'एंट्रॉपी मॉडल' का उपयोग करना होता है। सबसे सटीक विधि ऑटोरिग्रेसिव कोडिंग है: प्रत्येक पिक्सेल को संपीड़ित करने से पहले, आपको पहले से संपीड़ित पड़ोसी पिक्सेल्स को देखना होता है, और फिर क्रमिक रूप से भविष्यवाणी करनी होती है। यह उसी तरह है जैसे एक शेफ हर एक आइटम डालने से पहले, अपने अगले कदम को तय करने के लिए कड़ाही में मौजूद स्थिति को पीछे मुड़कर देखता है। सटीक, लेकिन बहुत धीमा।

PICO का समाधान "वन-शॉट कॉन्टेक्स्ट मॉडल" है: एंट्रॉपी कोडिंग में सबसे महत्वपूर्ण "स्केल पैरामीटर" को अलग कर दिया जाता है, जिसे एक ही फॉरवर्ड पास में पूरी तरह से कैलकुलेट कर लिया जाता है, और अब इसके लिए बार-बार प्रतीक्षा की आवश्यकता नहीं होती; जबकि शेष पैरामीटर्स को समानांतर रूप से कैलकुलेट किया जा सकता है, जिससे स्वयं-प्रतिगमन की सटीकता बनी रहती है, लेकिन इसकी गति की सीमा से बचा जाता है। परिणाम: इस मॉड्यूल को हटाने पर, मॉडल का प्रदर्शन 10.28% गिर जाता है; इसे जोड़ने पर, गति में लगभग कोई प्रभाव नहीं पड़ता।

PICO

दूसरा प्रश्न: अनुभवी प्रशिक्षण से भ्रम कैसे दूर किया जाए?

GAN (प्रतिस्पर्धी न्यूरल नेटवर्क) के उपयोग से तैयार चित्र अक्सर "वास्तविक लगते हैं", लेकिन वे गढ़े गए वास्तविकता हो सकते हैं — बालों के रेशे अवास्तविक डिज़ाइन में बदल जाते हैं, और चिकनी सतहों पर झूठे टेक्सचर जुड़ जाते हैं। और अधिक समस्या यह है कि मानव आँखें पाठ के प्रति अत्यधिक संवेदनशील होती हैं, भले ही एक अक्षर में सूक्ष्मतम विकृति हो, तो तुरंत पता चल जाता है।

PICO ने पाठ के लिए विशेष रूप से TextFidelityLoss डिज़ाइन किया: एक तैयार पाठ डिटेक्टर का उपयोग करके चित्र में पाठ के क्षेत्रों को स्वचालित रूप से पहचानें, इन क्षेत्रों में कठोर पिक्सेल फिडेलिटी प्रतिबंध लागू करें, और GAN को पाठ क्षेत्रों में "स्थान छोड़ने" से रोकें। प्रयोगों ने दिखाया कि इस हानि फंक्शन को जोड़ने के बाद, पाठ क्षेत्रों में निरपेक्ष त्रुटि पूरी तरह से आधी हो गई।

PICO

तीसरा प्रश्न: छवि ब्लॉक प्रसंस्करण से रंग के ब्लॉक के किनारे बच जाते हैं, क्या करें?

मोबाइल चिप पर तेजी से चलाने के लिए, PICO छवियों को 504×504 पिक्सेल के टाइल्स में काट देता है, जिन्हें अलग-अलग प्रोसेस किया जाता है और फिर फिर से जोड़ दिया जाता है। हालाँकि, GAN प्रशिक्षण के दौरान निम्न आवृत्ति रंगों को नजरअंदाज करने की प्रवृत्ति रखता है, जिससे पड़ोसी टाइल्स के बीच दृश्य रंग असंगति होती है, जो संपादन के दौरान "अच्छी तरह से नहीं जुड़े" होने की भावना देती है। अनुसंधान टीम ने विशेष रूप से TilingArtifactLoss को शामिल किया, जो एक बहु-विभाजन L1 हानि है, जो मॉडल को कई स्थानीय आवृत्तियों पर रंग समानता बनाए रखने के लिए मजबूर करता है। इस उपाय से टाइल सीमाओं पर त्रुटि में 50% से अधिक की कमी आई।

परीक्षण परिणाम

Apple टीम ने केवल बेंचमार्क आंकड़ों पर ही निर्भर नहीं किया। उन्होंने तीसरे पक्ष के प्लेटफॉर्म Mabyduck को एक बड़े पैमाने पर मानवीय विषयगत मूल्यांकन का आयोजन करने के लिए भेजा।

मूल्यांकन अंधा युगल तुलना विधि का उपयोग करके किया गया: 610 चयनित मूल्यांकनकर्ताओं (जिन्हें रंग अंधापन परीक्षण और संपीड़न कल्पित कला पहचान परीक्षण से गुजरना था) ने विभिन्न कोडेक्स के तहत एक ही छवि के पुनर्निर्माण परिणामों की युगल तुलना की, जिसे अंततः Bayesian ELO स्कोर के रूप में संकलित किया गया। कुल 74,925 युगल तुलनाएँ एकत्रित की गईं।

PICO

अंतिम आंकड़े ही सब कुछ बताते हैं: समान दृश्य गुणवत्ता पर, PICO का फाइल आकार AV1, AV2, VVC, ECM और JPEG AI की तुलना में एक तिहाई से आधा है — दूसरे शब्दों में, समान छवि संग्रहीत करने के लिए, इसे इन मानकों की तुलना में केवल 30%-43% बिट्स की आवश्यकता होती है। वर्तमान में सबसे शक्तिशाली लर्न्ड परसेप्शुअल कोडेक (HiFiC, MRIC आदि) के साथ तुलना करने पर, PICO फाइल साइज में 20%-40% की बचत करता है।

PICO

स्पीड के मामले में, iPhone 17 Pro Max पर, PICO द्वारा एक 12MP फोटो को कोडिंग करने में केवल 230 मिलीसेकंड और डिकोडिंग करने में केवल 150 मिलीसेकंड लगते हैं। जबकि अधिकांश शीर्ष ML कोडेक्स NVIDIA V100 सर्वर GPU पर चलते हुए इससे धीमे हैं।

ध्यान देने योग्य बात यह है कि पेपर ने एक 「विपरीत उदाहरण」 को भी विशेष रूप से दर्ज किया है: PSNR जैसे पारंपरिक मापदंड पर, PICO का प्रदर्शन सामान्य रहा, और यह DCVC-RT और VVC से भी कमजोर रहा। इससे टीम के मूल निष्कर्ष की पुष्टि होती है: प्रत्यक्ष गुणवत्ता को अनुकूलित करना और गणितीय मापदंडों को अनुकूलित करना, मूलतः दो अलग दिशाएँ हैं, और आप दोनों को एक साथ प्राप्त नहीं कर सकते।

एक कालीन बिंदु, न कि अंत

PICO के अपनी सीमाएँ भी हैं। शोध पत्र स्वीकार करता है कि कार्टून, आरेख आदि अत्यधिक नियमित संश्लेषित छवियों के लिए, PICO की संपीड़न दक्षता पारंपरिक कोडेक्स से कम है, क्योंकि ऐसी सामग्री स्वाभाविक रूप से नियम-आधारित स्वयं-पुनर्निर्माण मॉडलिंग के लिए उपयुक्त होती है, न कि संवेदनात्मक उत्पादन के लिए।

लेकिन इन सीमाओं से इस कार्य का महत्व छिपा नहीं है।

पिछले तीस वर्षों में, छवि संपीड़न की तकनीकी प्रगति लगभग सभी "डिजिटल को बेहतर दिखाने" के मार्ग पर हुई है। JPEG से HEVC और फिर VVC तक, इंजीनियर्स ने PSNR, SSIM जैसे सूचकांकों को लगातार बेहतर बनाया है। और मानव दृष्टि की अनुभूति, हमेशा एक ऐसी "समस्या" रही है जिससे बचा गया है।

PICO ने पहली बार इस कठिन समस्या को व्यवस्थित रूप से सीधे हल किया: आर्किटेक्चर सर्च, हानि फंक्शन डिज़ाइन, बड़े पैमाने पर मानवीय विषयगत मूल्यांकन तक, और अंततः एक ऐसे कोडेक में समायोजित किया जो मोबाइल फोन पर वास्तविक समय में चल सके।

जब आप अगली बार अपने ऐपल डिवाइस से एक फोटो साझा करेंगे, तो शायद आपको कोई अंतर महसूस नहीं होगा। लेकिन शायद उस शांत संपीड़न प्रक्रिया के भीतर, एक ऐसा एल्गोरिदम काम कर रहा है जो मानव दृष्टि के अनुकूल है, और यह तय कर रहा है कि कौन सी जानकारी बरकरार रखी जाए और कौन सी चुपचाप भूल जाई जा सकती है।

टीम: वेववन से ऐप्पल तक

इस पेपर के संपर्क लेखक ओरेन रिपेल हैं, एप्पल के रिसर्चर और कम्प्रेशन के क्षेत्र के पुराने चेहरे।

उसका नाम सबसे पहले 2017 में बड़े पैमाने पर सामने आया। उस समय वह स्टार्टअप कंपनी WaveOne में था, जिसने "रियल-टाइम एडेप्टिव इमेज कम्प्रेशन" शीर्षक से एक पेपर प्रकाशित किया, जिसमें न्यूरल नेटवर्क का उपयोग करके उसने तब के सभी प्रमुख कोडेक्स को हरा दिया और रियल-टाइम रनिंग स्पीड बनाए रखी। वह पेपर अकादमिक समुदाय में काफी हलचल पैदा कर गया और रिप्पेल को लर्निंग-बेस्ड कम्प्रेशन के क्षेत्र में स्थिति प्रदान की।

PICO

इसके बाद, एक ही मूल टीम ने WaveOne पर वीडियो संपीड़न के लिए ELF-VC लॉन्च किया, जिसने UVG वीडियो टेस्ट सेट पर H.264 की तुलना में 44% की बिटरेट बचत प्राप्त की और समान ML कोडेक की तुलना में पांच गुना तेज़ गति से काम किया।

वेववन की यह टीम बाद में पूरी तरह से ऐपल में शामिल हो गई। और इस PICO के साथ, वे ऐपल की कैलकुलेशन क्षमता और प्लेटफॉर्म संसाधनों के साथ इमेज परसेप्शन कम्प्रेशन पर अपना पहला व्यवस्थित उत्तर प्रस्तुत कर रहे हैं।

यह लेख वेचेन ग्रुप "मशीन जीवन" (ID: almosthuman2014) से आया है, लेखक: संपीड़न ही बुद्धिमत्ता है