ما أصغر حجم يمكن ضغط صورة إليه؟
في فبراير 2025، أعلنت مجموعة الخبراء الدولية للصور (JPEG) عن حدث احتُفل به بهدوء من قبل الصناعة: تم إطلاق JPEG AI، أول معيار دولي للتشفير المرئي القائم على التعلم الشامل، والذي استغرق سنوات عديدة وتم توقعه بشدة.

انتشر الخبر، وشارك العديد من الباحثين على وسائل التواصل الاجتماعي، مرفقين تعليقات مثل "أدخل الذكاء الاصطناعي أخيرًا المعايير".
تم إنشاء معيار JPEG في عام 1992، وكان لثلاثين عامًا أو أكثر لغة أساسية للصور الرقمية البشرية. والآن، بدأت الذكاء الاصطناعي في تولي مهام إعادة كتابة قواعد هذه اللغة.
ومع ذلك، وراء الاحتفال توجد واقع دقيق: حتى JPEG AI، لا يزال يبعد مسافة كبيرة عن "الضغط الإدراكي" الحقيقي.
يعرف المهندسون أن مقياس التقليدي لجودة الضغط، وهو نسبة الإشارة إلى ضجيج الذروة (PSNR)، لا يرتبط بشكل كبير بما يراه الإنسان على أنه "جميل" أو "غير جذاب". فقد تحصل صورة على درجة عالية في PSNR، لكن الإنسان قد يراها عادية؛ بينما قد تبدو صورة أخرى ذات PSNR منخفضة للعين البشرية غنية بالتفاصيل وواقعية في الملمس. تحسين المؤشرات الرياضية وتحسين الإدراك البشري هما أمرين مختلفين تمامًا.
لعقود، ظل منطق تصميم جميع خوارزميات الترميز، من JPEG إلى VVC وحتى JPEG AI، يدور ضمن إطار المؤشرات الرياضية. ظلت الضغط الإدراكي (الذي يُحسَب مباشرةً بناءً على تجربة العين البشرية) هدفًا نظريًا في الأوراق الأكاديمية، وليس واقعًا هندسيًا يمكن تضمينه في الهاتف المحمول.
في هذا التوقيت بالضبط، نشر فريق من مهندسي آبل ورقة بحثية سرية، وقدموا إجابتهم تحت الاسم الرمزي: PICO.

عنوان البحث: ما الذي يهم في ضغط الصور المُتعلّم عمليًا
رابط الورقة البحثية: https://arxiv.org/pdf/2605.05148
لماذا يكون "الظهور بشكل أفضل" أصعب بكثير من "الرقم الأعلى"?
قبل فهم PICO، يجب أولاً فهم ما الذي تقوم به ضغط الصور.
حفظ صورة كملف هو في جوهره مسألة توازن بين "ما الذي يجب نسيانه وما الذي يجب تذكره". نظرًا لوجود مساحة تخزين محدودة، يجب التخلص من جزء من المعلومات مع الحفاظ على إدراك المشاهد قدر الإمكان. تلتزم خوارزميات الترميز وفك الترميز المختلفة بـ"طرق إزالة" مختلفة.
إن مُكوّنات الترميز التقليدية مثل JPEG وAV1 وVVC هي أنظمة قواعد تم تصميمها يدويًا من قبل المهندسين. فهي تقسم الصور إلى كتل، وتطبق تحويلات، وتُكمّم، وتُشفّر بالإنتروبيا، وكل خطوة هي نتيجة عقود من الخبرة البشرية المكتسبة. يمكن لهذه الأنظمة أن تحقق أداءً ممتازًا على مقاييس رياضية مثل PSNR، لكن تصميمها موجه جوهريًا نحو "تقليل خطأ البكسل" وليس نحو "تقليل عدم الراحة البصرية للعين البشرية".
المشكلة أن العين البشرية ليست عدادًا للأخطاء البكسيلية. حساسية العين البشرية للملمس، والنص، والتفاصيل، أكثر تعقيدًا بكثير من الصيغ الرياضية. عندما تضغط صورة مشهد شارع إلى حجم صغير جدًا، قد يظل PSNR مقبولًا، لكنك ستشاهد حواف المباني باهتة ونصوص لوحات الطرق مشوهة — وهذه بالضبط الأشياء التي تلاحظها العين البشرية أولًا.
ظهور مُشفّر/مُفكّك قائم على التعلم فتح نظريًا بابًا جديدًا: يمكن للشبكات العصبية التدريب من طرف إلى طرف بناءً على الإدراك البشري مباشرة، بدلاً من التدريب على الصيغ الرياضية. لكن قبل PICO، كانت مُشفّرات/مُفكّكات التعلم الإدراكي الموجودة مسبقًا إما بطيئة جدًا لدرجة لا تجعلها قابلة للتطبيق، أو تفتقر إلى التوافق بين الأجهزة، أو لا تسمح بالتحكم المرن في معدل البت، لدرجة أنها لا يمكن تضمينها في منتج استهلاكي.
ثلاثة أسئلة أساسية، ثلاث حلول
الاسم الكامل لـ PICO هو Perceptual Image Codec (مُشَفِّر/مُفكِّك الصورة الإدراكية). هذا الاسم يُبرز مباشرة هدفه: إرضاء العين البشرية.

استكشف فريق البحث منظوميًا ملايين التكوينات للنماذج، وأدخل عدة ابتكارات تقنية رئيسية.
السؤال الأول: كيف أتعامل مع تشفير الإنتروبيا البطيء؟
في ضغط الصور، توجد مشكلة: من أجل تحقيق ضغط أكبر، يجب على المُشفِّر/المُفكِّك أن يستخدم "نموذج الإنتروبيا" لتقدير كمية المعلومات لكل بكسل بدقة. الطريقة الأكثر دقة تُسمى التشفير الذاتي التكراري: عند ضغط كل بكسل، يجب أولاً النظر إلى البكسلات المضغوطة المحيطة بها، ثم التنبؤ تدريجياً. هذا يشبه طاهياً يضع كل مكون، فينظر خلفه ليتحقق من حالة المقلاة قبل اتخاذ الخطوة التالية. دقيق، لكنه بطيء للغاية.
حل PICO هو "نموذج سياق واحد" (One-shot Context Model): يتم فصل "معامل المقياس" الأكثر أهمية في ترميز الإنتروبيا بشكل منفصل، ويتم حسابه بالكامل في عملية تقدمية واحدة، دون الحاجة إلى الانتظار ذهابًا وإيابًا؛ بينما يمكن حساب باقي المعاملات بالتوازي، مع الحفاظ على دقة النموذج التكراري، لكنه يتجاوز عقبة سرعته. النتيجة: عند إزالة هذا المودول، ينخفض أداء النموذج بنسبة 10.28٪؛ وعند إضافته، لا يتأثر السرعة تقريبًا.

السؤال الثاني: ماذا يجب فعله إذا تسبب التدريب على الإدراك في هلوسات؟
غالبًا ما تبدو الصور المدربة باستخدام GAN (الشبكات العصبية التنافسية) "واقعية جدًا"، لكنها قد تكون واقعية مُختلقة — حيث تتحول خصلات الشعر إلى أنماط غير موجودة، وتظهر نسيجات زائفة على الأسطح الملساء. وأكثر من ذلك، فإن العين البشرية حساسة جدًا للنصوص، حتى لو تغير حرف واحد بشكل طفيف، فسيتم اكتشافه على الفور.
صممت PICO خسارة TextFidelityLoss خصيصًا للنص: باستخدام كاشف نص جاهز، يتم تحديد مناطق النص تلقائيًا في الصورة، ويتم فرض قيود صارمة على دقة البكسل في هذه المناطق، مع تقليل "المساحة الإبداعية" التي يمتلكها GAN في مناطق النص. أظهرت التجارب أن إضافة وظيفة الخسارة هذه خفّض الخطأ المطلق في مناطق النص بنسبة 50% بالضبط.

السؤال الثالث: كيف يمكن التعامل مع الحدود الظاهرة بين كتل الصور عند معالجتها؟
لتشغيله بسرعة على شريحة الهاتف، قسمت PICO الصور إلى مربعات بحجم 504×504 بكسل، وعالجتها بشكل منفصل ثم أعادت دمجها. لكن نماذج GAN تميل أثناء التدريب إلى تجاهل الألوان منخفضة التردد، مما يؤدي إلى ظهور فروق ألوان مرئية بين المربعات المجاورة، مشابهة لإحساس "عدم الدمج الجيد" عند تحرير الصور. قام فريق البحث بإدخال TilingArtifactLoss بشكل خاص، وهو خسارة L1 متعددة الدقة، لإجبار النموذج على الحفاظ على اتساق الألوان عبر ترددات مكانية متعددة. وقد أدت هذه الإجراءات إلى خفض خطأ الحدود بين المربعات بأكثر من النصف.
نتائج التجربة
فريق آيفون لا يعتمد فقط على مقاييس التقييم المرجعية. لقد كلفوا منصة طرف ثالث تُدعى Mabyduck بتنظيم تقييم بشري موضوعي واسع النطاق.
تم إجراء التقييم باستخدام طريقة المقارنة المزدوجة العمياء: قام 610 مقيّمين مُنتقَين (يجب أن يجتازوا اختبار العمى اللوني واختبار التعرف على آثار الضغط) بمقارنة أزواج لنتائج إعادة البناء لنفس الصورة باستخدام مُشفّرات ومُفكّكة مختلفة، ثم تم تجميع النتائج في درجات Bayesian ELO. تم جمع إجمالي 74,925 مقارنة زوجية.

الأرقام النهائية تتحدث عن نفسها: عند جودة بصرية مماثلة، يكون حجم ملف PICO فقط بين ثلث ونصف حجم ملفات AV1 وAV2 وVVC وECM وJPEG AI — بمعنى آخر، لتخزين نفس الصورة، فهو يحتاج فقط إلى 30%-43% من البتات المطلوبة من هذه المعايير. مقارنة بأقوى مُشفّر/مُفكّك إدراكي مبني على التعلم حاليًا (HiFiC وMRIC إلخ)، يوفر PICO أيضًا 20%-40% من حجم الملف.

من حيث السرعة، يستغرق ترميز صورة 12MP على iPhone 17 Pro Max فقط 230 مللي ثانية، ويستغرق فك الترميز 150 مللي ثانية فقط. بينما تعمل معظم مُرمّزات/فكّ مُرمّزات ML الرائدة على بطاقة فيديو خادم NVIDIA V100 بسرعة أبطأ من ذلك.
جدير بالذكر أن الورقة سجّلت أيضًا حالة "معكوسة": حيث أظهر PICO أداءً متوسطًا على مؤشر PSNR التقليدي، بل وتفوّق عليه DCVC-RT وVVC. وهذا يؤكد تمامًا التقييم الأساسي للفريق: تحسين جودة الإدراك وتحسين المؤشرات الرياضية هما اتجاهان جوهريًا مختلفان، ولا يمكن تحقيق كليهما معًا.
عقد زمني، وليس نقطة نهاية
يوجد أيضًا قيود على PICO. تعترف الورقة بأن كفاءة ضغط PICO أقل من مُشفِّرات/مُفكِّكة تقليدية بالنسبة للصور المُولَّدة بشكل عالي التنظيم مثل الرسوم الكرتونية أو المخططات، لأن هذا النوع من المحتوى مناسب طبيعيًا للنمذجة التكرارية القائمة على القواعد، وليس للإنشاء الإدراكي.
But these limitations do not obscure the significance of this work.
على مدار الثلاثين عامًا الماضية، حدثت تقدمات تقنية في ضغط الصور تقريبًا جميعها على مسار "جعل الرقم أكثر جمالًا". من JPEG إلى HEVC، ثم VVC، قام المهندسون عبر الأجيال بتحسين مؤشرات مثل PSNR وSSIM. لكن الإدراك البشري ظل دائمًا "مشكلة" تُتجاهل.
PICO هو أول من قام بتفكيك هذا التحدي المعقد بشكل منهجي: من بحث البنية، إلى تصميم دالة الخسارة، ثم التقييم الذاتي البشري على نطاق واسع، وأخيرًا تضمينه في مُشفّر/مُفكّك يمكن تشغيله في الوقت الفعلي على الهاتف المحمول.
عندما تشارك صورة باستخدام جهاز Apple الخاص بك في المرة القادمة، ربما لن تشعر بأي فرق. لكن ربما في تلك العملية الهادئة للضغط، يقوم خوارزمية مصممة خصيصًا لتقدير إدراك العين البشرية بتحديد أي المعلومات تستحق الاحتفاظ بها وأيها يمكن نسيانها بهدوء.
الفريق: من WaveOne إلى Apple
الكاتب المُتواصل للورقة البحثية هو أورين ريبيل، باحث في آبل، ووجه معروف في مجال الضغط.
ظهر اسمه لأول مرة على نطاق واسع في عام 2017. في ذلك الوقت، كان لا يزال يعمل في الشركة الناشئة WaveOne، حيث نشر ورقة بحثية بعنوان "ضغط الصور التكيفي في الوقت الحقيقي"، واستخدم الشبكات العصبية للتفوق على جميع مُشفّرات/مُفكّكي الترميز الرائجة آنذاك، مع الحفاظ على سرعة التشغيل في الوقت الحقيقي. أثارت تلك الورقة البحثية ضجة كبيرة في الأوساط الأكاديمية، ورسّخت مكانة ريبيل في مجال الضغط القائم على التعلم.

بعد ذلك، استمر نفس الفريق الأساسي في WaveOne في التعمق، وأطلق ELF-VC الموجه لضغط الفيديو، والذي حقق توفيرًا في معدل البت بنسبة 44% مقارنة بـ H.264 على مجموعة اختبار الفيديو UVG، مع سرعة تشغيل تزيد عن خمس مرات مقارنة بمحولات ML المماثلة.
انضم فريق WaveOne بالكامل لاحقًا إلى آبل. وهذه المرة، مع PICO، قدموا أول إجابة منهجية في ضغط الصور المستندة إلى الإدراك، مستخدمين قوة الحوسبة وموارد المنصة من آبل.
هذا المقال من حساب ويشات الرسمي "ماشين سينس" (ID: almosthuman2014)، الكاتب: الضغط هو الذكاء
