ایک تصویر کتنی چھوٹی ہو سکتی ہے؟
فروری 2025 میں، بین الاقوامی جی پی ای جی (JPEG) نے ایک ایسی بات کا اعلان کیا جسے صنعت نے خاموشی سے منایا: JPEG AI، جو کہ کئی سالوں کی محنت اور امیدوں کا پہلا اینڈ تو اینڈ سیکھنے والا تصویری کوڈنگ بین الاقوامی معیار ہے، کا رسمی طور پر اطلاق ہو گیا۔

خبر پھیل گئی، اور کئی محققین نے سوشل میڈیا پر اسے شیئر کیا، جس کے ساتھ "AI بالآخر معیار میں داخل ہو گیا" کا تبصرہ کیا۔
JPEG معیار 1992 میں متعارف کرایا گیا، اور تین دہائیوں سے زیادہ عرصہ تک انسانی ڈیجیٹل تصاویر کی بنیادی زبان رہا ہے۔ اب، صنعتی ذہانت اس زبان کے گرامر کو دوبارہ لکھنا شروع کر چکی ہے۔
تاہم، جشن کے پیچھے ایک ظریف حقیقت ہے: حتیٰ کہ JPEG AI بھی اصلی "سنسیٹیو کمپریشن" تک کافی دور ہے۔
انجینئرز جانتے ہیں کہ روایتی طور پر کمپریشن کی معیار کو ناپنے کا اشارہ، جسے پیک سگنل نوائز ریشو (PSNR) کہتے ہیں، اس کا انسانی آنکھوں کے لیے "کتنا اچھا لگتا ہے" سے کم تعلق ہے۔ ایک تصویر PSNR پر اعلی درجہ حاصل کر سکتی ہے، لیکن انسان دیکھ کر اسے عام سمجھ سکتا ہے؛ جبکہ دوسری تصویر جس کا PSNR کم ہو، وہ انسان کو تفصیلات سے بھرپور اور حقیقی محسوس ہو سکتی ہے۔ ریاضیاتی اشاروں کو بہتر بنانا اور انسانی آنکھوں کے احساس کو بہتر بنانا، دو بالکل مختلف چیزیں ہیں۔
کئی دہائیوں سے، JPEG سے لے کر VVC اور JPEG AI تک، تقریباً تمام کوڈیکس کی ڈیزائن منطق ریاضیاتی اشاریوں کے ڈھانچے کے اندر گھوم رہی ہے۔ ادراکی دباؤ (جو براہ راست انسانی آنکھوں کے تجربے کو بہتر بناتا ہے) ہمیشہ اکادمیک مقالوں کا ایک دور دراز مقصد رہا ہے، نہ کہ فون میں جمع کیا جا سکنے والا انجینئرنگ عمل۔
اسی اہم لمحے پر، ایپل کی ایک انجینئرنگ ٹیم نے اپنا جواب شائع کیا، جس کا کوڈ نام: PICO ہے۔

عملی سیکھی گئی تصویر کمپریشن میں کیا اہم ہے
کاغذ کا لنک: https://arxiv.org/pdf/2605.05148
کیوں کہ "بہتر دکھائی دینا" "اہم ترین عدد" سے زیادہ مشکل ہے؟
پیکو کو سمجھنے سے پہلے، آپ کو یہ سمجھنا ہوگا کہ تصویر کمپریشن دراصل کیا کر رہا ہے۔
ایک تصویر کو فائل کے طور پر محفوظ کرنا، بنیادی طور پر “کیا بھولنا ہے، کیا یاد رکھنا ہے” کا ایک توازن کا مسئلہ ہے۔ اسٹوریج کی جگہ محدود ہے، اس لیے کچھ معلومات کو چھوڑنا پڑتا ہے، جبکہ دیکھنے والے کو اس کا احساس نہ ہو۔ مختلف کوڈکس مختلف “چھوڑنے کے طریقے” پر عمل کرتے ہیں۔
JPEG، AV1، VVC جیسے روایتی کوڈیکس مهندسین کے ہاتھ سے ڈیزائن کیے گئے قوانین کے نظام ہیں۔ وہ تصاویر کو ٹکڑوں میں تقسیم کرتے ہیں، تبدیل کرتے ہیں، مقدار میں کم کرتے ہیں، اور اینٹروپی کوڈنگ کرتے ہیں، جس کا ہر مرحلہ دہائیوں کی تجربات پر مبنی ہے۔ اس قسم کے نظام PSNR جیسے ریاضیاتی اشاریوں پر بہت اچھا پرفارم کرتے ہیں، لیکن ان کا ڈیزائن بنیادی طور پر "پکسل کی غلطی کو کم کرنا" پر مبنی ہے، نہ کہ "انسانی آنکھوں کی ناراحتی کو کم کرنا"۔
مسئلہ یہ ہے کہ انسانی آنکھیں پیکسل کی غلطیوں کا شمار کرنے والے اوزار نہیں ہیں۔ انسانی آنکھیں بناوٹ، متن، اور تفصیلات کے لیے بہت زیادہ حساس ہیں، جو ریاضی کے فارمولوں سے کہیں زیادہ پیچیدہ ہیں۔ جب آپ ایک سڑک کے منظر کی تصویر کو بہت چھوٹا کر دیتے ہیں، تو PSNR اب بھی قابل قبول ہو سکتا ہے، لیکن آپ کو عمارتوں کے کناروں کا ادھم پڑنا اور راستہ نشانوں کے حروف کا بگڑنا نظر آئے گا — اور یہی وہ چیزیں ہیں جنہیں انسانی آنکھیں سب سے پہلے نوٹ کرتی ہیں۔
سیکھنے والے کوڈک کے ظہور نے نظریہ طور پر ایک نئے دروازے کو کھولا: نیورل نیٹ ورکس کو ریاضی کے فارمولوں کے بجائے انسانی احساسات کے لیے براہ راست ٹرین کیا جا سکتا ہے۔ لیکن PICO سے پہلے، موجودہ احساساتی سیکھنے والے کوڈکس یا تو اتنے سست تھے کہ ان کا استعمال ممکن نہیں تھا، یا پھر ڈیوائسز کے درمیان مطابقت نہیں رکھتے تھے، یا پھر بٹ ریٹ کو لچکدار طور پر کنٹرول نہیں کر سکتے تھے، جس کی وجہ سے وہ کسی مارکیٹ میں موجود صارفین کے لیے مصنوعات میں جمع نہیں ہو سکتے تھے۔
تین بنیادی سوالات، تین حل
PICO کا مکمل نام Perceptual Image Codec (تصویری ادراکی کوڈیک) ہے۔ اس کا نام اس کا مقصد براہ راست ظاہر کرتا ہے: انسانی آنکھوں کو خوش کرنا۔

تحقیقی ٹیم نے لاکھوں ماڈل کنفیگریشنز کا جامع طور پر جائزہ لیا اور کئی اہم ٹیکنالوجی کے ایجادات متعارف کرائیں۔
پہلا سوال: اینٹروپی کوڈنگ سست کیوں ہے؟
تصویر کمپریشن میں ایک چیلنج یہ ہے کہ زیادہ کمپریس کرنے کے لیے، کوڈک کو ہر پکسل کی معلومات کا درست اندازہ لگانے کے لیے "اینٹروپی ماڈل" کا استعمال کرنا پڑتا ہے۔ سب سے زیادہ درست طریقہ خود بخود کوڈنگ ہے: ہر پکسل کو کمپریس کرتے وقت، آپ کو پہلے اردگرد کے پہلے سے کمپریس ہو چکے پکسلز کو دیکھنا پڑتا ہے تاکہ اگلا پکسل مناسب طریقے سے پیش بینی کیا جا سکے۔ اس کا مطلب یہ ہے جیسے کوک ہر ایک اجزاء ڈالتے وقت، اپنے اگلے اقدام کا فیصلہ کرنے سے پہلے برتن کی حالت دیکھتا ہے۔ درست لیکن بہت سست۔
پیکو کا حل "اوون شاٹ کانٹیکسٹ ماڈل" ہے: اینٹرو کوڈنگ میں سب سے اہم "سکیل پیرامیٹر" کو الگ کر دیا جاتا ہے، اور ایک منفرد فارورڈ پاس میں ان کا پورا حساب لگا دیا جاتا ہے، جس سے بار بار انتظار کی ضرورت نہیں رہتی؛ جبکہ باقی پیرامیٹرز کو متوازی طور پر کمپیوٹ کیا جا سکتا ہے، جس سے آٹو ریگریسیو کی درستگی برقرار رہتی ہے لیکن اس کی رفتار کا بندوبست ہو جاتا ہے۔ نتیجہ یہ ہے: اس ماڈول کو ہٹا دینے سے ماڈل کی کارکردگی 10.28% کم ہو جاتی ہے؛ اسے شامل کرنے سے رفتار میں تقریباً کوئی فرق نہیں آتا۔

دوسرا سوال: جب تربیت سے الگیاں پیدا ہو جائیں، تو کیا کریں؟
GAN (对抗性神经网络) سے تربیت یافتہ تصاویر اکثر "واقعی لگتی ہیں"، لیکن وہ مصنوعی حقیقت ہو سکتی ہیں — بالوں کے ریشے غیر موجودہ نمونوں میں تبدیل ہو جاتے ہیں، اور صاف سطحوں پر جعلی بناوٹ شامل ہو جاتی ہے۔ اور مزید مشکل بات یہ ہے کہ انسانی آنکھیں متن کے لیے بہت حساس ہوتی ہیں، جس کا مطلب ہے کہ صرف ایک حرف کا تھوڑا سا تبدیل ہونا بھی فوراً نظر آ جاتا ہے۔
PICO نے متن کے لیے خصوصی طور پر TextFidelityLoss ڈیزائن کیا ہے: ایک موجودہ متن کا شناخت کرنے والا ڈیٹیکٹر استعمال کرتے ہوئے تصویر میں متن کے علاقوں کو خودکار طور پر شناخت کیا جاتا ہے، اور ان علاقوں میں سخت پکسل فیدلٹی کا پابند لگایا جاتا ہے، جبکہ GAN کو متن کے علاقوں میں "کھیلنے کی جگہ" دبانے کی کوشش کی جاتی ہے۔ تجربات سے پتہ چلتا ہے کہ اس نقصان فنکشن کو شامل کرنے کے بعد، متن کے علاقوں میں مطلق غلطی مکمل طور پر آدھی ہو گئی۔

تیسرا سوال: تصویر کے ٹکڑوں کے معالجہ سے رنگ کے حدوں کا ظہور ہوتا ہے، اس کا حل کیا ہے؟
موبائل چپ پر تیزی سے چلانے کے لیے، پیکو تصویر کو 504×504 پکسل کے ٹائلز میں تقسیم کرتا ہے، انہیں الگ الگ پروسیس کرتا ہے اور پھر دوبارہ جوڑ دیتا ہے۔ لیکن GAN تربیت کے دوران کم ترین اکھڑوں کو نظرانداز کرنے کا رجحان رکھتا ہے، جس سے مجاور ٹائلز کے درمیان عام طور پر نمایاں رنگ کا فرق آ جاتا ہے، جیسے فوٹو ایڈٹنگ میں "بھلی طرح جوڑا نہ گیا ہو"۔ تحقیقی ٹیم نے خصوصی طور پر TilingArtifactLoss نامی ایک متعدد تفصیلی L1 نقصان متعارف کرایا، جو ماڈل کو مختلف فضاٸی اکھڑوں پر رنگ کی ایک جیسی رکھنے کے لیے مجبور کرتا ہے۔ اس اقدام سے ٹائلز کے کناروں پر خطاء بھی نصف سے زائد کم ہو گئی۔
تجربی نتائج
ایپل ٹیم صرف بنچ مارک اندازہ کے ذریعے بات نہیں کرتی۔ انہوں نے تیسری پارٹی پلیٹ فارم Mabyduck کو متعین کیا تاکہ ایک بڑے پیمانے پر انسانی سبجیکٹو ایوانٹ منعقد کیا جا سکے۔
جائزہ کا طریقہ اندھا مقابلہ ہے: 610 چنے گئے جائزہ دینے والوں (جو رنگوں کی پہچان اور کمپریشن آرٹیفیکٹس کی تشخیص کے ٹیسٹ سے گزر چکے ہیں) نے مختلف کوڈکس کے تحت ایک ہی تصویر کے ریکنسٹرکٹڈ نتائج کا موازنہ کیا، جس کا نتیجہ Bayesian ELO اسکور کے طور پر جمع کیا گیا۔ کل 74,925 اندھے مقابلہ کے نتائج جمع کیے گئے۔

آخری اعداد و شمار خود بخود ثابت کرتے ہیں: ایک جیسی ویژول کوالٹی کے ساتھ، PICO کا فائل سائز AV1، AV2، VVC، ECM اور JPEG AI کے تینویں یا آدھے سے زیادہ نہیں ہوتا — یعنی، ایک جیسی تصویر محفوظ کرنے کے لیے، اسے صرف ان معیارات کے 30% سے 43% تک بٹس کی ضرورت ہوتی ہے۔ موجودہ سب سے طاقتور سیکھنے والے پرسپٹوئل کوڈکس (HiFiC، MRIC وغیرہ) کے مقابلے میں، PICO فائل کے سائز میں 20% سے 40% تک بچت فراہم کرتا ہے۔

سپیڈ کے لحاظ سے، iPhone 17 Pro Max پر ایک 12MP فوٹو کو PICO کوڈ کرنے میں صرف 230 ملی سیکنڈ اور ڈی کوڈ کرنے میں صرف 150 ملی سیکنڈ لگتے ہیں، جبکہ زیادہ تر بہترین ML کوڈکس NVIDIA V100 سرور گرافکس کارڈ پر چل کر اس سے سست ہیں۔
قابل ذکر ہے کہ تحقیقی مقالہ میں ایک "مخالف مثال" بھی درج کی گئی ہے: PSNR جیسے روایتی اشاریے پر، PICO کا کارکردگی عام ہے، اور یہ DCVC-RT اور VVC سے کم بھی ہے۔ اس سے ٹیم کا بنیادی فرضیہ ثابت ہوتا ہے: جذباتی معیار کو بہتر بنانا اور ریاضیاتی اشاریوں کو بہتر بنانا، بنیادی طور پر دو مختلف راستے ہیں، جن میں سے ایک کو حاصل کرنے کے لیے دوسرے کو ترک کرنا پڑتا ہے۔
ایک عہد کا نکات، نہ کہ اختتام
پیکو کے خود میں حدود بھی ہیں۔ تحقیقی مقالہ تسلیم کرتا ہے کہ کارٹون، اسکیمیٹکس جیسی انتہائی منظم مرکب تصاویر کے لیے، پیکو کی دباؤ کارکردگی روایتی کوڈک سے کم ہے، کیونکہ اس قسم کے مواد خودکار ماڈلنگ کے لیے قدرتی طور پر مناسب ہوتا ہے، نہ کہ ادراکی پیداوار کے لیے۔
لیکن ان حدود سے اس کام کی اہمیت ختم نہیں ہوتی۔
گزشتہ تین دہائیوں میں، تصویر کمپریشن کی تکنیکی ترقیات تقریباً صرف "ڈیجیٹل کو بہتر دکھانے" کے راستے پر ہوئی ہیں۔ JPEG سے لے کر HEVC اور پھر VVC تک، انجینئرز نے PSNR، SSIM جیسے اشاریوں کو بار بار بہتر بنایا۔ لیکن انسانی آنکھوں کا احساس ہمیشہ ایک نظرانداز کیا جانے والا "مشکل" رہا۔
PICO نے پہلی بار اس مشکل مسئلے کو نظام مند طریقے سے ٹوکا: آرکیٹیکچر سرچ، نقصان فنکشن ڈیزائن، اور بڑے پیمانے پر انسانی سبجیکٹو ایوال تک، اور آخر کار ایک ایسا اینکوڈر/ڈیکوڈر تیار کیا جو موبائل فون پر ریل ٹائم میں چل سکے۔
جب آپ اگلی بار اپنے ایپل ڈیوائس کے ذریعے ایک تصویر شیئر کریں گے، تو شاید آپ کو کوئی فرق محسوس نہیں ہوگا۔ لیکن شاید اس خاموش کمپریشن کے عمل کے اندر، ایک ایسا الگورتھم کام کر رہا ہے جو آنکھوں کی تصوری صلاحیتوں کے مطابق ڈیزائن کیا گیا ہے، جو فیصلہ کر رہا ہے کہ کون سی معلومات برقرار رکھنے کے قابل ہیں اور کون سی کو خاموشی سے بھول سکتے ہیں۔
ٹیم: ویو ون سے ایپل تک
اس تحقیقی مقالے کے مخاطب مصنف اورن رپل ہیں، ایپل ریسرچر، جو کمپریشن کے شعبے کے قدیمی رکن ہیں۔
اس کا نام سب سے پہلے 2017 میں بڑے پیمانے پر سامنے آیا۔ اس وقت وہ اسٹارٹ اپ کمپنی WaveOne میں تھا، جہاں اس نے "ریل ٹائم ایڈاپٹوو امیج کمپریشن" کے عنوان سے ایک تحقیقی مقالہ شائع کیا، جس میں اس نے نیورل نیٹ ورکس کا استعمال کرتے ہوئے اس وقت کے تمام مقبول کوڈیکس کو شکست دی اور ساتھ ہی ریل ٹائم رننگ سپیڈ برقرار رکھی۔ اس مقالے نے اکادمیک دنیا میں بڑا اثر ڈالا اور رپل کو سیکھنے والی کمپریشن کے شعبے میں اپنا مقام دلایا۔

اس کے بعد، ایک ہی مرکزی ٹیم نے WaveOne پر کام جاری رکھا اور ویڈیو کمپریشن کے لیے ELF-VC متعارف کرایا، جو UVG ویڈیو ٹیسٹ سیٹ پر H.264 کے مقابلے میں 44% بیٹ ریٹ بچاتا ہے اور دیگر ML کوڈیکس کے مقابلے میں پانچ گنا زیادہ تیز چلتا ہے۔
ویو ون کی یہ ٹیم بعد میں مکمل طور پر ایپل میں شامل ہو گئی۔ اور اب PICO، وہی ٹیم ہے جو ایپل کے کمپوٹنگ اور پلیٹ فارم کے وسائل کے ساتھ تصویری احساس کے دباؤ پر اپنا پہلا جامع جواب پیش کر رہی ہے۔
یہ مضمون ویچن گروپ "机器之心" (ID: almosthuman2014) سے ہے، مصنف: کمپریشن ایک انٹیلیجنس ہے
