Gaano kaliit ang isang larawan?
Sa Pebrero 2025, inanunsyo ng International JPEG Group (JPEG) ang isang bagay na pinagbati nang tahimik ng industriya: ang JPEG AI, ang unang internasyonal na standar para sa image coding na batay sa end-to-end learning na nagtagal ng maraming taon at may malaking pag-asa, ay opisyal nang ipinakilala.

Nagkalat ang mensahe, at maraming mga mananaliksik ang nag-share sa social media, kasama ang komento na "Sana'y pumasok na ang AI sa mga istandard."
Ipinatupad ang JPEG standard noong 1992, at naging pundasyonal na wika sa mga digital na imahe ng tao sa loob ng higit sa tatlong dekada. Ngayon, ang artificial intelligence ay nagsisimula nang umangkop upang muling isulat ang gramatika ng wika na ito.
Gayunpaman, may isang subtil na katotohanan sa likod ng pagdiriwang: kahit ang JPEG AI, mayroon pa ring malaking distansya mula sa tunay na “perceptual compression”.
Alam ng mga inhinyero na ang tradisyonal na tukoy sa kalidad ng kompresyon, ang peak signal-to-noise ratio (PSNR), ay may kaunting ugnayan sa "kagandahan" na nakikita ng mata ng tao. Maaaring makakuha ng mataas na marka ang isang imahe sa PSNR, ngunit maaaring magsilbing karaniwan ito sa paningin ng tao; samantala, maaaring magkaroon ng mas mababang PSNR ang isang imahe, ngunit maaaring makita ng tao ang mas maraming detalye at mas totoo ang tekstura. Ang pagpapabuti ng mga matematikal na tukoy at ang pagpapabuti ng pagkakakilala ng mata ay dalawang magkakaibang bagay.
Sa loob ng maraming dekada, mula sa JPEG hanggang sa VVC, at pati na ang JPEG AI, ang lahat ng disenyo ng mga codec ay nananatili pa rin sa loob ng kahaligian ng mga matematikal na sukat. Ang perceptual compression (direktang optimisado para sa karanasan ng mata) ay palaging tila isang malayong layunin sa mga akademikong papel, at hindi isang inhenyerong katotohanan na maaaring ilagay sa isang cellphone.
Sa ganitong panahon, isang koponan ng mga inhinyero ng Apple ay nagsalin ng isang papel, nagbibigay ng kanilang sagot, code name: PICO.

Pamagat ng papel: Ano ang Mahalaga sa Paggamit ng Natutunang Image Compression
Link ng papel: https://arxiv.org/pdf/2605.05148
Bakit mas mahirap ang “magmukhang mas maganda” kaysa sa “mas mataas ang numero”?
Bago maunawaan ang PICO, kailangan mong maunawaan kung ano ang ginagawa ng image compression.
Ang pag-save ng isang larawan bilang isang file ay sa katotohanan ay isang pagpili kung ano ang kalimutan at ano ang tatalikuran. Dahil limitado ang puwang sa pag-iimbak, kailangan mong tanggalin ang ilang impormasyon habang pinapanatili ang pagkakakilanlan ng imahe para sa mga manonood. Ang iba’t ibang codec ay sumusunod sa iba’t ibang paraan ng pagtanggal.
Ang mga tradisyonal na codec tulad ng JPEG, AV1, at VVC ay mga sistema ng mga patakaran na disenyo ng mga inhinyero. Ibinabahagi nila ang mga imahe sa mga bloke, nagpapalit-lit, nag-quantize, at nag-entropy encode; bawat hakbang ay batay sa libu-libong taon ng kamay na karanasan. Ang mga sistema na ito ay maaaring mag-perform nang lubos na mabuti sa mga matematikong pagsusuri tulad ng PSNR, ngunit ang kanilang disenyo ay pangunahing nakatuon sa "pagbabawas ng pixel error" at hindi sa "pagbabawas ng kawalan ng kasiyahan sa mata ng tao."
Ang problema ay ang mata ng tao ay hindi isang pixel error counter. Ang sensitibidad ng mata ng tao sa tekstura, sa teksto, at sa detalye ay mas kumplikado kaysa sa isang matematikal na pormula. Kapag pinapaliit mo nang sobra ang isang larawan ng kalye, maaaring manatili pa ring maayos ang PSNR, ngunit makikita mo ang pagkabaho sa mga gilid ng gusali at pagkakamali sa mga liham sa palatandaan — at ito ay mga bagay na unang napapansin ng mata ng tao.
Ang pagkakaroon ng learning codec ay teoretikal na nagbukas ng isang bagong pinto: ang mga neural network ay maaaring diretso na itrain batay sa pagkakakilala ng tao, hindi batay sa mga matematikal na pormula. Ngunit bago ang PICO, ang mga umiiral na perception-based learning codecs ay o sobrang mabagal upang magamit, o kulang sa compatibility sa iba’t ibang device, o hindi kayang kontrolin nang flexibleng bit rate, kaya’t hindi ito maaaring i-install sa isang consumer-grade na produkto.
Tatlong pangunahing tanong, tatlong solusyon
Ang buong pangalan ng PICO ay Perceptual Image Codec (Perceptual Image Codec). Direktang ipinapakita nito ang layunin nito: upang makasiguro sa mata ng tao.

Ang team ng pag-aaral ay sistematikong isinuri ang milyon-milyon na konfigurasyon ng modelo at ipinakilala ang ilang mahahalagang teknikal na inobasyon.
Unang tanong: Mabagal ang entropy encoding, ano ang gagawin?
May isang hamon sa image compression: upang mas maliit ang laki, kailangan ng encoder at decoder na gamitin ang "entropy model" upang tumpak na matantiya ang impormasyon ng bawat pixel. Ang pinakatumpak na paraan ay ang autoregressive encoding: bawat beses na i-compress ang isang pixel, kailangan munang tingnan ang mga nakapalibot nang nacompress na pixel, at i-predict nang sunod-sunod. Parang isang kusinero na bawat beses na ilalagay ang isang sangkap, kailangan niyang tingnan muna ang kalagayan ng kawali bago magdesisyon kung ano ang susunod. Tumpak, ngunit sobrang mabagal.
Ang solusyon ni PICO ay ang "One-shot Context Model": ang pinakamahalagang "scale parameter" sa entropy coding ay hihiwalay at kalkulahin nang buo sa isang forward pass, na nagtatanggal ng kailangang maghintay nang paulit-ulit; habang ang iba pang mga parameter ay maaaring kalkulahin nang paralelo, na nagpapanatili ng precision ng autoregressive ngunit nag-iwas sa kanyang bottleneck sa bilis. Ang resulta: pag-alis ng module na ito, bumaba ang performance ng model ng 10.28%; pagdadagdag nito, halos walang epekto sa bilis.

Ikalawang tanong: Ano ang gagawin kung ang pagtrabaho sa pagpapalawak ng pagkakaintindi ay nagdudulot ng hallucination?
Ang mga imahe na tinuturuan gamit ang GAN (adversarial neural network) ay karaniwang "nagmumukhang totoo," ngunit maaaring makabuo ng totoo — ang mga buhok ay naging disenyo na hindi umiiral, at ang mga magkakasamang surface ay may mga false texture. Mas malubhang problema ay ang mata ng tao ay sobrang sensitibo sa teksto; kahit isang titik na maliit lang ang pagbabago, agad itong makikita.
Ibinigay ng PICO ang TextFidelityLoss na disenyo para sa teksto: gamit ang isang umiiral na text detector upang awtomatikong makita ang mga rehiyon ng teksto sa imahe, at ipagpatuloy ang mahigpit na pixel fidelity constraint sa mga rehiyon na ito, habang pinipigilan ang "space for creativity" ng GAN sa mga rehiyon ng teksto. Ipinaliwanag ng mga eksperimento na bawasan ng kalahati ang absolute error sa mga rehiyon ng teksto pagkatapos idagdag ang loss function na ito.

Ikatlong tanong: Paano lutasin ang mga hangganan ng mga bloke ng kulay na naiiwan sa pagproseso ng mga block ng imahe?
Para sa mabilis na pagpapatakbo sa chip ng mobile phone, hinati ng PICO ang imahe sa mga tile na 504×504 pixel, pinagtrabahuhan nang hiwalay, at binungkal muli. Gayunpaman, ang GAN ay may tendensya na pansinin ang mga kulay na low-frequency habang tinuturuan, na nagdudulot ng makikita na pagkakaiba sa kulay sa pagitan ng mga kapitbahay na tile, parang hindi maayos na pinagsama sa pag-edit ng imahe. Ang team ng pag-aaral ay ipinakilala ang TilingArtifactLoss, isang multi-resolution L1 loss, upang pilitin ang modelo na panatilihin ang konsistensya ng kulay sa iba’t ibang spatial frequency. Ang hakbang na ito ay nagbawas din ng higit sa kalahati ang error sa mga hangganan ng tile.
Mga resulta ng eksperimento
Hindi lang nagmumula ang Apple team sa mga batayang pagsusuri. Kinuha nila ang tulong ng third-party platform na Mabyduck upang mag-organisa ng malawakang tao-based na pagsusuri.
Ang pagtataya ay ginagawa sa pamamagitan ng blind pairwise comparison: 610 na nagsusuri na pinili (kailangang lumampas sa pagsubok sa kolore blindness at pagkilala sa compression artifacts) ay nagkukumpara ng mga pares ng mga rekonstruksyon ng isang imahe sa iba’t ibang codecs, na pinagsama upang makuha ang Bayesian ELO score. Kolektahin ang 74,925 mga resulta ng pairwise comparison.

Ang huling numero ang nagsasabi ng lahat: Sa parehong kalidad ng visual, ang laki ng file ng PICO ay tanging isang-katlo hanggang isang-sampu ng laki ng AV1, AV2, VVC, ECM, at JPEG AI — ibig sabihin, para i-store ang parehong imahe, kailangan lang nito ng 30%-43% ng bilang ng bits kumpara sa mga istandar na ito. Kumpara sa kasalukuyang pinakamalakas na learning-based perceptual codecs (tulad ng HiFiC at MRIC), ang PICO ay nag-iipon din ng 20%-40% sa laki ng file.

Sa aspeto ng bilis, sa iPhone 17 Pro Max, ang PICO ay nakakakod ng isang 12MP na larawan sa loob ng 230 miliyong segundo lamang, at nakakadekode sa 150 miliyong segundo. Mas mabagal ang karamihan sa mga pinakamataas na ML codec na tumatakbo sa NVIDIA V100 server GPU.
Mahalagang tandaan na ang papel ay nag-record din ng isang «kabaligtaran»: sa PSNR, isang tradisyonal na sukat, ang PICO ay nagpakita ng karaniwang pagganap, kahit na mas mababa kaysa kay DCVC-RT at VVC. Ito ay direktang nagpapatotoo sa pangunahing paghuhusga ng tim: ang pag-optimize sa perceptual na kalidad at ang pag-optimize sa matematikal na sukat ay dobleng direksyon, at hindi mo maaaring makamit ang pareho.
Isang punto sa kasaysayan, hindi isang wakas
May limitasyon din ang PICO. Tinanggap ng papel na para sa mataas na regular na sintetikong imahe tulad ng mga cartoon at mga sketch, mas mababa ang kompresyon efficiency ng PICO kumpara sa mga tradisyonal na codec, dahil ang ganitong uri ng nilalaman ay naturally mas angkop sa rule-driven na autoregressive modeling kaysa sa perceptual generation.
Ngunit hindi ito nagpapaliwanag ng kahalagahan ng gawaing ito.
Sa nakalipas na tatlong dekada, ang mga pag-unlad sa teknolohiya ng pag-compress ng imahe ay nangyari halos lahat sa larangan ng “paggawa ng digital na mas maganda.” Mula sa JPEG hanggang sa HEVC, at pagkatapos ay VVC, ang mga inhinyero ay patuloy na pinapabuti ang mga indikador tulad ng PSNR at SSIM. Ngunit ang pagmamalasakit ng mata ng tao ay palaging isang “problemang” pinag-iwasan.
Ang PICO ay ang unang pagkakataon na sinikat ng isang tao na sistematikong hiwain ang mahirap na problema ito: mula sa architecture search, disenyo ng loss function, hanggang sa malaking saklaw ng human subjective evaluation, at sa huli ay isinaksak sa isang encoder-decoder na maaaring mag-run sa real-time sa isang mobile phone.
Kapag ikaw ay magsh-share ng isang larawan sa iyong Apple device sa susunod, baka hindi mo marinig ang anumang pagkakaiba. Ngunit baka sa tahimik na proseso ng compression, isang algorithm na disenyo para sa pagkakakilala ng mata, ang nagpapasya kung aling impormasyon ang dapat panatilihin at aling mga ito ay maaaring malamig na kalimutan.
Team: Mula sa WaveOne hanggang Apple
Ang kumunikasyon na may-akda ng papel na ito ay si Oren Rippel, isang researcher ng Apple at isang kilalang mukha sa larangan ng compression.
Unang malawakang nabanggit ang kanyang pangalan noong 2017. Noong panahong iyon, nasa startup na WaveOne siya at nagpahayag ng isang papel na may pamagat na “Real-Time Adaptive Image Compression,” kung saan tinapos ng neural network ang lahat ng pangunahing codec noong panahong iyon habang nananatiling real-time. Ang papel na iyon ay nagdulot ng malaking epekto sa akademikong mundo at nagtatag ng posisyon ni Rippel sa larangan ng learning-based compression.

Pagkatapos, ang parehong grupo ng pangunahing miyembro ay nagpatuloy sa pagpapalalim sa WaveOne at naglabas ng ELF-VC para sa video compression, na nakamit ng 44% na pagbawas sa bitrate kumpara sa H.264 sa UVG video test set, habang mas mabilis ng higit sa limang beses kaysa sa iba pang ML codecs.
Ang buong koponan ng WaveOne ay sumali sa Apple. At ang PICO na ito ay ang kanilang unang sistematisong sagot sa image perception compression, gamit ang computing power at platform resources ng Apple.
Ang artikulong ito ay galing sa WeChat public account na “Machine Heart” (ID: almosthuman2014), may-akda: Compression is Intelligence
