一張圖能壓多小?
在 2025 年 2 月,國際圖像專家組(JPEG)宣布了一件業界低調慶祝的事:JPEG AI,這項歷時多年、備受期待的首個端到端學習型圖像編碼國際標準,正式發布。

The news spread, and many researchers shared it on social media with comments such as “AI has finally made it into the standards.”
JPEG 標準誕生於 1992 年,三十多年來一直是人類數位圖像的一門基礎語言。而現在,人工智慧開始接手重寫這門語言的語法。
然而,慶祝背後有一個微妙的現實:即便是 JPEG AI,距離真正的「感知壓縮」,仍有相當距離。
工程師們知道,傳統衡量壓縮質量的指標峰值信噪比(PSNR)其實與人眼所感知的「好不好看」關係不大。一張圖在 PSNR 上得了高分,人看了卻可能覺得平平無奇;而另一張 PSNR 偏低的圖,人卻覺得細節豐富、質感真實。優化數學指標,和優化人眼感知,是兩件完全不同的事。
幾十年來,從 JPEG 到 VVC,再到 JPEG AI,幾乎所有編解碼器的設計邏輯,都仍在數學指標的框架內打轉。感知壓縮(直接針對人眼體驗進行優化)一直像是學術論文中的遠景目標,而非能裝入手機的工程現實。
就在這個節骨眼上,蘋果的一支工程師團隊悄悄發了一篇論文,給出了他們的答案,代號:PICO。

論文標題:實用型學習型圖像壓縮中至關重要的因素
論文地址:https://arxiv.org/pdf/2605.05148
為什麼「看起來更好」比「數字更高」難得多?
在理解 PICO 之前,先要理解圖像壓縮到底在做什麼。
將一張照片儲存為檔案,本質上是一道「忘記什麼、記住什麼」的取捨題。儲存空間有限,就必須捨棄部分資訊,同時讓觀看者盡量察覺不到。不同的編解碼器,遵循不同的「捨棄方式」。
JPEG、AV1、VVC 等傳統編解碼器都是工程師手工設計的規則系統。它們把圖像切塊、變換、量化、熵編碼,每一步都是數十年積累的人工經驗。這類系統可以在 PSNR 這樣的數學指標上表現極好,但它們的設計本質上是面向「減少像素誤差」,而非「減少人眼不適感」。
問題在於,人眼並非像素誤差計。人眼對紋理、文字和細節的敏感度,遠比數學公式複雜。當你將一張街景照片壓縮得很小,PSNR 可能依然體面,但你會看到建築邊緣模糊、路牌文字變形——而這些,恰恰是人眼最先察覺的東西。
學習型編解碼器的出現,理論上打開了一扇新門:神經網絡可以直接針對人的感知進行端到端訓練,而不是針對數學公式。但在 PICO 之前,已有的感知型學習編解碼器,要麼速度慢得無法實用,要麼缺乏跨設備兼容性,要麼無法靈活控制碼率,根本裝不進一款消費級產品。
三個核心問題,三種解法
PICO 的全稱是 Perceptual Image Codec(感知圖像編解碼器)。這個名字直接點明了它的目標:讓人眼滿意。

研究團隊系統性地探索了數百萬種模型配置,並引入了幾項關鍵技術創新。
第一個問題:熵編碼速度慢,怎麼辦?
在圖像壓縮中有一個難題:為了壓得更小,編解碼器需使用「熵模型」來精確估計每個像素的資訊量。最精確的方法稱為自迴歸編碼:每壓縮一個像素,都需先查看周圍已壓縮的像素,依次預測。這就像廚師每放一塊食材,都要回頭查看鍋裡的狀態,才能決定下一步。精確,但極慢。
PICO 的解決方案是「一次性上下文模型」(One-shot Context Model):將熵編碼中最關鍵的「尺度參數」單獨拆出,在一次前向傳播中全部計算完畢,不再需要反覆等待;其餘參數則可並行計算,既保留了自迴歸的精度,又避開了其速度瓶頸。結果是:移除此模組,模型性能下降 10.28%;加入此模組,速度幾乎不受影響。

第二個問題:感知訓練會產生幻覺,怎麼辦?
使用 GAN(對抗神經網絡)訓練出來的圖像往往「看起來很真實」,但可能是編造出來的真實——頭髮絲變成了不存在的花紋,平滑表面多出了虛假紋理。更麻煩的是,人眼對文字極度敏感,哪怕一個字母變形一點點,就會立刻察覺。
PICO 專為文字設計了 TextFidelityLoss:利用現成的文字檢測器自動找出圖像中的文字區域,並在這些區域強制施加嚴格的像素保真約束,同時壓制 GAN 在文字區域的「發揮空間」。實驗顯示,加入此損失函數後,文字區域的絕對誤差降低了整整一半。

Third question: Image tiling leaves visible block boundaries—what should I do?
為了在手機晶片上快速運行,PICO 將圖像切成 504×504 像素的瓦片,分別處理後再拼合。但 GAN 在訓練時傾向於忽略低頻色彩,導致相鄰瓦片之間常出現可見的色差,類似修圖時「沒有拼好」的感覺。研究團隊專門引入了 TilingArtifactLoss,一種多解析度的 L1 損失,強制模型在多個空間頻率上保持色彩一致。這項措施使瓦片邊界的誤差也下降了超過一半。
實驗結果
蘋果團隊並未僅依賴基準評測指標。他們委託第三方平台 Mabyduck,組織了一次大規模的人類主觀評測。
評測採用盲測兩兩對比的方式:610 位經過篩選的評測者(需通過色盲檢測和壓縮偽影辨別測試),對同一張圖在不同編解碼器下的重建結果進行配對比較,最終匯總為 Bayesian ELO 分數。共收集了 74,925 次配對比較結果。

最終數字說明了一切:在相同視覺質量下,PICO 的文件體積只有 AV1、AV2、VVC、ECM 和 JPEG AI 的三分之一到二分之一——換言之,存同樣的圖,它需要的比特數只有這些標準的 30%-43%。對比目前最強的學習型感知編解碼器(HiFiC、MRIC 等),PICO 也節省了 20%-40% 的文件大小。

在速度方面,於 iPhone 17 Pro Max 上,PICO 編碼一張 12MP 的照片僅需 230 毫秒,解碼僅需 150 毫秒。而大多數頂級 ML 編解碼器在 NVIDIA V100 伺服器顯卡上運行時,速度都比這慢。
值得注意的是,論文還專門記錄了一個「反例」:在 PSNR 這個傳統指標上,PICO 表現平平,甚至不如 DCVC-RT 和 VVC。這恰好印證了團隊的基本判斷:優化感知品質和優化數學指標,本質上是兩個方向,魚與熊掌不可兼得。
一個時代的節點,而非終點
PICO 當然也有局限性。論文坦承,對於卡通、示意圖等高度規則化的合成圖像,PICO 的壓縮效率不如傳統編解碼器,因為這類內容天然適合規則驅動的自迴歸建模,而非感知生成。
但這些局限並不掩蓋這項工作的意義所在。
過去三十年,圖像壓縮的技術進步,幾乎都發生在「讓數字更好看」的賽道上。從 JPEG 到 HEVC,再到 VVC,工程師一代代優化的是 PSNR、SSIM 這類指標。而人眼的感知,始終是個被繞開的「難題」。
PICO 是首次有人系統性地正面拆解這道難題:從架構搜尋、損失函數設計,到大規模人類主觀評測,並最終將其整合為一款可在手機上實時運行的編解碼器。
當你下次使用蘋果設備分享一張照片時,或許不會感受到任何不同。但或許在那個安靜的壓縮過程中,一套針對人眼感知量身打造的演算法,正在決定哪些資訊值得保留,哪些可以悄悄遺忘。
團隊:從 WaveOne 到蘋果
本文的通訊作者是 Oren Rippel,蘋果研究員,壓縮領域的老面孔。
他的名字最早大規模出現,是在 2017 年。彼時他還在初創公司 WaveOne,發表了一篇名為「實時自適應圖像壓縮」的論文,用神經網絡打敗了當時所有主流編解碼器,同時維持實時運行速度。那篇論文在學界引發了不小的波瀾,也奠定了 Rippel 在學習型壓縮領域的地位。

Subsequently, the same core team continued their research at WaveOne and launched ELF-VC for video compression, achieving a 44% bitrate saving compared to H.264 on the UVG video test set, while running more than five times faster than other ML-based codecs.
WaveOne 的這支團隊後來全體加入蘋果。而這次的 PICO,是他們攜帶蘋果的算力與平台資源,在圖像感知壓縮上交出的第一份系統性答卷。
本文來自微信公眾號「機器之心」(ID:almosthuman2014),作者:壓縮即智能
