蘋果的 PICO AI 圖像壓縮技術在保持相同品質的情況下，將檔案大小減少三分之二

一張圖能壓多小？

在 2025 年 2 月，國際圖像專家組（JPEG）宣布了一件業界低調慶祝的事：JPEG AI，這項歷時多年、備受期待的首個端到端學習型圖像編碼國際標準，正式發布。

PICO

The news spread, and many researchers shared it on social media with comments such as “AI has finally made it into the standards.”

JPEG 標準誕生於 1992 年，三十多年來一直是人類數位圖像的一門基礎語言。而現在，人工智慧開始接手重寫這門語言的語法。

然而，慶祝背後有一個微妙的現實：即便是 JPEG AI，距離真正的「感知壓縮」，仍有相當距離。

工程師們知道，傳統衡量壓縮質量的指標峰值信噪比（PSNR）其實與人眼所感知的「好不好看」關係不大。一張圖在 PSNR 上得了高分，人看了卻可能覺得平平無奇；而另一張 PSNR 偏低的圖，人卻覺得細節豐富、質感真實。優化數學指標，和優化人眼感知，是兩件完全不同的事。

幾十年來，從 JPEG 到 VVC，再到 JPEG AI，幾乎所有編解碼器的設計邏輯，都仍在數學指標的框架內打轉。感知壓縮（直接針對人眼體驗進行優化）一直像是學術論文中的遠景目標，而非能裝入手機的工程現實。

就在這個節骨眼上，蘋果的一支工程師團隊悄悄發了一篇論文，給出了他們的答案，代號：PICO。

PICO

論文標題：實用型學習型圖像壓縮中至關重要的因素

論文地址：https://arxiv.org/pdf/2605.05148

為什麼「看起來更好」比「數字更高」難得多？

在理解 PICO 之前，先要理解圖像壓縮到底在做什麼。

將一張照片儲存為檔案，本質上是一道「忘記什麼、記住什麼」的取捨題。儲存空間有限，就必須捨棄部分資訊，同時讓觀看者盡量察覺不到。不同的編解碼器，遵循不同的「捨棄方式」。

JPEG、AV1、VVC 等傳統編解碼器都是工程師手工設計的規則系統。它們把圖像切塊、變換、量化、熵編碼，每一步都是數十年積累的人工經驗。這類系統可以在 PSNR 這樣的數學指標上表現極好，但它們的設計本質上是面向「減少像素誤差」，而非「減少人眼不適感」。

問題在於，人眼並非像素誤差計。人眼對紋理、文字和細節的敏感度，遠比數學公式複雜。當你將一張街景照片壓縮得很小，PSNR 可能依然體面，但你會看到建築邊緣模糊、路牌文字變形——而這些，恰恰是人眼最先察覺的東西。

學習型編解碼器的出現，理論上打開了一扇新門：神經網絡可以直接針對人的感知進行端到端訓練，而不是針對數學公式。但在 PICO 之前，已有的感知型學習編解碼器，要麼速度慢得無法實用，要麼缺乏跨設備兼容性，要麼無法靈活控制碼率，根本裝不進一款消費級產品。

三個核心問題，三種解法

PICO 的全稱是 Perceptual Image Codec（感知圖像編解碼器）。這個名字直接點明了它的目標：讓人眼滿意。

PICO

研究團隊系統性地探索了數百萬種模型配置，並引入了幾項關鍵技術創新。

第一個問題：熵編碼速度慢，怎麼辦？

在圖像壓縮中有一個難題：為了壓得更小，編解碼器需使用「熵模型」來精確估計每個像素的資訊量。最精確的方法稱為自迴歸編碼：每壓縮一個像素，都需先查看周圍已壓縮的像素，依次預測。這就像廚師每放一塊食材，都要回頭查看鍋裡的狀態，才能決定下一步。精確，但極慢。

PICO 的解決方案是「一次性上下文模型」（One-shot Context Model）：將熵編碼中最關鍵的「尺度參數」單獨拆出，在一次前向傳播中全部計算完畢，不再需要反覆等待；其餘參數則可並行計算，既保留了自迴歸的精度，又避開了其速度瓶頸。結果是：移除此模組，模型性能下降 10.28%；加入此模組，速度幾乎不受影響。

PICO

第二個問題：感知訓練會產生幻覺，怎麼辦？

使用 GAN（對抗神經網絡）訓練出來的圖像往往「看起來很真實」，但可能是編造出來的真實——頭髮絲變成了不存在的花紋，平滑表面多出了虛假紋理。更麻煩的是，人眼對文字極度敏感，哪怕一個字母變形一點點，就會立刻察覺。

PICO 專為文字設計了 TextFidelityLoss：利用現成的文字檢測器自動找出圖像中的文字區域，並在這些區域強制施加嚴格的像素保真約束，同時壓制 GAN 在文字區域的「發揮空間」。實驗顯示，加入此損失函數後，文字區域的絕對誤差降低了整整一半。

PICO

Third question: Image tiling leaves visible block boundaries—what should I do?

為了在手機晶片上快速運行，PICO 將圖像切成 504×504 像素的瓦片，分別處理後再拼合。但 GAN 在訓練時傾向於忽略低頻色彩，導致相鄰瓦片之間常出現可見的色差，類似修圖時「沒有拼好」的感覺。研究團隊專門引入了 TilingArtifactLoss，一種多解析度的 L1 損失，強制模型在多個空間頻率上保持色彩一致。這項措施使瓦片邊界的誤差也下降了超過一半。

實驗結果

蘋果團隊並未僅依賴基準評測指標。他們委託第三方平台 Mabyduck，組織了一次大規模的人類主觀評測。

評測採用盲測兩兩對比的方式：610 位經過篩選的評測者（需通過色盲檢測和壓縮偽影辨別測試），對同一張圖在不同編解碼器下的重建結果進行配對比較，最終匯總為 Bayesian ELO 分數。共收集了 74,925 次配對比較結果。

PICO

最終數字說明了一切：在相同視覺質量下，PICO 的文件體積只有 AV1、AV2、VVC、ECM 和 JPEG AI 的三分之一到二分之一——換言之，存同樣的圖，它需要的比特數只有這些標準的 30%-43%。對比目前最強的學習型感知編解碼器（HiFiC、MRIC 等），PICO 也節省了 20%-40% 的文件大小。

PICO

在速度方面，於 iPhone 17 Pro Max 上，PICO 編碼一張 12MP 的照片僅需 230 毫秒，解碼僅需 150 毫秒。而大多數頂級 ML 編解碼器在 NVIDIA V100 伺服器顯卡上運行時，速度都比這慢。

值得注意的是，論文還專門記錄了一個「反例」：在 PSNR 這個傳統指標上，PICO 表現平平，甚至不如 DCVC-RT 和 VVC。這恰好印證了團隊的基本判斷：優化感知品質和優化數學指標，本質上是兩個方向，魚與熊掌不可兼得。

一個時代的節點，而非終點

PICO 當然也有局限性。論文坦承，對於卡通、示意圖等高度規則化的合成圖像，PICO 的壓縮效率不如傳統編解碼器，因為這類內容天然適合規則驅動的自迴歸建模，而非感知生成。

但這些局限並不掩蓋這項工作的意義所在。

過去三十年，圖像壓縮的技術進步，幾乎都發生在「讓數字更好看」的賽道上。從 JPEG 到 HEVC，再到 VVC，工程師一代代優化的是 PSNR、SSIM 這類指標。而人眼的感知，始終是個被繞開的「難題」。

PICO 是首次有人系統性地正面拆解這道難題：從架構搜尋、損失函數設計，到大規模人類主觀評測，並最終將其整合為一款可在手機上實時運行的編解碼器。

當你下次使用蘋果設備分享一張照片時，或許不會感受到任何不同。但或許在那個安靜的壓縮過程中，一套針對人眼感知量身打造的演算法，正在決定哪些資訊值得保留，哪些可以悄悄遺忘。

團隊：從 WaveOne 到蘋果

本文的通訊作者是 Oren Rippel，蘋果研究員，壓縮領域的老面孔。

他的名字最早大規模出現，是在 2017 年。彼時他還在初創公司 WaveOne，發表了一篇名為「實時自適應圖像壓縮」的論文，用神經網絡打敗了當時所有主流編解碼器，同時維持實時運行速度。那篇論文在學界引發了不小的波瀾，也奠定了 Rippel 在學習型壓縮領域的地位。

PICO

Subsequently, the same core team continued their research at WaveOne and launched ELF-VC for video compression, achieving a 44% bitrate saving compared to H.264 on the UVG video test set, while running more than five times faster than other ML-based codecs.

WaveOne 的這支團隊後來全體加入蘋果。而這次的 PICO，是他們攜帶蘋果的算力與平台資源，在圖像感知壓縮上交出的第一份系統性答卷。

本文來自微信公眾號「機器之心」（ID：almosthuman2014），作者：壓縮即智能