1枚の画像をどれほど小さく圧縮できますか?
2025年2月、国際画像専門家グループ(JPEG)は、業界で静かに祝われた出来事を発表した:数年にわたって期待されてきた最初のエンドツーエンド学習型画像符号化国際標準「JPEG AI」が正式にリリースされた。

このニュースが広まり、多くの研究者がソーシャルメディアで共有し、「AIがついに標準に導入された」とコメントした。
JPEG規格は1992年に誕生し、30年以上にわたり人間のデジタル画像の基礎言語として機能してきました。しかし今、人工知能がこの言語の文法を書き直し始めています。
しかし、祝いの裏には控えめな現実があります:JPEG AIでさえ、真の「感知圧縮」にはまだかなりの距離があります。
エンジニアは知っているが、従来の圧縮品質の指標であるピーク信号対雑音比(PSNR)は、人間の目が「美しく見える」と感じるかどうかとはあまり関係がない。ある画像がPSNRで高得点を取っても、人間が見ると平凡に感じられることがある。一方で、PSNRが低い画像でも、人間は細部が豊かで質感がリアルだと感じる。数学的指標を最適化することは、人間の視覚的知覚を最適化することとは完全に異なることである。
数十年にわたり、JPEGからVVC、さらにJPEG AIに至るまで、ほぼすべてのコーデックの設計ロジックは、数学的指標の枠組みの中で循環し続けてきた。感知圧縮(人間の視覚体験に直接最適化する)は、いまだに学術論文における遠い目標であり、スマートフォンに実装可能な工学的現実とはなっていなかった。
そのまさにそのタイミングで、アップルのエンジニアチームが、コードネーム「PICO」として論文を静かに公開した。

実用的な学習型画像圧縮において重要な要素
論文のアドレス:https://arxiv.org/pdf/2605.05148
なぜ「より良く見える」ことが「数字が高い」よりもはるかに難しいのか?
PICOを理解する前に、画像圧縮が何をしているのかを理解する必要があります。
写真をファイルとして保存することは、本質的に「何を捨てて、何を残すか」という選択の問題である。ストレージ容量は限られているため、一部の情報を削除しつつ、見ている人がその削除に気づかないようにする必要がある。異なるコーデックは、それぞれ異なる「捨て方」を採用している。
JPEG、AV1、VVCなどの従来のコーデックは、すべてエンジニアが手動で設計したルールシステムである。これらは画像をブロックに分割し、変換し、量子化し、エントロピー符号化するが、その各ステップは数十年にわたる人的経験の蓄積に基づいている。このようなシステムはPSNRなどの数学的指標では非常に優れた性能を発揮するが、その設計本質は「ピクセル誤差の削減」を目的としており、「人間の視覚的不快感の削減」を目的としてはいない。
問題は、人間の目はピクセル誤差の計測器ではないということです。人間の目はテクスチャ、文字、細部に対する感度が、数学的な式よりもはるかに複雑です。街の風景写真を非常に小さく圧縮すると、PSNRはまだ見栄えが良いままでも、建物のエッジがぼやけ、看板の文字が変形してしまう——そして、これらこそが人間の目が最も早く気づく点です。
学習型エンコーダ・デコーダの登場により、理論的には神経ネットワークが数学的式ではなく、人間の知覚に直接向けてエンドツーエンドで訓練できる新たな道が開けた。しかし、PICO以前の知覚型学習エンコーダ・デコーダは、いずれも実用に耐えるほどの速度がなく、デバイス間の互換性に欠けていたり、ビットレートを柔軟に制御できなかったりし、消費財製品に組み込むことは不可能だった。
3つの核心問題、3つの解決策
PICOの完全な名称はPerceptual Image Codec(感知画像コーデック)です。この名前は、その目標が人間の目を満足させることであることを明確に示しています。

研究チームは数百万のモデル構成を体系的に探索し、いくつかの重要な技術的革新を導入しました。
最初の質問:エントロピー符号化が遅い場合、どうすればよいですか?
画像圧縮には課題があります:より小さく圧縮するためには、エンコーダーが各ピクセルの情報量を正確に推定するために「エントロピーモデル」を使用する必要があります。最も正確な方法は自己回帰符号化です:1つのピクセルを圧縮するたびに、周囲の既に圧縮されたピクセルを確認して順次予測します。これは、料理人が材料を1つ追加するたびに、鍋の中の状態を振り返って次に何をすべきかを決めるようなものです。正確ですが、非常に遅いです。
PICOの解決策は「ワンショットコンテキストモデル」です:エントロピー符号化における最も重要な「スケールパラメータ」を分離し、1回のフォワードプロパゲーションですべてを計算し、待ち時間を不要にします。残りのパラメータは並列計算可能であり、自己回帰の精度を維持しながらその速度のボトルネックを回避します。結果として、このモジュールを削除するとモデル性能は10.28%低下し、追加すると速度はほぼ影響を受けません。

二番目の質問:感覚訓練により幻覚が発生した場合、どうすればよいですか?
GAN(敵対的ニューラルネットワーク)で訓練された画像はしばしば「非常にリアルに見える」が、それは作り出されたリアルである可能性がある——髪の毛が存在しない模様に変わり、滑らかな表面に偽のテクスチャーが追加される。さらに厄介なのは、人間の目が文字に非常に敏感であることで、たとえ一つの文字がわずかに変形しても、すぐに気づいてしまう。
PICOは、文字に特化してTextFidelityLossを設計しました:既存の文字検出器を使用して画像内の文字領域を自動で特定し、これらの領域に厳格なピクセル忠実度制約を課すことで、GANが文字領域で「自由に動作する」余地を抑止します。実験により、この損失関数を追加することで、文字領域の絶対誤差が半分に減少することが示されました。

3番目の質問:画像のブロック処理により色の境界が残りますが、どうすればよいですか?
PICOは、モバイルチップ上で高速に実行するため、画像を504×504ピクセルのタイルに分割し、個別に処理してから再結合します。しかし、GANは訓練中に低周波色を無視しがちで、隣接するタイル間に視覚的な色の不一致が生じ、画像編集で「接合が不十分」なように見えます。研究チームは、複数の空間周波数で色の一貫性を強制する多解像度L1損失である「TilingArtifactLoss」を新たに導入しました。この対策により、タイル境界の誤差も50%以上低下しました。
実験結果
Appleチームはベンチマーク評価指標だけに頼っていません。彼らは第三者プラットフォームMabyduckに依頼し、大規模な人間の主観評価を実施しました。
評価は盲検ペア比較方式を採用:610人の選別された評価者(色覚異常検査および圧縮アーチファクト判別テストを通過済み)が、異なるエンコーダー・デコーダーにおける同一画像の再構成結果をペアで比較し、最終的にベイズELOスコアとして集計。合計74,925回のペア比較結果を収集。

最終的な数値がすべてを物語っています:同じ視覚品質において、PICOのファイルサイズはAV1、AV2、VVC、ECM、JPEG AIの3分の1から2分の1に過ぎません—つまり、同じ画像を保存する場合、必要なビット数はこれらの標準の30%~43%で済みます。現在最も優れた学習型感知コーデック(HiFiC、MRICなど)と比較しても、PICOはファイルサイズを20%~40%削減できます。

速度面では、iPhone 17 Pro Max で 12MP の写真を PICO でエンコードするには 230 ミリ秒、デコードするには 150 ミリ秒しかかかりません。一方、多くのトップ級の ML エンコーダー・デコーダーは NVIDIA V100 サーバーグラフィックスカード上で動作しますが、それよりも遅いです。
注目すべきは、論文が「反例」として、従来の指標であるPSNRにおいて、PICOがDCVC-RTやVVCよりも劣るという結果を明確に記録している点である。これは、チームの基本的な判断、すなわち感知品質の最適化と数学的指標の最適化は本質的に異なる方向であり、両立できないことを裏付けている。
一つの時代の節目であり、終点ではない
PICOにも当然、限界があります。論文では、アニメや図解など高度に規則的な合成画像に対して、PICOの圧縮効率が従来のコーデックよりも劣ることを認めています。これは、こうしたコンテンツが感知生成ではなく、規則駆動の自己回帰モデルに自然に適しているためです。
しかし、これらの制限は、この作業の意義を覆すものではありません。
過去30年間、画像圧縮の技術進歩はほぼすべて「デジタルをより美しく見せる」という分野で起こってきた。JPEGからHEVC、そしてVVCに至るまで、エンジニアたちは世代を超えてPSNRやSSIMといった指標を最適化してきた。しかし、人間の視覚的知覚は、常に避けられてきた「難題」であり続けている。
PICOは、アーキテクチャ検索から損失関数の設計、大規模な人間の主観評価に至るまで、この難題を初めて体系的に正面から解き明かし、スマートフォンでリアルタイムで実行可能なエンコーダ・デコーダに実装した。
次にAppleデバイスで写真を共有するとき、何か違いを感じられないかもしれない。しかし、その静かな圧縮プロセスの中で、人間の視覚認識に合わせて設計されたアルゴリズムが、どの情報を残し、どの情報を静かに忘れるかを決定しているかもしれない。
チーム:WaveOneからアップルへ
この論文の連絡責任者は、苹果の研究員で圧縮分野の顔なじみであるOren Rippelです。
彼の名前が初めて大規模に注目されたのは2017年だった。当時、スタートアップ企業WaveOneで働いていた彼は、「リアルタイム自己適応画像圧縮」と題された論文を発表し、ニューラルネットワークを用いて当時のすべての主要なコーデックを上回り、リアルタイムでの実行速度を維持した。この論文は学術界に大きな波紋を呼び、Rippelが学習型圧縮分野での地位を確立する基盤となった。

その後、同じ核心チームがWaveOneで継続的に開発を進め、動画圧縮向けのELF-VCをリリース。UVG動画テストセットにおいて、H.264と比較して44%のビットレート削減を実現し、同時に他のMLコーデックと比較して5倍以上高速に動作する。
WaveOneのこのチームはその後、一括してアップルに参加した。今回のPICOは、彼らがアップルの計算能力とプラットフォームリソースを活用して、画像感知圧縮分野で提示した最初の体系的な成果である。
本文は微信公众号「機械の心」(ID:almosthuman2014)より、著者:圧縮が知能
