À quel point une image peut-elle être compressée ?
En février 2025, le Groupe d'experts photographiques internationaux (JPEG) a annoncé une réalisation célébrée discrètement par l'industrie : JPEG AI, le premier standard international de codage d'images apprenant de bout en bout, après des années de développement et d'attentes, est officiellement publié.

Le message s'est répandu, et de nombreux chercheurs l'ont partagé sur les réseaux sociaux avec le commentaire « L'IA est enfin entrée dans les normes ».
Le standard JPEG est né en 1992 et a été, pendant plus de trente ans, la langue fondamentale des images numériques humaines. Maintenant, l'intelligence artificielle commence à reprendre la réécriture de sa grammaire.
Cependant, derrière la célébration se cache une réalité subtile : même JPEG AI est encore bien loin de la « compression perceptive » véritable.
Les ingénieurs savent que l'indicateur traditionnel de qualité de compression, le rapport signal sur bruit de crête (PSNR), n'a qu'un lien faible avec ce que l'œil humain perçoit comme « beau » ou non. Une image peut obtenir un score élevé en PSNR, mais paraître banale à l'œil humain ; tandis qu'une autre image avec un PSNR plus bas peut sembler riche en détails et réaliste dans sa texture. Optimiser des indicateurs mathématiques et optimiser la perception humaine sont deux choses totalement différentes.
Depuis des décennies, de JPEG à VVC, puis à JPEG AI, la logique de conception de presque tous les codecs reste confinée dans le cadre des indicateurs mathématiques. La compression perceptive (optimisée directement pour l’expérience visuelle humaine) a toujours semblé être un objectif lointain des articles académiques, et non une réalité technique intégrable dans un téléphone.
Juste à ce moment précis, une équipe d'ingénieurs d'Apple a discrètement publié un article scientifique apportant leur réponse, sous le code nommé : PICO.

Titre de l'article : Ce qui compte dans la compression d'images apprise en pratique
Adresse du papier : https://arxiv.org/pdf/2605.05148
Pourquoi « avoir l'air mieux » est-il bien plus difficile que « avoir un chiffre plus élevé » ?
Avant de comprendre PICO, il faut d'abord comprendre ce que fait réellement la compression d'image.
Sauvegarder une photo en fichier revient fondamentalement à une question de compromis : « Qu'oublier ? Qu'est-ce qui doit être conservé ? ». Étant donné que l'espace de stockage est limité, il faut supprimer une partie des informations tout en veillant à ce que l'observateur n'en perçoive pas la perte. Différents codecs suivent des méthodes différentes de suppression.
Les codecs traditionnels tels que JPEG, AV1 et VVC sont des systèmes de règles conçus à la main par des ingénieurs. Ils découpent les images en blocs, appliquent des transformations, quantifient et codent en entropie, chaque étape reposant sur des décennies d'expérience humaine. Ces systèmes peuvent obtenir d'excellents résultats sur des indicateurs mathématiques tels que le PSNR, mais leur conception est fondamentalement orientée vers la « réduction de l'erreur de pixels » et non vers la « réduction du désagrément visuel ».
Le problème, c’est que l’œil humain n’est pas un compteur d’erreurs de pixels. La sensibilité de l’œil humain aux textures, au texte et aux détails est bien plus complexe qu’une formule mathématique. Lorsque vous compressez fortement une photo de rue, le PSNR peut encore sembler acceptable, mais vous verrez des bords d’immeubles flous et des panneaux routiers déformés — or, ce sont précisément ces éléments que l’œil humain détecte en premier.
L'apparition des encodeurs-décodeurs d'apprentissage a théoriquement ouvert une nouvelle porte : les réseaux de neurones peuvent être formés de bout en bout pour cibler directement la perception humaine, plutôt que des formules mathématiques. Mais avant PICO, les encodeurs-décodeurs d'apprentissage perceptuel existants étaient soit trop lents pour être pratiques, soit dépourvus de compatibilité entre appareils, soit incapables de contrôler de manière flexible le débit binaire — ils ne pouvaient tout simplement pas être intégrés dans un produit grand public.
Trois questions fondamentales, trois solutions
PICO signifie Perceptual Image Codec (codec d'image perceptive). Ce nom souligne directement son objectif : satisfaire l'œil humain.

L'équipe de recherche a systématiquement exploré des millions de configurations de modèles et a introduit plusieurs innovations techniques clés.
Première question : L'encodage entropique est lent, que faire ?
Dans la compression d'images, il existe un défi : pour obtenir une taille plus petite, le codec doit utiliser un « modèle d'entropie » pour estimer précisément la quantité d'information de chaque pixel. La méthode la plus précise s'appelle le codage autorégressif : chaque fois qu'un pixel est compressé, il faut d'abord examiner les pixels déjà compressés autour de lui pour prédire progressivement. C'est comme un chef qui, avant d'ajouter chaque ingrédient, regarde l'état de la casserole pour décider de la prochaine étape. Précis, mais extrêmement lent.
La solution de PICO est le « modèle de contexte en une seule passe » (One-shot Context Model) : elle isole séparément le « paramètre d'échelle », le plus crucial dans l'encodage par entropie, et calcule tous les paramètres en une seule passe forward, éliminant ainsi les attentes répétées ; les autres paramètres peuvent être calculés en parallèle, conservant ainsi la précision autoregressive tout en contournant son goulot d'étranglement en vitesse. Résultat : en supprimant ce module, la performance du modèle diminue de 10,28 % ; en l'ajoutant, la vitesse reste presque inchangée.

Deuxième question : Que faire si l'entraînement à la perception génère des hallucinations ?
Les images entraînées avec des GAN (réseaux antagonistes génératifs) ont souvent l'air « réalistes », mais elles peuvent être des réalités inventées — les cheveux se transforment en motifs inexistantes, et les surfaces lisses acquièrent des textures fausses. Encore plus problématique : l'œil humain est extrêmement sensible au texte ; même une légère déformation d'une seule lettre suffit à être immédiatement détectée.
PICO a conçu spécifiquement pour le texte la TextFidelityLoss : en utilisant un détecteur de texte existant pour identifier automatiquement les zones textuelles dans l'image, cette fonction impose des contraintes strictes de fidélité pixel dans ces zones tout en réduisant la « liberté » du GAN dans les régions textuelles. Les expériences montrent que l'ajout de cette fonction de perte réduit l'erreur absolue dans les zones textuelles de moitié.

Troisième question : Comment traiter les bordures de blocs de couleur laissées par le traitement par morceaux d’images ?
Pour permettre un fonctionnement rapide sur les puces de téléphone, PICO découpe les images en tuiles de 504×504 pixels, les traite séparément puis les réassemble. Toutefois, les GAN ont tendance à ignorer les couleurs à basse fréquence lors de l'entraînement, ce qui entraîne souvent des différences de couleur visibles entre les tuiles adjacentes, semblables à un effet de « mauvais assemblage » lors d'une retouche photo. L'équipe de recherche a spécifiquement introduit TilingArtifactLoss, une perte L1 à résolution multiple, pour obliger le modèle à maintenir une cohérence des couleurs sur plusieurs fréquences spatiales. Cette mesure a réduit les erreurs aux frontières des tuiles de plus de 50 %.
Résultats de l'expérience
L'équipe d'Apple n'a pas seulement reposé sur des indicateurs de benchmark. Elle a confié à la plateforme tierce Mabyduck l'organisation d'une vaste évaluation subjective humaine.
Les évaluations ont été effectuées selon une méthode d'essai en aveugle par paires : 610 évaluateurs sélectionnés (ayant passé un test de détection de daltonisme et de détection des artefacts de compression) ont comparé par paires les résultats de reconstruction d'une même image sous différents codecs, les résultats finaux étant regroupés en scores Bayesian ELO. Au total, 74 925 comparaisons par paires ont été recueillies.

Les chiffres finaux parlent d’eux-mêmes : à qualité visuelle identique, le fichier PICO ne fait que le tiers à la moitié de la taille des fichiers AV1, AV2, VVC, ECM et JPEG AI — autrement dit, pour stocker la même image, il nécessite seulement 30 % à 43 % des bits de ces normes. Comparé aux meilleurs encodeurs/décodeurs perceptuels basés sur l’apprentissage actuels (HiFiC, MRIC, etc.), PICO réduit également la taille des fichiers de 20 % à 40 %.

En termes de vitesse, sur l’iPhone 17 Pro Max, le codage d’une photo de 12 MP par PICO prend seulement 230 ms, et le décodage seulement 150 ms. La plupart des principaux codec ML, exécutés sur des cartes graphiques NVIDIA V100, sont plus lents que cela.
Il est à noter que l'article documente également un « contre-exemple » : selon la métrique traditionnelle PSNR, PICO présente des performances moyennes, voire inférieures à celles de DCVC-RT et VVC. Cela confirme précisément le jugement fondamental de l'équipe : optimiser la qualité perceptive et optimiser les indicateurs mathématiques sont, en essence, deux orientations incompatibles.
Un point d'ancrage, et non une fin
PICO présente également des limites. L'article admet que, pour les images synthétiques hautement régulières telles que les dessins animés ou les schémas, l'efficacité de compression de PICO est inférieure à celle des codecs traditionnels, car ce type de contenu est naturellement bien adapté à la modélisation autorégressive guidée par des règles, et non à la génération perceptuelle.
Mais ces limites n'occultent pas la signification de ce travail.
Au cours des trente dernières années, les progrès technologiques en matière de compression d'images se sont presque tous concentrés sur le domaine « améliorer l'apparence numérique ». De JPEG à HEVC, puis à VVC, les ingénieurs ont continuellement optimisé des métriques telles que PSNR et SSIM, tandis que la perception humaine est restée un « défi » évité.
PICO est la première fois qu'une personne a systématiquement décomposé ce problème complexe : depuis la recherche d'architecture, la conception de la fonction de perte, jusqu'à l'évaluation subjective à grande échelle par des humains, et enfin intégré dans un codec pouvant fonctionner en temps réel sur un téléphone.
Lorsque vous partagerez la prochaine photo avec un appareil Apple, vous ne ressentirez peut-être aucune différence. Mais dans ce processus de compression silencieux, un algorithme conçu sur mesure pour la perception humaine décide quelles informations méritent d’être conservées et lesquelles peuvent être discrètement oubliées.
Équipe : De WaveOne à Apple
L'auteur correspondant de cet article est Oren Rippel, chercheur chez Apple, une figure connue dans le domaine de la compression.
Son nom est apparu pour la première fois à grande échelle en 2017. À cette époque, il travaillait dans la startup WaveOne et a publié un article intitulé « Real-Time Adaptive Image Compression », dans lequel il a surpassé tous les codecs dominants de l'époque en utilisant des réseaux de neurones, tout en maintenant une vitesse de traitement en temps réel. Cet article a suscité un grand écho dans le milieu académique et a établi la réputation de Rippel dans le domaine de la compression apprise.

Par la suite, le même groupe d'ingénieurs chevronnés a poursuivi ses efforts sur WaveOne, en lançant ELF-VC, dédié à la compression vidéo, qui permet d'économiser 44 % de débit par rapport à H.264 sur l'ensemble de tests vidéo UVG, tout en étant plus de cinq fois plus rapide que les autres codec ML du même type.
L'équipe de WaveOne a ensuite rejoint Apple dans son ensemble. Cette fois, PICO représente leur première réponse systématique en matière de compression d'images basée sur la puissance de calcul et les ressources plateforme d'Apple.
Cet article provient du compte officiel WeChat « Machine Heart » (ID : almosthuman2014), auteur : Compression = Intelligence
