La compresión de imágenes PICO AI de Apple reduce el tamaño del archivo en dos tercios con la misma calidad

¿Qué tan pequeño se puede comprimir una imagen?

En febrero de 2025, el Grupo Conjunto de Expertos en Imágenes (JPEG) anunció un logro celebrado discretamente por la industria: JPEG AI, el primer estándar internacional de codificación de imágenes basado en aprendizaje end-to-end, tras años de desarrollo y grandes expectativas, fue oficialmente lanzado.

PICO

El mensaje se extendió, y muchos investigadores lo compartieron en redes sociales, acompañado del comentario: "¡Finalmente, la IA ha entrado en los estándares!".

El estándar JPEG nació en 1992 y ha sido durante más de treinta años el lenguaje fundamental de las imágenes digitales humanas. Ahora, la inteligencia artificial comienza a asumir la tarea de reescribir la gramática de este lenguaje.

Sin embargo, detrás de la celebración hay una realidad sutil: incluso JPEG AI aún está bastante lejos del verdadero «compresión perceptual».

Los ingenieros saben que el indicador tradicional de calidad de compresión, la relación señal-ruido pico (PSNR), en realidad tiene poca relación con lo que el ojo humano percibe como "bonito". Una imagen puede obtener una puntuación alta en PSNR, pero al ser vista por una persona puede parecer ordinaria; mientras que otra imagen con un PSNR más bajo puede parecer rica en detalles y con textura realista. Optimizar métricas matemáticas y optimizar la percepción visual humana son dos cosas completamente distintas.

Durante décadas, desde JPEG hasta VVC y luego JPEG AI, la lógica de diseño de casi todos los códecs aún gira en torno a marcos de métricas matemáticas. La compresión perceptual (optimizada directamente para la experiencia visual humana) siempre ha parecido un objetivo lejano en artículos académicos, no una realidad de ingeniería que se pueda integrar en un teléfono móvil.

En este momento clave, un equipo de ingenieros de Apple publicó discretamente un artículo científico con su respuesta, bajo el código: PICO.

PICO

Título del artículo: Qué importa en la compresión de imágenes aprendida práctica

Dirección del artículo: https://arxiv.org/pdf/2605.05148

¿Por qué "verse mejor" es mucho más difícil que "tener un número más alto"?

Antes de entender PICO, debes comprender qué está haciendo realmente la compresión de imágenes.

Guardar una foto como archivo es, en esencia, una decisión de qué descartar y qué conservar. Al tener espacio de almacenamiento limitado, se debe eliminar parte de la información, al mismo tiempo que se intenta que el espectador no lo note. Diferentes codificadores y decodificadores siguen distintos métodos para descartar información.

Los codificadores tradicionales como JPEG, AV1 y VVC son sistemas de reglas diseñados manualmente por ingenieros. Dividen las imágenes en bloques, aplican transformaciones, cuantización y codificación entórpica; cada paso se basa en décadas de experiencia humana acumulada. Estos sistemas pueden rendir excelentemente en métricas matemáticas como el PSNR, pero su diseño está esencialmente orientado a «reducir el error de píxeles», no a «reducir la incomodidad visual humana».

El problema es que el ojo humano no es un contador de errores de píxeles. La sensibilidad del ojo humano a las texturas, al texto y a los detalles es mucho más compleja que cualquier fórmula matemática. Cuando comprimes una foto de una calle hasta hacerla muy pequeña, el PSNR puede seguir siendo aceptable, pero verás bordes de edificios borrosos y texto de señales distorsionado: y precisamente estos son los elementos que el ojo humano detecta primero.

La aparición de codificadores-decodificadores basados en el aprendizaje abrió teóricamente una nueva puerta: las redes neuronales pueden entrenarse de extremo a extremo directamente según la percepción humana, en lugar de según fórmulas matemáticas. Pero antes de PICO, los codificadores-decodificadores de aprendizaje perceptual existentes eran o demasiado lentos para ser prácticos, o carecían de compatibilidad entre dispositivos, o no permitían un control flexible de la tasa de bits, lo que los hacía imposibles de integrar en un producto de consumo.

Tres preguntas clave, tres soluciones

El nombre completo de PICO es Perceptual Image Codec (código de imagen perceptual). Este nombre indica directamente su objetivo: satisfacer al ojo humano.

PICO

El equipo de investigación exploró sistemáticamente millones de configuraciones de modelos e introdujo varias innovaciones técnicas clave.

Primera pregunta: ¿Qué hacer si la codificación de entropía es lenta?

En la compresión de imágenes existe un desafío: para lograr una compresión más eficiente, el codificador/decodificador debe utilizar un «modelo de entropía» para estimar con precisión la cantidad de información de cada píxel. El método más preciso se llama codificación autorregresiva: al comprimir cada píxel, primero se deben observar los píxeles ya comprimidos circundantes para predecir secuencialmente. Esto es como un cocinero que, al agregar cada ingrediente, mira hacia atrás el estado de la olla antes de decidir el siguiente paso. Preciso, pero extremadamente lento.

La solución de PICO es el "modelo de contexto de un solo disparo" (One-shot Context Model): separa el parámetro más crítico en la codificación de entropía, el "parámetro de escala", y calcula todos los parámetros en una sola pasada hacia adelante, eliminando la necesidad de esperas recurrentes; mientras que los demás parámetros se calculan en paralelo, manteniendo la precisión autoregresiva pero evitando su cuello de botella de velocidad. El resultado es: al eliminar este módulo, el rendimiento del modelo disminuye un 10.28%; al incluirlo, la velocidad permanece prácticamente sin afectación.

PICO

Segunda pregunta: ¿Qué hacer si el entrenamiento de percepción genera alucinaciones?

Las imágenes entrenadas con GAN (redes neuronales generativas adversarias) a menudo "parecen realistas", pero pueden ser realidades fabricadas: los cabellos se convierten en patrones inexistentes, y las superficies lisas adquieren texturas falsas. Lo más problemático es que el ojo humano es extremadamente sensible al texto; incluso un ligero cambio en una letra es inmediatamente perceptible.

PICO diseñó específicamente para texto la TextFidelityLoss: utiliza un detector de texto existente para identificar automáticamente las regiones de texto en la imagen, impone restricciones estrictas de fidelidad de píxeles en estas regiones y reduce el "espacio de actuación" de la GAN en las áreas de texto. Los experimentos muestran que, con esta función de pérdida, el error absoluto en las regiones de texto se reduce exactamente a la mitad.

PICO

Tercera pregunta: ¿Qué hacer si el procesamiento por bloques de imágenes deja bordes de bloques de color?

Para ejecutarse rápidamente en un chip de teléfono, PICO divide la imagen en mosaicos de 504×504 píxeles, los procesa por separado y luego los vuelve a ensamblar. Sin embargo, durante el entrenamiento, los GAN tienden a ignorar los colores de baja frecuencia, lo que provoca diferencias de color visibles entre mosaicos adyacentes, similar a la sensación de una edición de imagen mal unida. El equipo de investigación introdujo específicamente TilingArtifactLoss, una pérdida L1 de múltiples resoluciones, que obliga al modelo a mantener la consistencia de color en múltiples frecuencias espaciales. Esta medida redujo los errores en los bordes de los mosaicos en más del 50 %.

Resultados del experimento

El equipo de Apple no se basa únicamente en métricas de evaluación de referencia. Encargaron a la plataforma externa Mabyduck la organización de una gran evaluación subjetiva humana.

La evaluación se realizó mediante un método de prueba ciega por pares: 610 evaluadores seleccionados (que debían pasar pruebas de daltonismo y detección de artefactos de compresión) compararon por pares los resultados de reconstrucción de la misma imagen bajo diferentes codificadores/decodificadores, y los resultados se resumieron finalmente en puntuaciones Bayesian ELO. Se recopilaron un total de 74,925 comparaciones por pares.

PICO

Los números finales lo dicen todo: bajo la misma calidad visual, el tamaño de archivo de PICO es solo de un tercio a la mitad del de AV1, AV2, VVC, ECM y JPEG AI; en otras palabras, para almacenar la misma imagen, requiere solo el 30%-43% de los bits que estos estándares. En comparación con los actuales codificadores decodificadores perceptuales basados en aprendizaje más potentes (HiFiC, MRIC, etc.), PICO también reduce el tamaño de archivo en un 20%-40%.

PICO

En términos de velocidad, en el iPhone 17 Pro Max, codificar una foto de 12 MP con PICO lleva solo 230 milisegundos, y decodificarla solo 150 milisegundos. La mayoría de los codificadores/decodificadores ML de primer nivel son más lentos que esto cuando se ejecutan en tarjetas gráficas NVIDIA V100.

Es importante destacar que el artículo también registra un «contraejemplo»: en la métrica tradicional PSNR, PICO tuvo un rendimiento mediocre, incluso inferior al de DCVC-RT y VVC. Esto confirma precisamente el juicio básico del equipo: optimizar la calidad perceptual y optimizar las métricas matemáticas son, en esencia, dos direcciones distintas, y no se pueden lograr ambas al mismo tiempo.

Un punto de inflexión, no un final

PICO también tiene sus limitaciones. El artículo reconoce que, para imágenes sintéticas altamente regularizadas como dibujos animados o esquemas, la eficiencia de compresión de PICO es inferior a la de los códecs tradicionales, ya que este tipo de contenido se adapta naturalmente al modelado autoregresivo basado en reglas, y no a la generación perceptual.

Pero estas limitaciones no oscurecen el significado de este trabajo.

Durante los últimos treinta años, los avances tecnológicos en compresión de imágenes han ocurrido casi exclusivamente en la vía de «hacer que lo digital se vea mejor». Desde JPEG hasta HEVC y luego VVC, los ingenieros han optimizado generación tras generación métricas como PSNR y SSIM. Sin embargo, la percepción humana siempre ha sido un «desafío» evitado.

PICO es la primera vez que alguien ha desglosado sistemáticamente este difícil problema: desde la búsqueda de arquitectura y el diseño de funciones de pérdida, hasta evaluaciones subjetivas humanas a gran escala, y finalmente integrarlo en un codificador-decodificador que puede ejecutarse en tiempo real en un teléfono móvil.

Cuando vuelvas a compartir una foto con tu dispositivo Apple, quizás no notes ninguna diferencia. Pero tal vez, en ese silencioso proceso de compresión, un algoritmo diseñado específicamente para la percepción humana esté decidiendo qué información merece conservarse y qué puede olvidarse discretamente.

Equipo: De WaveOne a Apple

El autor de correspondencia de este artículo es Oren Rippel, investigador de Apple y figura familiar en el campo de la compresión.

Su nombre apareció por primera vez a gran escala en 2017. En ese momento, aún trabajaba en la startup WaveOne, donde publicó un artículo titulado "Real-time Adaptive Image Compression", en el que utilizó redes neuronales para superar a todos los codificadores/decodificadores principales de la época, manteniendo al mismo tiempo una velocidad de ejecución en tiempo real. Ese artículo generó una gran conmoción en la comunidad académica y consolidó la posición de Rippel en el campo de la compresión basada en aprendizaje.

PICO

Posteriormente, el mismo equipo central continuó profundizando en WaveOne y lanzó ELF-VC, diseñado para la compresión de video, que logra un ahorro del 44% en bitrate en comparación con H.264 en el conjunto de pruebas de video UVG, además de ser más de cinco veces más rápido que otros codificadores decodificadores de ML similares.

El equipo de WaveOne más tarde se unió en su totalidad a Apple. Esta vez, con PICO, presentan su primera respuesta sistemática en compresión de imagen basada en la capacidad de cómputo y los recursos de plataforma de Apple.

Este artículo proviene del canal de WeChat "Machine Heart" (ID: almosthuman2014), autor: Compresión como inteligencia