Quão pequeno pode ser comprimido uma imagem?
Em fevereiro de 2025, o Grupo Internacional de Especialistas em Imagem (JPEG) anunciou um acontecimento comemorado silenciosamente pela indústria: o JPEG AI, o primeiro padrão internacional de codificação de imagem baseado em aprendizado end-to-end, após anos de desenvolvimento e grandes expectativas, foi oficialmente lançado.

A notícia se espalhou, e muitos pesquisadores compartilharam nas redes sociais, acompanhados do comentário: "A IA finalmente entrou nos padrões."
O padrão JPEG surgiu em 1992 e, por mais de trinta anos, tem sido a linguagem fundamental para imagens digitais humanas. Agora, a inteligência artificial começou a assumir a tarefa de reescrever a gramática dessa linguagem.
No entanto, por trás da celebração, há uma realidade sutil: mesmo o JPEG AI ainda está bem longe do verdadeiro "compressão perceptual".
Os engenheiros sabem que a métrica tradicional para medir a qualidade de compressão, a razão sinal-ruído de pico (PSNR), na verdade tem pouca relação com o que o olho humano percebe como “bonito” ou “não bonito”. Uma imagem pode obter uma pontuação alta em PSNR, mas parecer comum aos olhos humanos; já outra imagem com PSNR mais baixo pode ser percebida como rica em detalhes e com textura realista. Otimizar métricas matemáticas e otimizar a percepção humana são duas coisas completamente diferentes.
Por décadas, desde o JPEG até o VVC e, mais recentemente, o JPEG AI, a lógica de design de quase todos os codecs ainda gira em torno de métricas matemáticas. A compressão perceptual (otimizada diretamente para a experiência visual humana) sempre pareceu um objetivo distante em artigos acadêmicos, e não uma realidade de engenharia que possa ser incorporada em um smartphone.
Neste exato momento, uma equipe de engenheiros da Apple publicou silenciosamente um artigo apresentando sua resposta, sob o código: PICO.

Título do artigo: O que Importa na Compressão de Imagens Aprendida Prática
Endereço do artigo: https://arxiv.org/pdf/2605.05148
Por que “parecer melhor” é muito mais difícil do que “ter números mais altos”?
Antes de entender o PICO, é preciso entender o que a compressão de imagem realmente faz.
Salvar uma foto como arquivo é, em essência, uma questão de escolha: o que esquecer e o que manter. Como o espaço de armazenamento é limitado, é necessário descartar parte das informações, ao mesmo tempo em que se tenta fazer com que o espectador não perceba. Diferentes codificadores e decodificadores seguem diferentes "métodos de descarte".
Codificadores tradicionais como JPEG, AV1 e VVC são sistemas de regras projetados manualmente por engenheiros. Eles dividem imagens em blocos, aplicam transformações, quantização e codificação entrópica — cada etapa baseada em décadas de experiência humana acumulada. Esses sistemas podem se sair muito bem em métricas matemáticas como o PSNR, mas seu design é intrinsicamente voltado para "reduzir erros de pixels", e não para "reduzir desconforto visual humano".
O problema é que o olho humano não é um contador de erros de pixel. A sensibilidade do olho humano a texturas, texto e detalhes é muito mais complexa do que fórmulas matemáticas. Quando você comprime uma foto de uma cena urbana muito pequena, o PSNR pode ainda parecer aceitável, mas você verá bordas de edifícios embaçadas e texto de placas de estrada distorcido — e esses são exatamente os elementos que o olho humano percebe primeiro.
A aparição de codificadores-decodificadores baseados em aprendizado abriu teoricamente uma nova porta: redes neurais podem ser treinadas de ponta a ponta diretamente para a percepção humana, em vez de fórmulas matemáticas. Mas antes do PICO, os codificadores-decodificadores de aprendizado perceptual existentes eram ou muito lentos para serem práticos, ou faltavam compatibilidade entre dispositivos, ou não permitiam controle flexível da taxa de bits, tornando-os impossíveis de integrar em produtos de consumo.
Três questões centrais, três soluções
O nome completo do PICO é Perceptual Image Codec (codec de imagem perceptual). Esse nome define diretamente seu objetivo: satisfazer o olho humano.

A equipe de pesquisa explorou sistematicamente milhões de configurações de modelos e introduziu várias inovações técnicas fundamentais.
Primeira pergunta: A codificação de entropia é lenta, o que fazer?
Na compressão de imagens, existe um desafio: para alcançar uma compressão maior, o codec precisa usar um "modelo de entropia" para estimar com precisão a quantidade de informação de cada pixel. O método mais preciso é chamado codificação autoregressiva: ao comprimir cada pixel, é necessário primeiro analisar os pixels já comprimidos ao redor e prever sequencialmente. Isso é como um chefe que, ao adicionar cada ingrediente, olha de volta para o estado da panela antes de decidir o próximo passo. Preciso, mas extremamente lento.
A solução da PICO é o "Modelo de Contexto de Um Só Tiro" (One-shot Context Model): extrair separadamente o parâmetro mais crítico na codificação de entropia, o "parâmetro de escala", e calcular todos eles em uma única passagem direta, eliminando a necessidade de esperas recíprocas; os demais parâmetros podem ser calculados em paralelo, mantendo a precisão autoregressiva, mas contornando seu gargalo de velocidade. O resultado é: remover esse módulo reduz o desempenho do modelo em 10,28%; incluí-lo não afeta quase nada a velocidade.

Segunda pergunta: E se o treinamento de percepção gerar ilusões?
As imagens treinadas com GANs (redes neurais adversariais) frequentemente "parecem reais", mas podem ser realidades fabricadas — fios de cabelo se transformam em padrões inexistente, superfícies lisas ganham texturas falsas. Mais problemático ainda é que o olho humano é extremamente sensível a texto: mesmo uma ligeira distorção em uma única letra é imediatamente percebida.
O PICO projetou especificamente o TextFidelityLoss para texto: utiliza um detector de texto já existente para identificar automaticamente as regiões de texto na imagem, aplicando restrições rigorosas de fidelidade de pixel nessas áreas, enquanto reduz o "espaço de atuação" do GAN nas regiões de texto. Os experimentos mostraram que, com a adição dessa função de perda, o erro absoluto nas regiões de texto foi reduzido pela metade.

Terceira pergunta: Como lidar com bordas de blocos de cor deixadas pelo processamento de imagem em blocos?
Para executar rapidamente no chip do celular, o PICO divide as imagens em blocos de 504×504 pixels, processa-os separadamente e depois os reconstrói. No entanto, durante o treinamento, os GANs tendem a ignorar cores de baixa frequência, resultando em diferenças de cor visíveis entre blocos adjacentes, semelhantes ao efeito de “não ter sido bem unido” durante edição de imagens. A equipe de pesquisa introduziu especificamente o TilingArtifactLoss, uma perda L1 de múltiplas resoluções, forçando o modelo a manter a consistência de cor em múltiplas frequências espaciais. Essa medida reduziu os erros nas bordas dos blocos em mais da metade.
Resultados do experimento
A equipe da Apple não se baseou apenas em métricas de benchmark. Eles contrataram a plataforma terceirizada Mabyduck para organizar uma grande avaliação subjetiva humana.
A avaliação foi realizada por meio de teste cego em pares: 610 avaliadores selecionados (que passaram por teste de daltonismo e detecção de artefatos de compressão) compararam em pares os resultados de reconstrução da mesma imagem sob diferentes codificadores/decodificadores, resultando finalmente em pontuações Bayesian ELO. Foram coletadas 74.925 comparações em pares.

Os números finais falam por si: sob a mesma qualidade visual, o tamanho do arquivo do PICO é apenas um terço a metade do tamanho dos arquivos AV1, AV2, VVC, ECM e JPEG AI — ou seja, para armazenar a mesma imagem, ele requer apenas 30% a 43% dos bits desses padrões. Em comparação com os atuais melhores codificadores decodificadores perceptuais baseados em aprendizado (HiFiC, MRIC, etc.), o PICO também reduz o tamanho do arquivo em 20% a 40%.

Em termos de velocidade, o PICO codifica uma foto de 12MP em apenas 230 ms e a decodifica em apenas 150 ms no iPhone 17 Pro Max, sendo mais rápido do que a maioria dos principais codificadores/decodificadores de ML rodando em placas de vídeo NVIDIA V100.
É importante notar que o artigo também registrou um «contraexemplo»: no métrico tradicional PSNR, o PICO apresentou desempenho mediano, até mesmo inferior ao DCVC-RT e ao VVC. Isso confirma exatamente o julgamento básico da equipe: otimizar a qualidade perceptual e otimizar métricas matemáticas são, essencialmente, duas direções distintas, e não se pode ter ambos ao mesmo tempo.
Um ponto de inflexão, e não um fim
PICO também tem suas limitações. O artigo reconhece que, para imagens sintéticas altamente regularizadas, como desenhos animados e esquemas, a eficiência de compressão do PICO é inferior à dos codificadores/decodificadores tradicionais, pois esse tipo de conteúdo é naturalmente adequado à modelagem autoregressiva baseada em regras, e não à geração perceptiva.
Mas essas limitações não obscurecem o significado deste trabalho.
Nos últimos trinta anos, os avanços tecnológicos em compressão de imagens ocorreram quase exclusivamente na área de “tornar os digitais mais bonitos”. Do JPEG ao HEVC e depois ao VVC, os engenheiros, geração após geração, otimizaram métricas como PSNR e SSIM. Já a percepção humana permaneceu como um “problema” constantemente evitado.
PICO é a primeira vez que alguém sistematicamente desmontou esse problema complexo: desde a busca de arquitetura e o design da função de perda até avaliações subjetivas em larga escala por humanos, e finalmente incorporou tudo em um codificador/decodificador que pode ser executado em tempo real em um smartphone.
Quando você compartilhar uma foto pela próxima vez usando um dispositivo Apple, talvez não sinta nenhuma diferença. Mas talvez, nesse processo silencioso de compressão, um algoritmo projetado especificamente para a percepção humana esteja decidindo quais informações merecem ser mantidas e quais podem ser silenciosamente esquecidas.
Equipe: De WaveOne para a Apple
Oren Rippel, pesquisador da Apple e veterano no campo de compressão, é o autor correspondente deste artigo.
Seu nome apareceu pela primeira vez em grande escala em 2017. Na época, ele estava na startup WaveOne e publicou um artigo intitulado “Real-Time Adaptive Image Compression”, que usou redes neurais para superar todos os principais codificadores/decodificadores da época, mantendo ao mesmo tempo velocidade em tempo real. Esse artigo gerou grande repercussão na comunidade acadêmica e consolidou a posição de Rippel no campo da compressão baseada em aprendizado.

Em seguida, o mesmo grupo central continuou a aprofundar seus esforços na WaveOne, lançando o ELF-VC, voltado para compressão de vídeo, que alcançou uma economia de taxa de bits de 44% em relação ao H.264 no conjunto de testes UVG, além de ser mais de cinco vezes mais rápido que outros codificadores/decodificadores de ML similares.
A equipe da WaveOne posteriormente se juntou inteiramente à Apple. E este PICO é a primeira resposta sistemática deles, trazendo o poder de processamento e os recursos da plataforma da Apple, no campo da compressão de imagem por percepção.
Este artigo é do canal oficial do WeChat "Machine Heart" (ID: almosthuman2014), autor: Compression is Intelligence
