Сжатие изображений PICO AI от Apple снижает размер файла на две трети при том же качестве

Как сильно можно сжать изображение?

В феврале 2025 года Международная группа экспертов по изображениям (JPEG) объявила о событии, которое отрасль тихо отпраздновала: JPEG AI — первый международный стандарт изображений на основе конечного обучения, разрабатывавшийся многие годы и вызывавший большие ожидания, официально выпущен.

PICO

Новость распространилась, и многие исследователи поделились ею в социальных сетях с комментарием: «ИИ наконец-то попал в стандарт».

Стандарт JPEG появился в 1992 году и на протяжении более тридцати лет оставался основным языком цифровых изображений человека. Теперь искусственный интеллект начинает брать на себя задачу переписывания грамматики этого языка.

Однако за празднованием скрывается тонкий факт: даже JPEG AI еще далеко от настоящего «восприимчивого сжатия».

Инженеры знают, что традиционный показатель качества сжатия — пиковое отношение сигнал/шум (PSNR) — имеет мало общего с тем, как человек воспринимает «красивость» изображения. Изображение может получить высокий балл по PSNR, но выглядеть скучно для глаз; в то время как другое изображение с низким PSNR может казаться насыщенным деталями и реалистичным по текстуре. Оптимизация математических показателей и оптимизация восприятия человеком — это две совершенно разные задачи.

На протяжении десятилетий логика проектирования почти всех кодеков — от JPEG до VVC и далее до JPEG AI — оставалась в рамках математических показателей. Перцептивное сжатие (оптимизация непосредственно под восприятие человеком) всё ещё оставалось далекой целью научных статей, а не практической реальностью, которую можно внедрить в смартфон.

В этот самый момент команда инженеров Apple тайно опубликовала статью, в которой представила свой ответ под кодовым названием: PICO.

PICO

Название статьи: Что важно в практических методах обученного сжатия изображений

Адрес статьи: https://arxiv.org/pdf/2605.05148

Почему «выглядит лучше» сложнее, чем «цифра выше»?

Прежде чем понять PICO, нужно понять, что делает сжатие изображений.

Сохранение фотографии в файл — это по сути выбор, что забыть, а что запомнить. Поскольку объем памяти ограничен, необходимо отбросить часть информации, не позволяя зрителю этого заметить. Разные кодеки следуют различным «методам отбрасывания».

Традиционные кодеки, такие как JPEG, AV1 и VVC, представляют собой системы правил, разработанные инженерами вручную. Они разбивают изображения на блоки, применяют преобразования, квантование и энтропийное кодирование — каждый шаг основан на десятилетиях накопленного человеческого опыта. Такие системы могут отлично показывать себя по таким математическим показателям, как PSNR, но их дизайн изначально ориентирован на «снижение пиксельных ошибок», а не на «уменьшение дискомфорта для человеческого глаза».

Проблема в том, что человеческий глаз — не счетчик пиксельных ошибок. Человеческий глаз гораздо сложнее воспринимает текстуры, текст и детали, чем это описывают математические формулы. Когда вы сильно сжимаете фотографию улицы, PSNR может оставаться приемлемым, но вы увидите размытые края зданий и искаженный текст на дорожных знаках — именно эти детали человеческий глаз замечает в первую очередь.

Появление обучающихся кодеков открыло теоретически новую возможность: нейронные сети могут напрямую обучаться на основе человеческого восприятия, а не на математических формулах. Однако до PICO существующие восприятие-ориентированные обучающиеся кодеки либо были слишком медленными для практического использования, либо не обладали совместимостью между устройствами, либо не позволяли гибко управлять битрейтом — и поэтому не могли быть интегрированы в потребительский продукт.

Три ключевых вопроса, три решения

PICO расшифровывается как Perceptual Image Codec (перцептивный кодек изображений). Это название прямо указывает на его цель — удовлетворить человеческий глаз.

PICO

Исследовательская команда систематически изучила миллионы конфигураций моделей и внедрила несколько ключевых инновационных технологий.

Первый вопрос: что делать, если энтропийное кодирование медленное?

В сжатии изображений существует сложность: чтобы добиться большего сжатия, кодек должен использовать «модель энтропии» для точной оценки количества информации в каждом пикселе. Самый точный метод называется авторегрессивным кодированием: при сжатии каждого пикселя необходимо сначала рассмотреть уже сжатые соседние пиксели и последовательно предсказать следующий. Это похоже на повара, который, добавляя каждый ингредиент, оглядывается на состояние кастрюли, чтобы решить, что делать дальше. Точно, но крайне медленно.

Решение PICO — это «однократная контекстная модель» (One-shot Context Model): ключевой параметр масштаба из энтропийного кодирования выделяется отдельно и вычисляется полностью за один прямой проход, без необходимости в повторных ожиданиях; остальные параметры могут вычисляться параллельно, сохраняя точность авторегрессивного подхода, но обходя его скорость-ограничения. Результат: без этого модуля производительность модели падает на 10,28%; с ним скорость практически не страдает.

PICO

Второй вопрос: Что делать, если тренировка восприятия вызывает галлюцинации?

Изображения, обученные с помощью GAN (соперничающих нейронных сетей), часто выглядят «очень реалистично», но могут быть вымышленными реалиями — волосы превращаются в несуществующие узоры, на гладких поверхностях появляются ложные текстуры. Ещё сложнее то, что человеческий глаз чрезвычайно чувствителен к тексту: даже незначительное искажение одной буквы сразу же бросается в глаза.

PICO специально для текста разработал TextFidelityLoss: с помощью готового детектора текста автоматически определяются текстовые области на изображении, в которых применяются строгие ограничения на сохранение пикселей, одновременно сокращая «пространство для маневра» GAN в этих областях. Эксперименты показали, что после добавления этой функции потерь абсолютная ошибка в текстовых областях снизилась ровно вдвое.

PICO

Третий вопрос: Как справиться с границами блоков цвета, оставшимися после обработки изображения по блокам?

Для быстрого выполнения на мобильном чипе PICO разбивает изображение на фрагменты размером 504×504 пикселей, обрабатывает их отдельно, а затем снова собирает. Однако GAN при обучении склонны игнорировать низкочастотные цвета, что приводит к заметным цветовым несоответствиям между соседними фрагментами, напоминающим эффект «неправильного соединения» при ретуши. Исследовательская команда специально ввела TilingArtifactLoss — многомасштабную L1-потерю, которая заставляет модель поддерживать согласованность цвета на нескольких пространственных частотах. Эта мера позволила снизить ошибки на границах фрагментов более чем на половину.

Результаты эксперимента

Команда Apple не полагается исключительно на базовые тестовые показатели. Они заказали сторонней платформе Mabyduck проведение масштабного человеческого субъективного тестирования.

Оценка проводилась методом слепого попарного сравнения: 610 отобранных оценщиков (прошедших тест на дальтонизм и выявление артефактов сжатия) провели попарное сравнение восстановленных версий одного и того же изображения, полученных с использованием различных кодеков, с последующим суммированием результатов в виде Bayesian ELO-оценки. Было собрано 74 925 результатов попарных сравнений.

PICO

Цифры говорят сами за себя: при одинаковом визуальном качестве размер файла PICO составляет лишь одну треть до половины от размера файлов AV1, AV2, VVC, ECM и JPEG AI — другими словами, для хранения того же изображения ему требуется лишь 30–43% битов по сравнению с этими стандартами. По сравнению с текущими наиболее мощными обучаемыми восприимчивыми кодеками (HiFiC, MRIC и др.), PICO также сокращает размер файла на 20–40%.

PICO

С точки зрения скорости, на iPhone 17 Pro Max кодирование изображения 12 МП с помощью PICO занимает всего 230 мс, а декодирование — всего 150 мс. Большинство ведущих ML-кодеков работают медленнее этого на серверных видеокартах NVIDIA V100.

Стоит отметить, что в статье также специально описан «контрпример»: по традиционному показателю PSNR PICO показал средние результаты, даже уступая DCVC-RT и VVC. Это точно подтверждает основное предположение команды: оптимизация воспринимаемого качества и оптимизация математических показателей — это по сути два противоположных направления, и нельзя получить и то, и другое.

Точка отсчета эпохи, а не конец

PICO, конечно, имеет свои ограничения. В статье признается, что для высокоурегулированных синтетических изображений, таких как мультфильмы и схемы, эффективность сжатия PICO ниже, чем у традиционных кодеков, поскольку такие данные естественным образом подходят для правил-ориентированного авторегрессивного моделирования, а не для восприимчивого генерирования.

Но эти ограничения не затмевают значимость этой работы.

За последние тридцать лет технологический прогресс в области сжатия изображений почти полностью сосредоточился на направлении «сделать цифровое изображение красивее». От JPEG до HEVC и далее до VVC инженеры поколение за поколением оптимизировали такие показатели, как PSNR и SSIM. Однако восприятие человеком оставалось постоянно обходной «проблемой».

PICO — это первый случай, когда кто-то систематически разобрал эту сложную задачу: от поиска архитектуры и проектирования функции потерь до масштабного человеческого субъективного тестирования, и в итоге упаковал это в кодек, который может работать в реальном времени на смартфоне.

Когда вы в следующий раз поделитесь фотографией с помощью устройства Apple, возможно, вы не почувствуете никакой разницы. Но в тихом процессе сжатия алгоритм, специально разработанный для восприятия человеческим глазом, решает, какая информация заслуживает сохранения, а какую можно тайно забыть.

Команда: от WaveOne до Apple

Корреспондирующий автор этой статьи — Орен Риппел, исследователь Apple, известный в области сжатия.

Его имя впервые широко стало известно в 2017 году. Тогда он работал в стартапе WaveOne и опубликовал статью под названием «Реальное время адаптивного сжатия изображений», в которой нейронная сеть превзошла все основные кодеки того времени, сохраняя при этом скорость работы в реальном времени. Эта статья вызвала значительный резонанс в научном сообществе и закрепила за Риппелом статус эксперта в области обучающегося сжатия.

PICO

Затем та же команда разработчиков продолжила работу в WaveOne и выпустила ELF-VC для видеосжатия, который обеспечивает экономию битрейта на 44% по сравнению с H.264 на тестовом наборе UVG и работает в пять раз быстрее других ML-кодеков.

Позже вся команда WaveOne присоединилась к Apple. А теперь PICO — это их первый систематический ответ в области графического восприятия и сжатия, реализованный с использованием вычислительных мощностей и платформенных ресурсов Apple.

Эта статья взята из официального аккаунта WeChat «Machine Heart» (ID: almosthuman2014), автор: Сжатие — это интеллект