AI-стиснення зображень Apple PICO зменшує розмір файлу на дві третини при тій самій якості

Як мало можна стиснути зображення?

У лютому 2025 року Міжнародна група експертів з зображень (JPEG) оголосила про подію, яку галузь тихо відзначила: JPEG AI — перший міжнародний стандарт із кінця до кінця, що використовує навчання, для кодування зображень — офіційно випущений.

PICO

Новина поширилася, і багато дослідників розмістили її у соціальних мережах з коментарем: «AI нарешті потрапив у стандарти».

Стандарт JPEG з’явився у 1992 році і протягом понад тридцяти років був основною мовою цифрових зображень людини. Зараз штучний інтелект починає брати на себе завдання переписати граматику цієї мови.

Однак за святкуванням стоїть тонка реальність: навіть JPEG AI досі дуже далеко від справжнього «відтворення стиснення».

Інженери знають, що традиційний показник якості стиснення — відношення сигнал/шум за максимальним значенням (PSNR) — має мало спільного з тим, як людське око сприймає «красу» зображення. Зображення з високим PSNR може здатися людям звичайним, тоді як зображення з нижчим PSNR може виглядати деталізованим і реалістичним. Оптимізація математичних показників і оптимізація сприйняття людським оком — це дві абсолютно різні речі.

Протягом десятиліть, від JPEG до VVC і далі до JPEG AI, логіка дизайну майже всіх кодеків все ще обертається в межах математичних показників. Перцептивне стиснення (оптимізація безпосередньо для людського сприйняття) завжди була далеким цілею з академічних статей, а не інженерною реальністю, яку можна вбудувати в смартфон.

Саме в цей момент команда інженерів Apple тихо опублікувала наукову статтю зі своєю відповіддю під кодовою назвою: PICO.

PICO

Назва статті: Що має значення у практичному вивченому стисненні зображень

Адреса статті: https://arxiv.org/pdf/2605.05148

Чому «виглядати краще» складніше, ніж «мати вищі цифри»?

Щоб зрозуміти PICO, спочатку потрібно зрозуміти, що саме робить стиснення зображень.

Зберігання фотографії у вигляді файлу — це по суті вибір між тим, що забути, а що зберегти. Оскільки простір для зберігання обмежений, потрібно відкинути частину інформації, одночасно забезпечивши, щоб спостерігач майже не помітив цього. Різні кодеки дотримуються різних підходів до відкидання.

Традиційні кодеки, такі як JPEG, AV1, VVC, — це правила, розроблені інженерами вручну. Вони розбивають зображення на блоки, застосовують перетворення, квантування та ентропійне кодування — кожен крок ґрунтується на десятиліттях накопиченого досвіду. Такі системи можуть добре показувати себе за математичними показниками, такими як PSNR, але їхнє проектування спрямоване на «зменшення піксельних похибок», а не на «зменшення незручностей для людського ока».

Проблема в тому, що людське око — не лічильник піксельних похибок. Чутливість людського ока до текстур, тексту та деталей набагато складніша, ніж будь-яка математична формула. Коли ви стискаєте фотографію вулиці до дуже малого розміру, PSNR може залишатися прийнятним, але ви побачите розмиті краї будівель, деформовані написи на дорожніх знаках — саме це людське око помічає першим.

З’явлення навчальних кодеків відкрило теоретичну можливість: нейромережі можуть навчатися безпосередньо на основі людського сприйняття, а не на математичних формулах. Але до PICO існуючі перцептуальні навчальні кодеки були або надто повільними для практичного використання, або не мали сумісності між пристроями, або не дозволяли гнучко керувати бітрейтом — тому їх неможливо було інтегрувати в споживачеський продукт.

Три ключові питання, три рішення

Повна назва PICO — Perceptual Image Codec (перцептивний зображення кодек). Ця назва прямо вказує на його мету: задоволення людського ока.

PICO

Дослідницька команда систематично дослідила мільйони конфігурацій моделей та впровадила кілька ключових інновацій.

Перше питання: якщо кодування ентропії повільне, що робити?

У стисненні зображень існує проблема: щоб досягти більшої стисненості, кодек повинен використовувати «модель ентропії» для точного оцінювання інформаційного вмісту кожного пікселя. Найточніший метод називається авторегресивне кодування: щоб стиснути кожен піксель, спочатку потрібно подивитися на вже стиснені сусідні пікселі та послідовно передбачити наступний. Це схоже на те, як шеф-кухар, додаючи кожен інгредієнт, звертається назад, щоб оцінити стан каструлі, перш ніж вирішити, що робити далі. Точно, але дуже повільно.

Рішення PICO — це «одноразова контекстна модель» (One-shot Context Model): найважливіший параметр — «параметр масштабу» — відокремлюється від ентропійного кодування і обчислюється повністю за одну пряму передачу, без необхідності очікування; інші параметри можуть обчислюватися паралельно, зберігаючи точність авторегресивного підходу, але уникуючи його обмежень за швидкістю. Результат: без цього модуля продуктивність моделі знижується на 10,28%; з ним швидкість майже не змінюється.

PICO

Друге питання: Якщо навчання з відчуттями викликає галюцинації, що робити?

Зображення, навчені за допомогою GAN (порівняльних нейронних мереж), часто «виглядають дуже реалістично», але можуть бути вигаданими реалістичними — волосся перетворюється на неіснуючі узори, а гладкі поверхні отримують хибні текстури. Ще складніше те, що людський око надзвичайно чутливий до тексту: навіть невелика деформація однієї літери відразу виявляється.

PICO спеціально розробив TextFidelityLoss: за допомогою вже існуючого детектора тексту автоматично виявляються текстові області на зображенні, де накладаються строгі обмеження на збереження пікселів, одночасно зменшуючи «простір для маневру» GAN у текстових областях. Експерименти показали, що після додавання цієї функції втрати абсолютна похибка у текстових областях зменшилася вдвічі.

PICO

Третє питання: Якщо обробка зображення блоками залишає межі блоків, що робити?

Щоб швидко запускати на чіпі смартфона, PICO розрізає зображення на плитки розміром 504×504 пікселів, обробляє їх окремо, а потім знову збирає. Однак GAN під час навчання схильні ігнорувати низькочастотні кольори, що призводить до помітних кольорових розбіжностей між сусідніми плитками, подібних до відчуття «неправильного з’єднання» під час редагування зображень. Дослідницька команда спеціально ввела TilingArtifactLoss — багаторівневу L1-втрату, яка змушує модель підтримувати кольорову послідовність на кількох просторових частотах. Ця заходи зменшила помилки на межах плиток більше ніж наполовину.

Результати експерименту

Команда Apple не обмежується лише показниками базових тестів. Вони замовили у сторонньої платформи Mabyduck великомасштабне людське суб’єктивне тестування.

Оцінка проводилася методом сліпого парного порівняння: 610 відібраних оцінювачів (які пройшли тест на дальтонізм і виявлення артефактів стиснення) провели парне порівняння відновлених зображень, отриманих за допомогою різних кодеків, і підсумкові результати були зведені до Bayesian ELO-оцінок. Загалом зібрано 74 925 парних порівнянь.

PICO

Остаточні цифри говорять самі за себе: при тій самій візуальній якості розмір файлу PICO становить лише третину до половини від розмірів AV1, AV2, VVC, ECM та JPEG AI — іншими словами, для збереження тих самих зображень йому потрібно лише 30–43% бітів порівняно з цими стандартами. Порівняно з найпотужнішими сучасними навчаними перцептивними кодеками (HiFiC, MRIC тощо), PICO також зменшує розмір файлу на 20–40%.

PICO

Щодо швидкості: на iPhone 17 Pro Max кодування зображення 12 МП займає лише 230 мс, а декодування — лише 150 мс. Більшість провідних ML-кодеків, що працюють на серверних відеокартах NVIDIA V100, працюють повільніше.

Варто зазначити, що в роботі також наведено «контрприклад»: за традиційним показником PSNR PICO демонструє середні результати, навіть гірші, ніж DCVC-RT і VVC. Це саме підтверджує основне припущення команди: оптимізація перцептивної якості та оптимізація математичних показників — це суттєво різні напрямки, і неможливо одночасно досягти обох.

Точка відліку ери, а не кінець

PICO також має обмеження. У статті визнається, що для високоурегульованих синтетичних зображень, таких як мультфільми та схеми, стиснення PICO менш ефективне, ніж у традиційних кодеків, оскільки такий контент природним чином підходить для правилово-орієнтованого авторегресивного моделювання, а не перцептивного генерування.

Але ці обмеження не приховують значення цієї роботи.

За останні три десятиліття технологічний прогрес у стисненні зображень майже повністю відбувався в сфері «зробити цифрове зображення краще на вигляд». Від JPEG до HEVC і далі до VVC інженери покоління за поколінням оптимізували такі показники, як PSNR і SSIM. А людське сприйняття завжди залишалося обхідною «проблемою».

PICO — це перший системний підхід, який прямо розбив цю складну задачу: від пошуку архітектури та проектування функції втрат до масштабного людського суб’єктивного тестування, і нарешті — вбудував це в кодек, який може працювати в реальному часі на смартфоні.

Коли ви наступного разу поділитеся фотографією за допомогою пристрою Apple, можливо, не відчуєте ніякої різниці. Але можливо, у тихому процесі стиснення алгоритм, розроблений саме для сприйняття людським оком, вирішує, яку інформацію варто зберегти, а яку можна тихо забути.

Команда: від WaveOne до Apple

Кореспондентом цієї статті є Орен Ріппел, дослідник Apple, відомий фахівець у галузі стиснення.

Його ім’я вперше масово з’явилося у 2017 році. Тоді він працював у стартапі WaveOne і опублікував статтю під назвою «Реальний час адаптивне стиснення зображень», в якій нейромережі перевершили всі основні кодеки того часу, зберігаючи при цьому швидкість роботи в реальному часі. Ця стаття викликала значний резонанс у науковому середовищі й заклала основи репутації Ріппела в галузі навчального стиснення.

PICO

Після цього та сама команда розробників продовжила роботу у WaveOne і розробила ELF-VC для відеокомпресії, який забезпечує економію бітрейту на 44% порівняно з H.264 на тестовому наборі UVG, при цьому працюючи швидше в п’ять разів, ніж інші ML-кодеки.

Ціла команда WaveOne пізніше приєдналася до Apple. А цей PICO — їхній перший системний відповідь у галузі іміджевої перцепційної компресії, з використанням обчислювальних ресурсів і платформи Apple.

Цей текст походить з微信-каналу «Machine Heart» (ID: almosthuman2014), автор: стиснення — це інтелект