Seberapa kecil satu gambar bisa ditekan?
Pada Februari 2025, International JPEG Group (JPEG) mengumumkan sebuah pencapaian yang dirayakan secara tenang oleh industri: JPEG AI, standar internasional pengkodean gambar berbasis pembelajaran end-to-end pertama yang memakan waktu bertahun-tahun dan penuh harapan, secara resmi dirilis.

Berita ini menyebar, dan banyak peneliti yang membagikannya di media sosial, disertai komentar "AI akhirnya masuk ke standar".
Standar JPEG lahir pada tahun 1992 dan selama lebih dari tiga puluh tahun telah menjadi bahasa dasar untuk gambar digital manusia. Sekarang, kecerdasan buatan mulai mengambil alih menulis ulang tata bahasa bahasa ini.
Namun, di balik perayaan tersebut ada kenyataan halus: bahkan JPEG AI, jauh dari "kompresi perseptual" yang sebenarnya.
Insinyur tahu bahwa indikator tradisional untuk mengukur kualitas kompresi, yaitu Peak Signal-to-Noise Ratio (PSNR), sebenarnya memiliki hubungan yang kecil dengan persepsi manusia terhadap "seberapa bagus" gambar tersebut. Sebuah gambar bisa mendapatkan skor tinggi pada PSNR, tetapi manusia justru merasa biasa saja; sementara gambar lain dengan PSNR lebih rendah justru terasa memiliki detail kaya dan tekstur yang realistis. Mengoptimalkan indikator matematis dan mengoptimalkan persepsi mata manusia adalah dua hal yang sama sekali berbeda.
Selama beberapa dekade, mulai dari JPEG hingga VVC, hingga JPEG AI, logika desain hampir semua codec tetap berputar-putar dalam kerangka indikator matematis. Kompresi perseptual (yang dioptimalkan langsung untuk pengalaman mata manusia) selalu tampak seperti tujuan jangka panjang dalam makalah akademis, bukan realitas teknis yang bisa dimasukkan ke dalam ponsel.
Pada saat yang tepat ini, tim insinyur Apple secara diam-diam menerbitkan sebuah makalah yang memberikan jawaban mereka, dengan kode: PICO.

Judul makalah: Apa yang Penting dalam Kompresi Gambar yang Dipelajari Secara Praktis
Alamat makalah: https://arxiv.org/pdf/2605.05148
Mengapa "terlihat lebih baik" jauh lebih sulit daripada "angka lebih tinggi"?
Sebelum memahami PICO, Anda harus memahami apa yang sebenarnya dilakukan kompresi gambar.
Menyimpan sebuah foto sebagai file pada dasarnya adalah masalah kompromi antara "lupa apa" dan "ingat apa". Karena ruang penyimpanan terbatas, sebagian informasi harus dibuang, sambil memastikan bahwa orang yang melihatnya hampir tidak menyadari perbedaannya. Berbagai codec mengikuti cara pembuangan yang berbeda.
Codec tradisional seperti JPEG, AV1, dan VVC semuanya merupakan sistem aturan yang dirancang secara manual oleh insinyur. Mereka memotong gambar menjadi blok, mentransformasi, mengkuantisasi, dan melakukan entropy encoding; setiap langkah merupakan hasil pengalaman manusia yang terakumulasi selama puluhan tahun. Sistem semacam ini dapat tampil sangat baik pada indikator matematis seperti PSNR, tetapi desainnya pada dasarnya berfokus pada "mengurangi kesalahan piksel", bukan "mengurangi ketidaknyamanan visual manusia".
Masalahnya adalah, mata manusia bukanlah penghitung kesalahan piksel. Sensitivitas mata manusia terhadap tekstur, teks, dan detail jauh lebih kompleks daripada rumus matematis. Ketika Anda mengompres foto pemandangan jalan menjadi sangat kecil, PSNR mungkin masih terlihat wajar, tetapi Anda akan melihat tepi bangunan menjadi kabur dan teks rambu jalan menjadi terdistorsi—dan inilah hal-hal yang pertama kali terdeteksi oleh mata manusia.
Munculnya codec berbasis pembelajaran membuka pintu baru secara teoritis: jaringan saraf dapat dilatih secara end-to-end langsung terhadap persepsi manusia, bukan terhadap rumus matematis. Namun, sebelum PICO, codec pembelajaran persepsi yang ada sebelumnya要么 terlalu lambat untuk digunakan secara praktis,要么 kurang kompatibel lintas perangkat,要么 tidak dapat mengontrol bitrate secara fleksibel, sehingga tidak mungkin dimasukkan ke dalam produk konsumen.
Tiga pertanyaan inti, tiga solusi
PICO adalah singkatan dari Perceptual Image Codec. Nama ini secara langsung menunjukkan tujuannya: memuaskan mata manusia.

Tim peneliti secara sistematis mengeksplorasi jutaan konfigurasi model dan memperkenalkan beberapa inovasi teknis kunci.
Pertanyaan pertama: Entropi encoding lambat, apa yang harus dilakukan?
Dalam kompresi gambar, ada satu tantangan: untuk mencapai kompresi yang lebih kecil, codec perlu menggunakan "model entropi" untuk memperkirakan secara akurat jumlah informasi setiap piksel. Metode paling akurat disebut encoding autoregresif: setiap kali mengompres satu piksel, codec harus terlebih dahulu melihat piksel-piksel sekitar yang sudah dikompres, lalu memprediksi secara berurutan. Ini seperti seorang koki yang, setiap kali menambahkan bahan, harus menengok keadaan dalam panci terlebih dahulu sebelum memutuskan langkah selanjutnya. Akurat, tetapi sangat lambat.
Solusi PICO adalah "One-shot Context Model": memisahkan "parameter skala" yang paling krusial dalam entropi coding, menghitung semuanya sekaligus dalam satu forward pass tanpa perlu menunggu bolak-balik; sementara parameter lainnya dapat dihitung secara paralel, mempertahankan akurasi autoregresif namun menghindari bottleneck kecepatannya. Hasilnya: menghapus modul ini menurunkan kinerja model sebesar 10,28%; menambahkannya hampir tidak memengaruhi kecepatan.

Pertanyaan kedua: Bagaimana jika pelatihan persepsi menyebabkan halusinasi?
Gambar yang dilatih menggunakan GAN (jaringan saraf adversarial) sering kali "terlihat sangat realistis", tetapi bisa saja merupakan kebenaran yang dibuat-buat — rambut menjadi pola yang tidak ada, permukaan halus menampilkan tekstur palsu. Lebih merepotkan lagi, mata manusia sangat peka terhadap teks; bahkan sedikit perubahan pada satu huruf pun akan langsung terdeteksi.
PICO secara khusus merancang TextFidelityLoss: menggunakan detektor teks yang sudah ada untuk secara otomatis mengidentifikasi area teks dalam gambar, menerapkan batasan keakuratan piksel yang ketat pada area-area tersebut, sekaligus membatasi "ruang ekspresi" GAN di area teks. Eksperimen menunjukkan bahwa dengan menambahkan fungsi kerugian ini, kesalahan absolut pada area teks berkurang hingga setengahnya.

Masalah ketiga: Pemrosesan gambar dalam blok menghasilkan batas blok warna, apa yang harus dilakukan?
Untuk menjalankan dengan cepat di chip ponsel, PICO memotong gambar menjadi ubin-ubin berukuran 504×504 piksel, memprosesnya secara terpisah, lalu menyatukannya kembali. Namun, GAN cenderung mengabaikan warna frekuensi rendah selama pelatihan, menyebabkan perbedaan warna yang terlihat di antara ubin-ubin yang berdekatan, mirip dengan efek "tidak tersambung dengan baik" saat mengedit gambar. Tim peneliti secara khusus memperkenalkan TilingArtifactLoss, sebuah kerugian L1 multi-resolusi, yang memaksa model untuk mempertahankan konsistensi warna di berbagai frekuensi spasial. Tindakan ini mengurangi kesalahan di batas ubin lebih dari setengahnya.
Hasil eksperimen
Tim Apple tidak hanya mengandalkan indikator evaluasi benchmark. Mereka memesan platform pihak ketiga Mabyduck untuk menyelenggarakan evaluasi subjektif manusia dalam skala besar.
Evaluasi dilakukan dengan metode blind pairwise comparison: 610 evaluator yang telah disaring (harus lulus uji buta warna dan deteksi artefak kompresi) membandingkan secara berpasangan hasil rekonstruksi gambar yang sama di bawah berbagai codec, dengan hasil akhir dirangkum menjadi skor Bayesian ELO. Sebanyak 74.925 hasil perbandingan berpasangan dikumpulkan.

Angka akhir yang menjadi buktinya: di kualitas visual yang sama, ukuran file PICO hanya sepertiga hingga setengah dari AV1, AV2, VVC, ECM, dan JPEG AI—artinya, untuk menyimpan gambar yang sama, ia hanya memerlukan 30%-43% bit dari standar-standar tersebut. Dibandingkan dengan codec perseptual berbasis pembelajaran terkuat saat ini (HiFiC, MRIC, dll.), PICO juga mengurangi ukuran file sebesar 20%-40%.

Dari segi kecepatan, pada iPhone 17 Pro Max, PICO mengkodekan satu foto 12MP hanya dalam 230 milidetik dan mendekode dalam 150 milidetik. Sebagian besar kompresor ML terkemuka yang berjalan di kartu grafis server NVIDIA V100 lebih lambat dari ini.
Perlu dicatat bahwa makalah tersebut juga mencatat sebuah «pengecualian»: pada metrik tradisional PSNR, PICO berkinerja biasa saja, bahkan kalah dari DCVC-RT dan VVC. Hal ini justru memperkuat penilaian dasar tim: mengoptimalkan kualitas perseptual dan mengoptimalkan metrik matematis pada dasarnya adalah dua arah yang berbeda, tidak mungkin mendapatkan keduanya sekaligus.
Sebuah titik balik zaman, bukan akhir
PICO juga memiliki keterbatasan. Makalah mengakui bahwa untuk gambar sintetis yang sangat teratur seperti kartun dan skema, efisiensi kompresi PICO lebih rendah dibandingkan codec tradisional, karena konten semacam ini secara alami cocok untuk pemodelan autoregresif berbasis aturan, bukan generasi perseptual.
Namun, batasan-batasan ini tidak mengaburkan makna dari pekerjaan ini.
Dalam tiga dekade terakhir, kemajuan teknologi kompresi gambar hampir seluruhnya terjadi di jalur "membuat angka terlihat lebih baik". Dari JPEG hingga HEVC, lalu ke VVC, para insinyur secara bertahap mengoptimalkan indikator-indikator seperti PSNR dan SSIM. Namun, persepsi manusia tetap menjadi "masalah" yang dihindari.
PICO adalah pertama kalinya seseorang secara sistematis mengurai tantangan ini dari pengembangan arsitektur, desain fungsi kerugian, hingga evaluasi subjektif manusia dalam skala besar, dan akhirnya mengemasnya menjadi codec yang dapat berjalan secara real-time di ponsel.
Ketika Anda berbagi foto menggunakan perangkat Apple berikutnya, mungkin Anda tidak merasakan perbedaan apa pun. Tetapi mungkin dalam proses kompresi yang tenang itu, sebuah algoritma yang dirancang khusus untuk persepsi mata manusia sedang memutuskan informasi mana yang layak dipertahankan dan mana yang bisa diabaikan secara halus.
Tim: Dari WaveOne ke Apple
Penulis koresponden makalah ini adalah Oren Rippel, peneliti Apple, yang sudah lama dikenal di bidang kompresi.
Namanya pertama kali muncul secara luas pada tahun 2017. Pada saat itu, ia masih bekerja di perusahaan rintisan WaveOne, dan menerbitkan sebuah makalah berjudul "Real-Time Adaptive Image Compression", yang menggunakan jaringan saraf untuk mengalahkan semua codec utama saat itu, sekaligus mempertahankan kecepatan operasi real-time. Makalah tersebut menimbulkan kegemparan di kalangan akademis dan meletakkan dasar bagi posisi Rippel di bidang kompresi berbasis pembelajaran.

Setelah itu, tim inti yang sama melanjutkan pengembangan di WaveOne dan meluncurkan ELF-VC untuk kompresi video, yang mampu menghemat 44% bitrate dibandingkan H.264 pada kumpulan pengujian video UVG, sekaligus berjalan lebih dari lima kali lebih cepat daripada codec ML sejenis.
Tim WaveOne kemudian bergabung secara keseluruhan ke Apple. Dan PICO kali ini adalah jawaban sistematis pertama mereka dalam kompresi persepsi gambar, membawa kekuatan komputasi dan sumber daya platform Apple.
Artikel ini berasal dari akun WeChat "Machine Heart" (ID: almosthuman2014), penulis: Compression Is Intelligence
