Seberapa kecilkah satu gambar boleh dipadatkan?
Pada Februari 2025, International JPEG Group (JPEG) mengumumkan satu perkara yang dirayakan secara senyap oleh industri: JPEG AI, standard pengkodan imej end-to-end pembelajaran pertama yang telah lama ditunggu-tunggu, secara rasmi dilancarkan.

Berita ini tersebar, dan ramai penyelidik membagikannya di media sosial dengan komen "AI akhirnya masuk ke piawaian".
Standard JPEG lahir pada tahun 1992, dan selama lebih dari tiga dekad telah menjadi bahasa asas bagi imej digital manusia. Kini, kecerdasan buatan mulai mengambil alih untuk menulis semula tatabahasa bahasa ini.
Namun, di sebalik perayaan terdapat realiti halus: walaupun JPEG AI, jaraknya masih jauh daripada "kompresi kesedaran" yang sebenar.
Jurutera mengetahui bahawa ukuran tradisional kualiti kompresi, Peak Signal-to-Noise Ratio (PSNR), sebenarnya mempunyai hubungan yang sedikit dengan apa yang dilihat mata manusia sebagai “cantik” atau “tidak cantik”. Sebuah gambar yang mendapat skor tinggi dalam PSNR mungkin kelihatan biasa saja apabila dilihat oleh manusia; sebaliknya, gambar lain dengan PSNR yang lebih rendah mungkin dirasakan mempunyai butiran yang kaya dan tekstur yang realistik. Meningkatkan indikator matematik dan meningkatkan persepsi mata manusia adalah dua perkara yang benar-benar berbeza.
Selama beberapa dekad, dari JPEG hingga VVC, dan seterusnya ke JPEG AI, logik reka bentuk hampir semua codec masih berputar-putar dalam kerangka ukuran matematik. Kompresi persepsi (mengoptimumkan pengalaman mata manusia secara langsung) sentiasa kelihatan seperti matlamat jangka panjang dalam kertas akademik, bukan realiti kejuruteraan yang boleh dimasukkan ke dalam telefon bimbit.
Pada masa kritikal ini, sebuah pasukan jurutera Apple secara rahsia menerbitkan sebuah kertas kerja, memberikan jawapan mereka dengan kod nama: PICO.

Tajuk kertas: Apa yang Penting dalam Kompresi Gambar Belajar Praktikal
Alamat kertas: https://arxiv.org/pdf/2605.05148
Mengapa "kelihatan lebih baik" lebih sukar daripada "nombor lebih tinggi"?
Sebelum memahami PICO, anda perlu memahami apa yang dilakukan oleh kompresi gambar.
Menyimpan satu gambar sebagai fail pada dasarnya adalah soal kompromi antara apa yang perlu dilupakan dan apa yang perlu diingat. Dengan ruang penyimpanan yang terhad, sebahagian maklumat perlu dibuang, sambil memastikan penonton hampir tidak menyedari kehilangan tersebut. Kod器 yang berbeza mengikuti cara pembuangan yang berbeza.
Codec tradisional seperti JPEG, AV1, dan VVC semuanya merupakan sistem peraturan yang direka oleh jurutera. Mereka memotong gambar menjadi blok, mentransformasi, mengkuantifikasi, dan mengkodkan entropi; setiap langkah adalah hasil pengalaman manual yang terkumpul selama puluhan tahun. Sistem semacam ini boleh menunjukkan prestasi sangat baik pada ukuran matematik seperti PSNR, tetapi rekaan mereka pada dasarnya bertujuan untuk "mengurangkan ralat piksel", bukan "mengurangkan ketidakselesaan mata manusia".
Masalahnya ialah, mata manusia bukan pengukur kesalahan piksel. Kehalusan mata manusia terhadap tekstur, teks, dan butiran jauh lebih kompleks daripada formula matematik. Apabila anda memampatkan gambar pemandangan jalan ke saiz yang sangat kecil, PSNR mungkin masih kelihatan baik, tetapi anda akan melihat tepi bangunan menjadi kabur dan teks papan tanda menjadi terjejas—dan inilah perkara yang pertama kali dikesan oleh mata manusia.
Kehadiran codec pembelajaran membuka pintu baru secara teori: rangkaian saraf boleh dilatih secara end-to-end berdasarkan persepsi manusia, bukan berdasarkan formula matematik. Namun, sebelum PICO, codec pembelajaran persepsi yang sedia ada sama ada terlalu perlahan untuk digunakan secara praktikal, tidak kompatibel antara peranti, atau tidak mampu mengawal kadar bit secara fleksibel, sehingga tidak boleh dimasukkan ke dalam produk pengguna biasa.
Tiga soalan utama, tiga penyelesaian
PICO merupakan singkatan bagi Perceptual Image Codec (kodik imej perasaan). Nama ini secara langsung menekankan matlamatnya: memuaskan mata manusia.

Pasukan penyelidik secara sistematis mengkaji jutaan konfigurasi model dan memperkenalkan beberapa inovasi teknikal utama.
Soalan pertama: Entropi encoding perlahan, apa yang harus dilakukan?
Dalam pemampatan imej, terdapat satu cabaran: untuk memampatkan lebih kecil, codec perlu menggunakan "model entropi" untuk menganggar jumlah maklumat setiap piksel dengan tepat. Kaedah paling tepat dipanggil pengkodan auto-regresif: setiap kali memampatkan satu piksel, ia perlu melihat piksel-piksel sekitar yang telah dipampatkan terlebih dahulu, dan meramal secara berturut-turut. Ini seperti seorang chef yang, setiap kali meletakkan bahan makanan, perlu menoleh semula untuk memeriksa keadaan dalam periuk sebelum membuat keputusan langkah seterusnya. Tepat, tetapi sangat perlahan.
Penyelesaian PICO ialah "Model Konteks Satu Kali" (One-shot Context Model): memisahkan "parameter skala" yang paling kritikal dalam entropi pengkodan, mengira kesemuanya dalam satu perambatan maju tanpa perlu menunggu balik dan balik; manakala parameter lain boleh dikira secara selari, mempertahankan ketepatan auto-regresif tetapi mengelakkan bottleneck kelajuan. Hasilnya: apabila modul ini dihapuskan, prestasi model turun 10.28%; apabila ditambahkan, kelajuan hampir tidak terkesan.

Soalan kedua: Bagaimana jika latihan persepsi menghasilkan halusinasi?
Gambar yang dilatih menggunakan GAN (jaringan saraf adversarial) sering kali "kelihatan sangat realistik", tetapi mungkin merupakan kebenaran yang dibuat-buat — rambut menjadi corak yang tidak wujud, dan permukaan licin mendapat tekstur palsu. Lebih rumit lagi, mata manusia sangat peka terhadap teks; walaupun satu huruf berubah sedikit sahaja, ia akan segera dikesan.
PICO secara khusus direka untuk teks dengan TextFidelityLoss: menggunakan pengesan teks sedia ada untuk secara automatik mengenal pasti kawasan teks dalam gambar, serta memberikan sekatan ketat terhadap kejituan piksel di kawasan-kawasan ini, sambil mengurangkan "ruang bereksperimen" GAN di kawasan teks. Eksperimen menunjukkan bahawa dengan menambah fungsi kerugian ini, ralat mutlak di kawasan teks berkurang separuhnya.

Soalan ketiga: Bagaimana untuk mengatasi sempadan blok warna yang tinggal selepas pemprosesan imej blok?
Untuk menjalankan dengan cepat pada cip telefon bimbit, PICO memotong gambar menjadi petak-petak 504×504 piksel, memprosesnya secara berasingan, kemudian menyusun semula. Namun, GAN cenderung mengabaikan warna frekuensi rendah semasa latihan, menyebabkan perbezaan warna yang kelihatan antara petak-petak bersebelahan, serupa dengan kesan “tidak disambung dengan baik” semasa sunting gambar. Pasukan penyelidik secara khusus memperkenalkan TilingArtifactLoss, satu fungsi kerugian L1 berresolusi pelbagai, yang memaksa model mengekalkan kekonsistenan warna pada pelbagai frekuensi ruang. Langkah ini mengurangkan ralat di sempadan petak sebanyak lebih daripada separuh.
Keputusan eksperimen
Pasukan Apple tidak hanya bergantung pada indikator penilaian standard. Mereka mengarahkan platform pihak ketiga, Mabyduck, untuk mengatur penilaian subjektif manusia dalam skala besar.
Penilaian dilakukan melalui ujian buta berpasangan: 610 penilai yang telah disaring (harus lulus ujian buta warna dan pengenalan artefak kompresi) membandingkan secara berpasangan hasil rekonstruksi gambar yang sama di bawah codec yang berbeza, dengan kesimpulan akhir diringkaskan sebagai skor Bayesian ELO. Sebanyak 74,925 hasil perbandingan berpasangan telah dikumpulkan.

Nombor akhir berbicara sendiri: pada kualiti visual yang sama, saiz fail PICO hanya sepertiga hingga separuh daripada AV1, AV2, VVC, ECM, dan JPEG AI — dengan kata lain, untuk menyimpan gambar yang sama, ia hanya memerlukan 30%-43% bit daripada standard tersebut. Berbanding dengan codec persepsi berdasarkan pembelajaran terkuat semasa ini (HiFiC, MRIC, dsb.), PICO juga mengurangkan saiz fail sebanyak 20%-40%.

Dari segi kelajuan, pada iPhone 17 Pro Max, PICO mengkodkan satu gambar 12MP hanya dalam 230 milisaat, dan menghuraikan hanya dalam 150 milisaat. Kebanyakan kompresor dan dekompresor ML terkemuka yang berjalan pada kad grafik server NVIDIA V100 lebih perlahan daripada ini.
Perlu diperhatikan bahawa kertas ini juga mencatat satu «pengecualian»: dalam indikator tradisional PSNR, PICO menunjukkan prestasi biasa-biasa saja, bahkan lebih rendah daripada DCVC-RT dan VVC. Ini tepat memperkuat penilaian asas pasukan: mengoptimumkan kualiti persepsi dan mengoptimumkan indikator matematik pada dasarnya adalah dua arah yang berbeza, tidak mungkin mendapat kedua-duanya.
Satu titik zaman, bukan akhir
PICO juga mempunyai batasan. Kertas kerja mengakui bahawa untuk gambar sintetik yang sangat teratur seperti kartun dan skema, kecekapan pemampatan PICO kurang berkesan berbanding codec tradisional, kerana kandungan semacam ini secara semula jadi sesuai untuk pemodelan auto-regresif berasaskan peraturan, bukan penghasilan persepsi.
Namun, batasan-batasan ini tidak menutupi makna kerja ini.
Dalam tiga dekad terakhir, kemajuan teknologi pemampatan gambar hampir semuanya berlaku di lintasan "membuat nombor lebih cantik". Dari JPEG ke HEVC, kemudian VVC, jurutera dari generasi ke generasi mengoptimumkan indikator seperti PSNR dan SSIM. Namun, persepsi mata manusia sentiasa menjadi "masalah" yang dielakkan.
PICO adalah yang pertama kali seseorang secara sistematis menguraikan masalah sukar ini secara langsung: dari pencarian arsitektur, reka bentuk fungsi kerugian, hingga penilaian subjektif manusia dalam skala besar, dan akhirnya memasukkannya ke dalam sebuah codec yang boleh berjalan secara real-time di telefon pintar.
Apabila anda berkongsi satu gambar menggunakan peranti Apple pada masa depan, mungkin anda tidak akan merasakan sebarang perbezaan. Tetapi mungkin dalam proses mampat yang tenang itu, satu algoritma yang direka khas untuk persepsi mata manusia sedang menentukan maklumat mana yang patut dikekalkan dan mana yang boleh dilupakan secara halus.
Pasukan: Dari WaveOne ke Apple
Penulis komunikasi untuk kertas ini ialah Oren Rippel, penyelidik Apple, yang sudah lama berkecimpung dalam bidang pemampatan.
Namanya muncul secara besar-besaran pertama kali pada tahun 2017. Pada masa itu, beliau masih bekerja di syarikat permulaan WaveOne, dan menerbitkan sebuah kertas kerja berjudul “Real-time Adaptive Image Compression”, yang menggunakan rangkaian saraf untuk mengalahkan semua codec utama pada masa itu sambil mengekalkan kelajuan pengendalian secara masa nyata. Kertas kerja itu menimbulkan kegemparan yang besar di kalangan akademik, serta meletakkan asas kedudukan Rippel dalam bidang pemampatan berbasis pembelajaran.

Selepas itu, pasukan inti yang sama meneruskan pengembangan di WaveOne dan melancarkan ELF-VC yang ditujukan untuk pengekodan video, mencapai pengurangan kadar bit sebanyak 44% berbanding H.264 pada set ujian video UVG, sambil beroperasi lebih pantas lima kali ganda berbanding pengekod ML sejenis.
Pasukan WaveOne kemudian menyertai Apple secara keseluruhan. PICO kali ini merupakan jawapan sistematik pertama mereka terhadap kompresi persepsi imej, membawa sumber daya pengiraan dan platform Apple.
Artikel ini berasal daripada akaun微信公众号 "Machine Heart" (ID: almosthuman2014), penulis: Compression Is Intelligence
