Apple'ın PICO AI Görüntü Sıkıştırması, aynı kalitede dosya boyutunu üçte ikisine indiriyor

Bir resim ne kadar küçültülebilir?

Şubat 2025'te Uluslararası Görsel Grup (JPEG), yıllarca süren ve büyük beklentilerle karşılanan ilk uçtan uca öğrenmeli görüntü kodlama uluslararası standardı olan JPEG AI'nın resmi olarak yayınlandığını duyurdu.

PICO

Haber yayılırken, birçok araştırmacı sosyal medyada "AI nihayet standartlara girdi" yorumlarıyla paylaştı.

JPEG standardı 1992 yılında ortaya çıktı ve üç on yıldan fazla bir süredir insan dijital görüntülerinin temel dilidir. Şimdi ise yapay zeka, bu dilin dilbilgisini yeniden yazmaya başlıyor.

Ancak kutlamaların ardında ince bir gerçek var: JPEG AI bile, gerçek bir "algısal sıkıştırma"ya henüz uzak.

Mühendisler, geleneksel bir sıkıştırma kalitesi ölçütü olan piksel tepe sinyal-gürültü oranı (PSNR)'nin insan gözünün "güzel mi değil mi" algısıyla pek ilişkili olmadığını biliyor. Bir resim PSNR'de yüksek puan alsa da insanlar onu sıradan bulabilir; başka bir resim PSNR'si düşük olsa da insanlar detaylı ve gerçekçi bir kalite hissi yaşayabilir. Matematiksel bir ölçütü optimize etmek, insan gözünün algısını optimize etmekten tamamen farklı iki şeydir.

Yıllarca, JPEG'den VVC'ye, ardından JPEG AI'ye kadar neredeyse tüm kodlayıcıların tasarım mantığı, matematiksel metriklerin çerçevesinde dönmeye devam etti. Algısal sıkıştırma (doğrudan insan gözünün deneyimine odaklanan), akademik makalelerdeki bir uzak hedef gibi kaldı, telefonlara entegre edilebilecek mühendislik gerçekliği değil.

Tam bu sırada, Apple'ın bir mühendis ekibi, kod adı: PICO olan bir makale yayınladı.

PICO

Pratik Öğrenilmiş Görüntü Sıkıştırmada Önemli Olanlar

Kağıt adresi: https://arxiv.org/pdf/2605.05148

Neden “daha iyi görünmek” sayısal olarak daha yüksek olmaktan çok daha zor?

PICO'yu anlamadan önce, görüntü sıkıştırmanın tam olarak ne yaptığını anlamalısınız.

Bir fotoğrafı dosya olarak kaydetmek, temelde "ne unutulmalı, ne hatırlanmalı" sorunudur. Depolama alanı sınırlı olduğundan, bir miktar bilgi atılmalı ve izleyenin bunu fark etmemesi sağlanmalıdır. Farklı kodlayıcılar, farklı "atma" yöntemlerini izler.

JPEG, AV1, VVC gibi geleneksel kod çözücüler, mühendisler tarafından el ile tasarlanmış kural sistemleridir. Bunlar, görüntüleri bloklara ayırır, dönüştürür, nicelleştirir ve entropi kodlar; her adım, on yıllar boyunca birikmiş el deneyimlerine dayanır. Bu tür sistemler, PSNR gibi matematiksel ölçütlerde çok iyi performans gösterebilir, ancak tasarım temelinde "pixellerdeki hataları azaltmak" üzerine odaklanmıştır, "insan gözünün rahatsızlığını azaltmak" üzerine değildir.

Sorun şu ki, insan gözü bir piksel hatası sayacı değildir. İnsan gözü, doku, metin ve detaylara karşı matematiksel formüllerden çok daha karmaşık bir şekilde duyarlıdır. Bir sokak manzarası fotoğrafını çok küçük sıkıştırdığınızda, PSNR hâlâ kabul edilebilir kalabilir, ancak binaların kenarlarında bulanıklaşma ve yol işaretlerindeki metinlerin bozulmasını göreceksiniz — ve bunlar, insan gözü tarafından ilk fark edilen şeylerdir.

Öğrenim tabanlı kodlayıcıların ortaya çıkışı, nöral ağların matematiksel formüller yerine doğrudan insan algısına yönelik uçtan uca eğitilmesine olanak tanıyan yeni bir kapı açtı. Ancak PICO'dan önce var olan algısal öğrenim kodlayıcılar ya çok yavaşydı ve pratikte kullanılamazdı, ya cihazlar arası uyumluluğa sahip değildi, ya da bit hızını esnek bir şekilde kontrol edemiyordu; bu nedenle tüketici düzeyi bir ürüne entegre edilemiyordu.

Üç temel soru, üç çözüm

PICO'nun tam adı Perceptual Image Codec (Algısal Görüntü Kodlayıcı/Çözücü)'dür. Bu isim, hedefinin insan gözünü memnun etmek olduğunu doğrudan belirtir.

PICO

Araştırma ekibi, milyonlarca model yapılandırmasını sistematik olarak inceledi ve birkaç temel teknik yenilik sundu.

İlk soru: Entropi kodlaması yavaş, ne yapmalıyım?

Görüntü sıkıştırmada bir zorluk vardır: Daha küçük boyutlara sıkıştırmak için kodlayıcı, her pikselin bilgi miktarını tahmin etmek için bir “entropi modeli” kullanmalıdır. En doğru yöntem, otoregresif kodlamadır: Her piksel sıkıştırılırken, önce çevresindeki zaten sıkıştırılmış pikseller incelenir ve sırayla tahmin yapılır. Bu, bir şefin her malzeme eklerken, tenceredeki duruma bakarak bir sonraki adımı belirlemesine benzer. Doğru, ancak çok yavaştır.

PICO'nun çözümü, "tek seferlik bağlam modeli"dir (One-shot Context Model): Entropi kodlamasındaki en kritik "ölçek parametresi" ayrı bir şekilde çıkarılır ve tek bir ileri geçişte tümü hesaplanır; artık bekleme gerekmez. Diğer parametreler paralel olarak hesaplanır, otoregresif doğruluk korunurken hız engeli aşılır. Sonuç olarak: Bu modül kaldırıldığında model performansı %10,28 düşer; eklendiğinde hız neredeyse etkilenmez.

PICO

İkinci soru: Algı eğitimi halüsinasyonlara neden olursa ne yapmalıyız?

GAN (对抗 nöral ağlar) ile eğitilmiş görüntüler genellikle "çok gerçekçi" görünür, ancak bu gerçeklik yaratılmış olabilir — saç telleri var olmayan desenlere dönüşür, düz yüzeylerde sahte dokular ortaya çıkar. Daha da sorunlu olan, insan gözünün metne aşırı hassas olmasıdır; hatta bir harfin en küçük ölçüde bozulması bile hemen fark edilir.

PICO, metinlere özel olarak TextFidelityLoss'u tasarladı: Var olan bir metin algılayıcıyı kullanarak görüntülerdeki metin bölgelerini otomatik olarak tespit eder ve bu bölgelerde katı bir piksel sadakati kısıtlaması uygular, aynı zamanda GAN'ın metin bölgelerindeki "serbestliğini" bastırır. Deneyler, bu kayıp fonksiyonunun eklenmesiyle metin bölgelerindeki mutlak hata oranının tamamen yarıya düştüğünü gösterdi.

PICO

Üçüncü soru: Görüntü blok işleme, renk blokları sınırları bırakır, ne yapmalıyım?

PICO, mobil çip üzerinde hızlı çalışmak için görüntüleri 504×504 piksellik parçalara böler, bunları ayrı ayrı işler ve tekrar birleştirir. Ancak GAN'lar eğitim sırasında düşük frekanslı renkleri göz ardı etme eğilimindedir, bu da komşu parçalar arasında "doğru bir şekilde birleştirilmemiş" gibi görünen görünür renk farklarına neden olur. Araştırma ekibi, çok çözünürlüklü bir L1 kaybı olan TilingArtifactLoss'u özel olarak tanıttı ve modelin birçok uzaysal frekansta renk tutarlılığını korumasını sağladı. Bu önlem, parça sınırlarındaki hataları %50'den fazla azalttı.

Deneysel sonuçlar

Apple ekibi sadece referans değerlendirme ölçütleriyle konuşmuyor. Üçüncü taraf bir platform olan Mabyduck’i, büyük ölçekli bir insan subjektif değerlendirme düzenlemek için görevlendirdiler.

Değerlendirme, çiftli gizli karşılaştırmalı bir yöntemle gerçekleştirilir: 610 adet seçilmiş değerlendirme (renk körlüğü testi ve sıkıştırma sanatları ayırt etme testini geçen) aynı görüntüyü farklı kodlayıcı/dekodlayıcılar altında yeniden oluşturmuş versiyonlar arasında çiftli olarak karşılaştırır ve sonuçlar Bayesian ELO puanlarına dönüştürülür. Toplamda 74.925 çiftli değerlendirme toplanmıştır.

PICO

Son rakamlar her şeyi açıklıyor: Aynı görsel kalitede, PICO'nun dosya boyutu, AV1, AV2, VVC, ECM ve JPEG AI'nın三分之一 ila yarısıdır — yani aynı resmi depolamak için bu standartların sadece %30-%43'ü kadar bit gerektirir. Şu anda en güçlü öğrenme tabanlı algısal kodlayıcılarla (HiFiC, MRIC vb.) karşılaştırıldığında, PICO dosya boyutunda %20-%40 tasarruf sağlar.

PICO

iPhone 17 Pro Max'te, PICO kodlaması 12MP bir fotoğrafı yalnızca 230 milisaniyede, dekodlamayı ise 150 milisaniyede tamamlar. Çoğu üst düzey ML kodlayıcı/dekodlayıcı, NVIDIA V100 sunucu ekran kartlarında bu süreden daha yavaştır.

Dikkat edilmesi gereken nokta, makalede bir «karşı örnek» de kaydedildi: PSNR gibi geleneksel bir metrikte PICO, DCVC-RT ve VVC kadar iyi performans gösteremedi hatta daha kötü çıktı. Bu, ekibin temel yargılarını doğruluyor: Algısal kaliteyi optimize etmek ile matematiksel metrikleri optimize etmek, temelde iki farklı yöndür ve ikisini aynı anda elde etmek mümkün değildir.

Bir dönem noktası, bitiş değil

PICO'nun doğal olarak sınırlamaları vardır. Makale, kartezyen, şematik ve diğer çok düzenli sentetik görüntüler için PICO'nun sıkıştırma verimliliğinin geleneksel kodlayıcı/dekodlayıcılardan daha düşük olduğunu kabul eder, çünkü bu tür içerikler algısal üretmeye değil, kurala dayalı otoregresif modellemeye uygun doğar.

Ancak bu sınırlamalar, bu çalışmanın önemini gizlemiyor.

Geçtiğimiz otuz yıl boyunca, görüntü sıkıştırma teknolojisinin ilerlemesi neredeyse tamamen "dijital görüntülerin daha iyi görünmesini sağlamak" yolunda gerçekleşti. JPEG'den HEVC'e, ardından VVC'ye kadar mühendisler, nesil nesil PSNR ve SSIM gibi metrikleri optimize etti. Ancak insan gözünün algısı, her zaman atlanan bir "zorluk" olarak kaldı.

PICO, bu zorlu sorunu ilk kez sistematik bir şekilde doğrudan çözen: mimari arama, kayıp fonksiyonu tasarımı ve büyük ölçekli insan subjektif değerlendirmelerini içeren ve nihayetinde bir telefon üzerinde gerçek zamanlı olarak çalıştırılabilir bir kod çözücüye yerleştiren.

Bir sonraki sefer Apple cihazınızla bir fotoğraf paylaşırken, herhangi bir fark hissetmeyebilirsiniz. Ancak o sessiz sıkıştırma sürecinde, insan gözünün algılama biçimine özel olarak tasarlanmış bir algoritma, hangi bilgilerin korunması ve hangilerinin kısaca unutulması gerektiğini belirliyor olabilir.

Takım: WaveOne'den Apple'a

Bu makalenin iletişim yazarı, Apple araştırmacısı ve sıkıştırma alanında eski bir isim olan Oren Rippel'dir.

Adı ilk kez 2017 yılında büyük çapta ortaya çıktı. O dönemde WaveOne adlı bir startup şirketindeyken, sinir ağı kullanarak o dönemdeki tüm ana akım kodlayıcı/çözücüleri yenecek ve gerçek zamanlı çalışma hızını koruyacak şekilde "Gerçek Zamanlı Uyarlamalı Görüntü Sıkıştırma" adlı bir makale yayımladı. Bu makale akademik dünyada büyük bir dalga yarattı ve Rippel'in öğrenmeye dayalı sıkıştırma alanında bir konum kazanmasına zemin hazırladı.

PICO

Daha sonra, aynı çekirdek ekip, WaveOne'de video sıkıştırma için ELF-VC'yi geliştirdi ve UVG video test setinde H.264'e kıyasla %44'lük bir bit hızı tasarrufu sağladı, aynı zamanda benzer ML kodlayıcı/dekodlayıcılara göre beş kat daha hızlı çalıştı.

WaveOne'in bu ekibi daha sonra tamamıyla Apple'a katıldı. Bu PICO, Apple'ın hesaplama gücü ve platform kaynaklarıyla birlikte görsel algılama sıkıştırmada verilen ilk sistemli cevaptır.

Bu yazı, WeChat hesabından "Makine Kalbi" (ID: almosthuman2014) tarafından yazılmıştır, yazar: Sıkıştırma, Akıldır