Apple's PICO AI nén hình ảnh giảm kích thước tệp đến hai phần ba ở cùng chất lượng

Một hình ảnh có thể nén nhỏ đến mức nào?

Tháng 2 năm 2025, Nhóm chuyên gia hình ảnh quốc tế (JPEG) đã công bố một sự kiện được ngành công nghiệp ăn mừng một cách lặng lẽ: JPEG AI, tiêu chuẩn mã hóa hình ảnh học end-to-end đầu tiên trên thế giới, sau nhiều năm phát triển và kỳ vọng, chính thức được phát hành.

PICO

Tin tức lan truyền, nhiều nhà nghiên cứu đã chia sẻ trên mạng xã hội kèm bình luận: “AI cuối cùng cũng đã vào tiêu chuẩn”.

Tiêu chuẩn JPEG ra đời năm 1992 và trong hơn ba thập kỷ qua đã trở thành ngôn ngữ cơ bản cho hình ảnh số của con người. Bây giờ, trí tuệ nhân tạo bắt đầu tiếp quản và viết lại ngữ pháp của ngôn ngữ này.

Tuy nhiên, đằng sau sự ăn mừng là một thực tế tinh tế: ngay cả JPEG AI cũng vẫn còn một khoảng cách đáng kể so với việc đạt được "nén có nhận thức" thực sự.

Các kỹ sư biết rằng chỉ số truyền thống để đo chất lượng nén, PSNR (đỉnh tín hiệu trên nhiễu), thực tế không có mối liên hệ lớn với cảm nhận “đẹp hay không” của con người. Một hình ảnh có điểm PSNR cao có thể khiến người xem cảm thấy bình thường, trong khi một hình ảnh có PSNR thấp lại được đánh giá là chi tiết phong phú và có chất liệu chân thực. Tối ưu hóa các chỉ số toán học và tối ưu hóa cảm nhận của mắt người là hai việc hoàn toàn khác nhau.

Trong nhiều thập kỷ, từ JPEG đến VVC, rồi đến JPEG AI, logic thiết kế của hầu hết các codec vẫn chỉ xoay quanh trong khuôn khổ các chỉ số toán học. Nén nhận thức (tối ưu hóa trực tiếp trải nghiệm của mắt người) vẫn giống như một mục tiêu viễn cảnh trong các bài báo học thuật, chứ chưa phải là hiện thực kỹ thuật có thể tích hợp vào điện thoại.

Ngay tại thời điểm này, một nhóm kỹ sư của Apple đã lặng lẽ công bố một bài báo nghiên cứu, đưa ra câu trả lời của họ với mã hiệu: PICO.

PICO

Tiêu đề bài luận: Những yếu tố quan trọng trong nén hình ảnh học được thực tế

Địa chỉ bài luận: https://arxiv.org/pdf/2605.05148

Tại sao “trông tốt hơn” lại khó hơn “số cao hơn”?

Trước khi hiểu PICO, hãy hiểu xem nén hình ảnh đang làm gì.

Việc lưu một bức ảnh thành tệp về cơ bản là một bài toán lựa chọn giữa việc quên cái gì và ghi nhớ cái gì. Do không gian lưu trữ có hạn, bạn buộc phải loại bỏ một phần thông tin, đồng thời đảm bảo người xem khó nhận ra sự thay đổi. Các bộ mã hóa/giải mã khác nhau tuân theo những cách “loại bỏ” khác nhau.

Các codec truyền thống như JPEG, AV1, VVC đều là các hệ thống quy tắc do kỹ sư thiết kế thủ công. Chúng chia hình ảnh thành các khối, biến đổi, lượng tử hóa và mã hóa entropy, mỗi bước đều dựa trên kinh nghiệm tích lũy qua hàng chục năm. Những hệ thống này có thể biểu hiện xuất sắc trên các chỉ số toán học như PSNR, nhưng bản chất thiết kế của chúng hướng đến việc "giảm thiểu sai số pixel", chứ không phải "giảm thiểu cảm giác khó chịu cho mắt người".

Vấn đề là mắt người không phải là bộ đếm lỗi pixel. Mắt người nhạy cảm với kết cấu, văn bản và chi tiết phức tạp hơn nhiều so với các công thức toán học. Khi bạn nén một bức ảnh cảnh đường phố xuống rất nhỏ, PSNR có thể vẫn ở mức chấp nhận được, nhưng bạn sẽ thấy các cạnh công trình mờ, chữ trên biển báo bị biến dạng — và những điều này chính là những thứ mắt người phát hiện sớm nhất.

Sự xuất hiện của các bộ mã hóa-giải mã học tập mở ra một cánh cửa mới về mặt lý thuyết: mạng nơ-ron có thể được huấn luyện end-to-end trực tiếp dựa trên cảm nhận của con người, thay vì dựa trên các công thức toán học. Tuy nhiên, trước PICO, các bộ mã hóa-giải mã học tập dựa trên cảm nhận đã có trước đó hoặc quá chậm để sử dụng thực tế, hoặc thiếu khả năng tương thích đa thiết bị, hoặc không thể điều chỉnh linh hoạt tỷ lệ bit, khiến chúng hoàn toàn không thể tích hợp vào một sản phẩm tiêu dùng.

Ba câu hỏi cốt lõi, ba giải pháp

PICO là viết tắt của Perceptual Image Codec (bộ mã hóa/giải mã hình ảnh nhận thức). Tên này trực tiếp nêu rõ mục tiêu của nó: làm hài lòng mắt người.

PICO

Đội ngũ nghiên cứu đã hệ thống khám phá hàng triệu cấu hình mô hình và giới thiệu một số đổi mới kỹ thuật then chốt.

Câu hỏi đầu tiên: Mã hóa entropy chậm, phải làm sao?

Trong nén hình ảnh, có một thách thức: để nén nhỏ hơn, bộ mã hóa/giải mã cần sử dụng “mô hình entropy” để ước lượng chính xác lượng thông tin của từng pixel. Phương pháp chính xác nhất gọi là mã hóa tự hồi quy: mỗi khi nén một pixel, nó phải xem xét các pixel xung quanh đã được nén trước đó để dự đoán tuần tự. Điều này giống như đầu bếp, mỗi khi thêm một nguyên liệu, đều phải quay lại xem trạng thái của nồi để quyết định bước tiếp theo. Chính xác, nhưng cực kỳ chậm.

Giải pháp của PICO là "Mô hình ngữ cảnh một lần" (One-shot Context Model): tách riêng "tham số thang đo" quan trọng nhất trong mã hóa entropy, tính toán toàn bộ trong một lần truyền thuận, không còn cần chờ đợi qua lại; các tham số còn lại có thể được tính toán song song, giữ nguyên độ chính xác của mô hình tự hồi quy nhưng vượt qua được điểm nghẽn về tốc độ. Kết quả là: loại bỏ module này, hiệu suất mô hình giảm 10,28%; thêm nó vào, tốc độ gần như không bị ảnh hưởng.

PICO

Câu hỏi thứ hai: Huấn luyện nhận thức tạo ra ảo giác, phải làm sao?

Các hình ảnh được huấn luyện bằng GAN (mạng đối kháng) thường có vẻ "rất thật", nhưng có thể là sự thật được bịa đặt —— sợi tóc trở thành họa tiết không tồn tại, bề mặt phẳng xuất hiện kết cấu giả tạo. Đáng lo ngại hơn, mắt người cực kỳ nhạy cảm với văn bản, ngay cả khi một chữ cái bị biến dạng nhẹ nhất cũng sẽ lập tức bị phát hiện.

PICO đã thiết kế riêng TextFidelityLoss để xử lý văn bản: sử dụng bộ phát hiện văn bản có sẵn để tự động xác định các khu vực văn bản trong hình ảnh, đồng thời áp đặt ràng buộc độ chính xác pixel nghiêm ngặt tại các khu vực này, đồng thời hạn chế "không gian biểu đạt" của GAN trong các vùng văn bản. Các thí nghiệm cho thấy, sau khi thêm hàm mất mát này, lỗi tuyệt đối trong các khu vực văn bản đã giảm xuống một nửa.

PICO

Câu hỏi thứ ba: Xử lý hình ảnh theo từng khối sẽ để lại đường viền khối màu, phải làm sao?

Để chạy nhanh trên chip điện thoại, PICO chia hình ảnh thành các mảnh 504×504 pixel, xử lý riêng lẻ rồi ghép lại. Tuy nhiên, GAN trong quá trình huấn luyện có xu hướng bỏ qua các màu sắc tần số thấp, dẫn đến sự khác biệt màu sắc rõ ràng giữa các mảnh liền kề, giống như cảm giác “ghép không khéo” khi chỉnh sửa ảnh. Nhóm nghiên cứu đã đặc biệt giới thiệu TilingArtifactLoss, một hàm mất mát L1 đa phân giải, buộc mô hình duy trì sự nhất quán màu sắc trên nhiều tần số không gian. Biện pháp này giúp giảm lỗi tại ranh giới các mảnh xuống hơn một nửa.

Kết quả thí nghiệm

Nhóm Apple không chỉ dựa vào các chỉ số đánh giá chuẩn. Họ đã ủy thác cho nền tảng bên thứ ba Mabyduck tổ chức một cuộc đánh giá chủ quan quy mô lớn bởi con người.

Đánh giá được thực hiện theo phương pháp so sánh đôi mù: 610 người đánh giá đã qua sàng lọc (phải vượt qua bài kiểm tra mù màu và phát hiện artefact nén) tiến hành so sánh cặp đôi các kết quả tái tạo của cùng một hình ảnh dưới các bộ mã hóa/giải mã khác nhau, sau đó tổng hợp thành điểm Bayesian ELO. Tổng cộng đã thu thập được 74.925 kết quả so sánh cặp đôi.

PICO

Con số cuối cùng nói lên tất cả: ở cùng chất lượng hình ảnh, kích thước tệp của PICO chỉ bằng một phần ba đến một nửa so với AV1, AV2, VVC, ECM và JPEG AI — nói cách khác, để lưu cùng một hình ảnh, nó chỉ cần 30%-43% số bit so với các tiêu chuẩn này. So với các bộ mã hóa/giải mã nhận thức dựa trên học tập mạnh nhất hiện nay (HiFiC, MRIC, v.v.), PICO cũng tiết kiệm được 20%-40% kích thước tệp.

PICO

Về tốc độ, trên iPhone 17 Pro Max, PICO mã hóa một ảnh 12MP chỉ mất 230 miligiây và giải mã chỉ mất 150 miligiây. Trong khi đó, hầu hết các bộ mã hóa/giải mã ML hàng đầu khi chạy trên card đồ họa máy chủ NVIDIA V100 đều chậm hơn mức này.

Đáng chú ý, bài báo còn ghi nhận một “phản ví dụ”: trên chỉ số truyền thống PSNR, PICO thể hiện trung bình, thậm chí còn kém hơn DCVC-RT và VVC. Điều này đúng với phán đoán ban đầu của nhóm: tối ưu chất lượng cảm nhận và tối ưu các chỉ số toán học về bản chất là hai hướng đi khác nhau, không thể đồng thời có được cả hai.

Một mốc thời đại, chứ không phải điểm kết thúc

PICO cũng có những hạn chế nhất định. Bài báo thừa nhận rằng đối với các hình ảnh tổng hợp có tính quy tắc cao như hoạt hình, sơ đồ, hiệu suất nén của PICO kém hơn các bộ mã hóa/giải mã truyền thống, vì nội dung này tự nhiên phù hợp với mô hình hóa tự hồi quy dựa trên quy tắc hơn là sinh nhận thức.

But these limitations do not obscure the significance of this work.

Trong ba thập kỷ qua, những tiến bộ công nghệ trong nén hình ảnh gần như đều tập trung vào lĩnh vực “làm cho số hóa trông đẹp hơn”. Từ JPEG đến HEVC, rồi đến VVC, các kỹ sư qua các thế hệ đều tối ưu hóa các chỉ số như PSNR, SSIM. Trong khi đó, cảm nhận của con người luôn là một “vấn đề” bị bỏ qua.

PICO là lần đầu tiên ai đó hệ thống hóa việc giải quyết trực tiếp bài toán khó này: từ tìm kiếm kiến trúc, thiết kế hàm mất mát, đến đánh giá chủ quan quy mô lớn của con người, và cuối cùng tích hợp vào một bộ mã hóa-giải mã có thể chạy thời gian thực trên điện thoại.

Khi bạn chia sẻ một bức ảnh trên thiết bị Apple lần tới, có lẽ bạn sẽ không cảm nhận được bất kỳ sự khác biệt nào. Nhưng có thể trong quá trình nén yên lặng đó, một thuật toán được thiết kế riêng cho khả năng nhận thức của mắt người đang quyết định những thông tin nào đáng để giữ lại và những thông tin nào có thể lặng lẽ quên đi.

Đội ngũ: Từ WaveOne đến Apple

Tác giả liên lạc của bài báo này là Oren Rippel, nhà nghiên cứu của Apple, một cái tên quen thuộc trong lĩnh vực nén.

Tên của anh ấy lần đầu tiên xuất hiện rộng rãi vào năm 2017. Khi đó, anh đang làm việc tại công ty khởi nghiệp WaveOne và công bố một bài báo có tên “Real-time Adaptive Image Compression”, sử dụng mạng nơ-ron để đánh bại tất cả các bộ mã hóa/giải mã phổ biến lúc bấy giờ, đồng thời duy trì tốc độ chạy thời gian thực. Bài báo đó đã gây ra làn sóng lớn trong giới học thuật và củng cố vị thế của Rippel trong lĩnh vực nén học.

PICO

Sau đó, cùng nhóm cốt lõi này tiếp tục phát triển tại WaveOne, ra mắt ELF-VC chuyên dụng cho nén video, đạt tiết kiệm bitrate 44% so với H.264 trên bộ thử nghiệm video UVG, đồng thời vận hành nhanh hơn năm lần so với các codec ML tương đương.

Sau đó, toàn bộ đội ngũ của WaveOne đã gia nhập Apple. Và lần này, PICO là bản trả lời hệ thống đầu tiên của họ với nguồn lực tính toán và nền tảng từ Apple trong lĩnh vực nén hình ảnh nhận thức.

Bài viết này đến từ tài khoản WeChat “Machine Heart” (ID: almosthuman2014), tác giả: Nén chính là trí tuệ