การบีบอัดภาพ PICO AI ของ Apple ลดขนาดไฟล์ลงสองในสามในคุณภาพเดียวกัน

รูปหนึ่งภาพสามารถบีบอัดให้เล็กได้แค่ไหน?

ในเดือนกุมภาพันธ์ 2025 กลุ่มผู้เชี่ยวชาญด้านภาพระดับนานาชาติ (JPEG) ได้ประกาศเรื่องที่อุตสาหกรรมได้เฉลิมฉลองอย่างเงียบๆ: JPEG AI ซึ่งเป็นมาตรฐานการเข้ารหัสภาพแบบเรียนรู้แบบ end-to-end ฉบับแรกที่ใช้เวลานานหลายปีและได้รับความหวังสูง ได้รับการเปิดตัวอย่างเป็นทางการ

PICO

ข่าวแพร่กระจาย นักวิจัยหลายคนแชร์บนโซเชียลมีเดีย พร้อมคอมเมนต์ว่า “AI สุดท้ายก็เข้าสู่มาตรฐานแล้ว”

มาตรฐาน JPEG เกิดขึ้นในปี 1992 และตลอดกว่าสามทศวรรษที่ผ่านมาได้เป็นภาษาพื้นฐานสำหรับภาพดิจิทัลของมนุษย์ ขณะนี้ ปัญญาประดิษฐ์เริ่มเข้ามารับหน้าที่เขียนใหม่ไวยากรณ์ของภาษาฉบับนี้

อย่างไรก็ตาม Behind the celebration lies a subtle reality: even JPEG AI still has a considerable distance to go before achieving true "perceptual compression".

วิศวกรรู้ดีว่าตัวชี้วัดมาตรฐานในการวัดคุณภาพการบีบอัดแบบดั้งเดิมอย่าง PSNR (Peak Signal-to-Noise Ratio) แท้จริงแล้วมีความเกี่ยวข้องน้อยกับสิ่งที่ดวงตาของมนุษย์รับรู้ว่า “ดูดีหรือไม่” รูปภาพหนึ่งอาจได้คะแนน PSNR สูง แต่คนดูอาจรู้สึกว่าธรรมดาทั่วไป ในขณะที่รูปภาพอีกภาพที่มี PSNR ต่ำกว่ากลับดูเหมือนมีรายละเอียดมากมายและพื้นผิวสมจริง การปรับปรุงตัวชี้วัดทางคณิตศาสตร์ และการปรับปรุงการรับรู้ของดวงตามนุษย์ คือสิ่งที่ต่างกันโดยสิ้นเชิง

ตลอดหลายทศวรรษที่ผ่านมา ตั้งแต่ JPEG ไปจนถึง VVC และจนถึง JPEG AI ตรรกะการออกแบบรหัสทั้งหมดยังคงวนเวียนอยู่ในกรอบของตัวชี้วัดทางคณิตศาสตร์ การบีบอัดแบบรับรู้ (ซึ่งมุ่งปรับปรุงประสบการณ์ของดวงตามนุษย์โดยตรง) ยังคงเป็นเป้าหมายระยะไกลในบทความวิชาการ มากกว่าความเป็นจริงทางวิศวกรรมที่สามารถบรรจุลงในโทรศัพท์มือถือ

ในเวลานี้เอง ทีมวิศวกรของแอปเปิลได้เผยแพร่บทความวิจัยอย่างเงียบๆ ซึ่งเสนอคำตอบของพวกเขาภายใต้รหัสชื่อ: PICO

PICO

หัวข้อบทความ: สิ่งที่มีความสำคัญในการบีบอัดภาพที่เรียนรู้จากประสบการณ์จริง

ที่อยู่ของเอกสารวิจัย: https://arxiv.org/pdf/2605.05148

ทำไม “ดูดีกว่า” ถึงยากกว่า “ตัวเลขสูงกว่า”?

ก่อนที่จะเข้าใจ PICO ให้เข้าใจก่อนว่าการบีบอัดภาพกำลังทำอะไร

การบันทึกภาพหนึ่งภาพเป็นไฟล์ 本质上 เป็นคำถามของการตัดสินใจว่าจะลืมอะไรและจดจำอะไร 由于พื้นที่จัดเก็บมีจำกัด จึงต้องทิ้งข้อมูลบางส่วน ขณะเดียวกันก็ทำให้ผู้ดูแทบไม่รู้สึกถึงการสูญเสีย รหัสผ่านและถอดรหัสต่างๆ ใช้วิธีการ “ทิ้ง” ที่แตกต่างกัน

รหัสและถอดรหัสแบบดั้งเดิมเช่น JPEG, AV1, VVC ล้วนเป็นระบบกฎที่วิศวกรออกแบบด้วยมือ พวกมันตัดภาพเป็นชิ้นๆ แปลง ควอนตัม และเข้ารหัสเอนโทรปี แต่ละขั้นตอนล้วนเป็นประสบการณ์เชิงประจักษ์ที่สะสมมานับสิบปี ระบบเหล่านี้สามารถแสดงผลได้ดีมากบนตัวชี้วัดทางคณิตศาสตร์เช่น PSNR แต่การออกแบบของพวกมันมีจุดมุ่งหมายพื้นฐานเพื่อ “ลดข้อผิดพลาดของพิกเซล” ไม่ใช่ “ลดความไม่สบายตาของมนุษย์”

ปัญหาคือ ตาคนไม่ใช่เครื่องนับข้อผิดพลาดของพิกเซล ตาคนไวต่อพื้นผิว ตัวอักษร และรายละเอียด ซึ่งซับซ้อนกว่าสูตรทางคณิตศาสตร์มาก เมื่อคุณบีบอัดภาพทิวทัศน์ถนนให้เล็กมาก PSNR อาจยังดูดีอยู่ แต่คุณจะเห็นขอบอาคารเบลอ ตัวอักษรบนป้ายถนนบิดเบี้ยว — และสิ่งเหล่านี้เองคือสิ่งที่ตาคนสังเกตเห็นก่อนใคร

การปรากฏตัวของรหัสผ่านการเรียนรู้แบบเชิงรับรู้เปิดประตูใหม่ในเชิงทฤษฎี: โครงข่ายประสาทสามารถฝึกฝนแบบ end-to-end โดยตรงตามการรับรู้ของมนุษย์ แทนที่จะเป็นสูตรทางคณิตศาสตร์ แต่ก่อนหน้า PICO รหัสผ่านการเรียนรู้แบบเชิงรับรู้ที่มีอยู่แล้วนั้น ไม่ว่าจะช้าจนใช้งานไม่ได้ ขาดความเข้ากันได้ข้ามอุปกรณ์ หรือไม่สามารถควบคุมอัตราบิตได้อย่างยืดหยุ่น จึงไม่สามารถนำไปใช้ในผลิตภัณฑ์สำหรับผู้บริโภคได้

สามคำถามหลัก สามวิธีแก้

PICO ย่อมาจาก Perceptual Image Codec (รหัสและถอดรหัสภาพเชิงรับรู้) ชื่อนี้ชี้ชัดถึงเป้าหมายของมัน: ทำให้ดวงตาของมนุษย์พึงพอใจ

PICO

ทีมวิจัยได้สำรวจระบบอย่างเป็นระบบซึ่งมีการตั้งค่าโมเดลหลายล้านรูปแบบ และได้นำนวัตกรรมทางเทคนิคสำคัญหลายประการมาใช้

คำถามแรก: หากการเข้ารหัสเอนโทรปีช้า ควรทำอย่างไร?

ในการบีบอัดภาพมีความท้าทายอย่างหนึ่ง: เพื่อบีบอัดให้เล็กลง ตัวเข้ารหัสและถอดรหัสต้องใช้ “โมเดลเอนโทรปี” เพื่อประมาณปริมาณข้อมูลของพิกเซลแต่ละตัวอย่างแม่นยำ วิธีที่แม่นยำที่สุดเรียกว่าการเข้ารหัสแบบอัตโนมัติ: เมื่อบีบอัดพิกเซลแต่ละตัว ต้องดูพิกเซลที่บีบอัดแล้วรอบข้างก่อน เพื่อทำนายทีละขั้นตอน คล้ายกับเชฟที่แต่ละครั้งที่ใส่วัตถุดิบ ต้องหันกลับไปดูสถานะในกระทะก่อนตัดสินใจขั้นตอนถัดไป แม่นยำ แต่ช้ามาก

วิธีแก้ปัญหาของ PICO คือ “โมเดลบริบทแบบครั้งเดียว” (One-shot Context Model): แยกพารามิเตอร์ “สเกล” ที่สำคัญที่สุดใน entropy coding ออกมาและคำนวณทั้งหมดในครั้งเดียวของการแพร่กระจายแบบก้าวหน้า โดยไม่ต้องรอคอยกลับไปกลับมาอีก; ส่วนพารามิเตอร์ที่เหลือสามารถคำนวณแบบขนานได้ รักษาความแม่นยำแบบอัตโนมัติย้อนกลับไว้ แต่หลีกเลี่ยงข้อจำกัดด้านความเร็วของมัน ผลลัพธ์คือ: เมื่อตัดโมดูลนี้ออก ประสิทธิภาพของโมเดลลดลง 10.28%; เมื่อเพิ่มมันเข้าไป ความเร็วแทบไม่ได้รับผลกระทบ

PICO

คำถามที่สอง: หากการฝึกฝนการรับรู้สร้างภาพหลอน ควรทำอย่างไร?

ภาพที่ฝึกด้วย GAN (Generative Adversarial Networks) มักดู “สมจริง” แต่อาจเป็นความจริงที่ถูกแต่งขึ้น — เส้นผมกลายเป็นลวดลายที่ไม่มีอยู่จริง พื้นผิวเรียบกลับมีเนื้อเทียมเพิ่มขึ้น ยิ่งไปกว่านั้น ดวงตาของมนุษย์ไวต่อข้อความอย่างมาก แม้แต่ตัวอักษรหนึ่งตัวจะเบี้ยวเพียงเล็กน้อย ก็จะรับรู้ทันที

PICO ได้ออกแบบ TextFidelityLoss ที่ออกแบบมาเฉพาะสำหรับข้อความ: โดยใช้ตัวตรวจจับข้อความที่มีอยู่แล้วเพื่อระบุพื้นที่ข้อความในภาพโดยอัตโนมัติ แล้วบังคับใช้ข้อจำกัดความแม่นยำของพิกเซลอย่างเข้มงวดในพื้นที่เหล่านี้ พร้อมทั้งลดพื้นที่ในการ "แสดงความสามารถ" ของ GAN ในบริเวณข้อความ การทดลองแสดงให้เห็นว่า เมื่อเพิ่มฟังก์ชันการสูญเสียนี้ ข้อผิดพลาดสัมบูรณ์ในพื้นที่ข้อความลดลงครึ่งหนึ่งอย่างสมบูรณ์

PICO

คำถามที่สาม: การประมวลผลภาพเป็นชิ้นๆ จะทิ้งขอบของบล็อกสีไว้ ควรทำอย่างไร?

เพื่อให้ทำงานได้อย่างรวดเร็วบนชิปมือถือ PICO ได้ตัดภาพออกเป็นแท่งขนาด 504×504 พิกเซล แล้วประมวลผลแต่ละแท่งแยกกันก่อนนำมารวมกันใหม่ แต่ GAN มักจะละเลยสีความถี่ต่ำระหว่างการฝึกอบรม ทำให้เกิดความแตกต่างของสีที่มองเห็นได้ระหว่างแท่งที่อยู่ติดกัน คล้ายกับรู้สึกว่าการแก้ไขภาพ “ต่อไม่สนิท” ทีมวิจัยจึงได้แนะนำ TilingArtifactLoss ซึ่งเป็นการสูญเสีย L1 แบบหลายความละเอียด เพื่อบังคับให้โมเดลรักษาความสม่ำเสมอของสีในความถี่เชิงพื้นที่หลายระดับ มาตรการนี้ช่วยลดข้อผิดพลาดที่ขอบแท่งลงมากกว่าครึ่ง

ผลการทดลอง

ทีมแอปเปิลไม่ได้พึ่งแค่ตัวชี้วัดการทดสอบมาตรฐาน พวกเขาจ้างแพลตฟอร์มภายนอก Mabyduck จัดการทดสอบเชิงesubจิตของมนุษย์ในขนาดใหญ่

การประเมินใช้วิธีเปรียบเทียบแบบเบลินด์แบบคู่: ผู้ประเมิน 610 คนที่ผ่านการคัดเลือก (ต้องผ่านการทดสอบสีตาบอดและการระบุอาร์ติแฟกต์จากการบีบอัด) ได้เปรียบเทียบผลการฟื้นฟูภาพเดียวกันภายใต้โค้ดเซอร์ต่างๆ เป็นคู่ๆ จากนั้นสรุปเป็นคะแนน Bayesian ELO รวมทั้งหมดมีการเก็บข้อมูลการเปรียบเทียบแบบคู่ 74,925 ครั้ง

PICO

ตัวเลขสุดท้ายพูดแทนทั้งหมด: ในคุณภาพภาพเดียวกัน ขนาดไฟล์ของ PICO มีขนาดเพียงหนึ่งในสามถึงหนึ่งในสองของ AV1, AV2, VVC, ECM และ JPEG AI — กล่าวอีกนัยหนึ่ง ในการจัดเก็บภาพเดียวกัน มันต้องการบิตเพียง 30%-43% เท่านั้นของมาตรฐานเหล่านี้ เมื่อเปรียบเทียบกับตัวบีบอัดแบบเรียนรู้ที่มีประสิทธิภาพสูงสุดในปัจจุบัน (เช่น HiFiC, MRIC เป็นต้น) PICO ยังช่วยลดขนาดไฟล์ได้อีก 20%-40%

PICO

ในด้านความเร็ว บน iPhone 17 Pro Max การเข้ารหัสภาพ 12MP โดย PICO ใช้เวลาเพียง 230 มิลลิวินาที และการถอดรหัสใช้เวลาเพียง 150 มิลลิวินาที ในขณะที่ตัวเข้ารหัส-ถอดรหัส ML ชั้นนำส่วนใหญ่ที่ทำงานบนการ์ดกราฟิก NVIDIA V100 ยังช้ากว่านี้

ควรสังเกตว่า วิจัยยังได้บันทึกตัวอย่างที่ขัดแย้งไว้โดยเฉพาะ: ในเกณฑ์ดั้งเดิม PSNR PICO แสดงผลในระดับปานกลาง แม้แต่ยังด้อยกว่า DCVC-RT และ VVC ซึ่งยืนยันการตัดสินใจพื้นฐานของทีมว่า การปรับปรุงคุณภาพการรับรู้และการปรับปรุงตัวชี้วัดทางคณิตศาสตร์ 本质上เป็นสองทิศทางที่แตกต่างกัน ไม่สามารถได้ทั้งสองอย่างพร้อมกัน

จุดเปลี่ยนของยุค ไม่ใช่จุดสิ้นสุด

PICO ยังมีข้อจำกัดบางประการ บทความยอมรับว่าสำหรับภาพสังเคราะห์ที่มีรูปแบบเป็นระเบียบสูง เช่น การ์ตูนหรือแผนภาพ PICO มีประสิทธิภาพในการบีบอัดน้อยกว่าตัวเข้ารหัส-ถอดรหัสแบบดั้งเดิม เนื่องจากเนื้อหาเหล่านี้เหมาะกับการสร้างแบบอัตโนมัติที่ขับเคลื่อนด้วยกฎมากกว่าการสร้างแบบรับรู้

แต่ข้อจำกัดเหล่านี้ไม่ได้ทำให้ความหมายของงานนี้จางหายไป

ในสามทศวรรษที่ผ่านมา ความก้าวหน้าทางเทคโนโลยีการบีบอัดภาพเกิดขึ้นเกือบทั้งหมดบนเส้นทางที่เน้น “ทำให้ดิจิทัลดูดีขึ้น” จาก JPEG ถึง HEVC และ再到 VVC วิศวกรแต่ละรุ่นได้ปรับปรุงตัวชี้วัดต่างๆ เช่น PSNR และ SSIM แต่การรับรู้ของดวงตาคนยังคงเป็น “ปัญหา” ที่ถูกหลีกเลี่ยง

PICO เป็นครั้งแรกที่มีใครสักคนแยกแยะปัญหาที่ยากนี้อย่างเป็นระบบ: ตั้งแต่การค้นหาสถาปัตยกรรม การออกแบบฟังก์ชันการสูญเสีย ไปจนถึงการประเมินเชิงประจักษ์ของมนุษย์ในระดับใหญ่ และสุดท้ายก็บรรจุไว้ในตัวเข้ารหัส-ถอดรหัสที่สามารถทำงานแบบเรียลไทม์บนโทรศัพท์มือถือได้

เมื่อคุณแบ่งปันรูปภาพครั้งต่อไปด้วยอุปกรณ์แอปเปิล คุณอาจไม่รู้สึกถึงความแตกต่างใดๆ แต่ในกระบวนการบีบอัดที่เงียบสงบนั้น อาจมีอัลกอริธึมที่ออกแบบมาเฉพาะสำหรับการรับรู้ของดวงตา กำลังตัดสินว่าข้อมูลใดควรเก็บไว้ และข้อมูลใดสามารถลืมไปอย่างเงียบๆ

ทีม: จาก WaveOne ถึง Apple

ผู้เขียนที่ติดต่อได้ของเอกสารฉบับนี้คือ Oren Rippel นักวิจัยจากแอปเปิล ผู้มีประสบการณ์ยาวนานในด้านการบีบอัด

ชื่อของเขาปรากฏครั้งแรกในวงกว้างในปี 2017 โดยตอนนั้นเขาอยู่ที่บริษัทสตาร์ทอัพ WaveOne และได้ตีพิมพ์บทความชื่อ “Real-Time Adaptive Image Compression” ซึ่งใช้เครือข่ายประสาทเทียมเอาชนะตัวเข้ารหัส-ถอดรหัสหลักทั้งหมดในขณะนั้น พร้อมรักษาความเร็วในการทำงานแบบเรียลไทม์ บทความดังกล่าวก่อให้เกิดเสียงสะท้อนอย่างมากในวงการวิชาการ และวางรากฐานให้ Rippel ได้รับการยอมรับในด้านการบีบอัดแบบเรียนรู้

PICO

ต่อมา ทีมแกนหลักชุดเดียวกันได้ดำเนินการต่อที่ WaveOne และเปิดตัว ELF-VC สำหรับการบีบอัดวิดีโอ ซึ่งสามารถลดอัตราบิตได้ 44% เมื่อเทียบกับ H.264 บนชุดทดสอบวิดีโอ UVG และมีความเร็วในการทำงานเร็วกว่า codec แบบ ML อื่นๆ มากกว่าห้าเท่า

ทีมงานของ WaveOne ต่อมาได้เข้าร่วมแอปเปิลทั้งทีม และ PICO ครั้งนี้คือคำตอบเชิงระบบชิ้นแรกของพวกเขา ซึ่งนำทรัพยากรด้านพลังการประมวลผลและแพลตฟอร์มจากแอปเปิลมาใช้ในการบีบอัดภาพแบบรับรู้

บทความนี้มาจาก微信号 “机器之心” (ID: almosthuman2014) โดยผู้เขียน: การบีบอัดคือปัญญา