การบีบอัดภาพ PICO AI ของ Apple ลดขนาดไฟล์ลงสองในสามในคุณภาพเดียวกัน

icon MarsBit
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
นักวิจัยจากแอปเปิลเปิดตัว PICO ซึ่งเป็นโค้ดเซอร์ภาพที่ขับเคลื่อนด้วย AI ช่วยลดขนาดไฟล์ลงสองในสามโดยไม่สูญเสียคุณภาพ บทความดังกล่าวเน้นย้ำ TextFidelityLoss และ TilingArtifactLoss เป็นนวัตกรรมหลัก ข้อมูลบนบล็อกเชนแสดงให้เห็นถึงความสนใจที่เพิ่มขึ้นใน altcoin ที่ควรจับตาเมื่อการรับรองบล็อกเชนเติบโตขึ้น PICO ทำผลงานได้ดีกว่าโค้ดเซอร์แบบ ML ในการทดสอบและทำงานได้อย่างมีประสิทธิภาพบน iPhone 17 Pro Max

รูปหนึ่งภาพสามารถบีบอัดให้เล็กได้แค่ไหน?

ในเดือนกุมภาพันธ์ 2025 กลุ่มผู้เชี่ยวชาญด้านภาพระดับนานาชาติ (JPEG) ได้ประกาศเรื่องที่อุตสาหกรรมได้เฉลิมฉลองอย่างเงียบๆ: JPEG AI ซึ่งเป็นมาตรฐานการเข้ารหัสภาพแบบเรียนรู้แบบ end-to-end ฉบับแรกที่ใช้เวลานานหลายปีและได้รับความหวังสูง ได้รับการเปิดตัวอย่างเป็นทางการ

PICO

ข่าวแพร่กระจาย นักวิจัยหลายคนแชร์บนโซเชียลมีเดีย พร้อมคอมเมนต์ว่า “AI สุดท้ายก็เข้าสู่มาตรฐานแล้ว”

มาตรฐาน JPEG เกิดขึ้นในปี 1992 และตลอดกว่าสามทศวรรษที่ผ่านมาได้เป็นภาษาพื้นฐานสำหรับภาพดิจิทัลของมนุษย์ ขณะนี้ ปัญญาประดิษฐ์เริ่มเข้ามารับหน้าที่เขียนใหม่ไวยากรณ์ของภาษาฉบับนี้

อย่างไรก็ตาม Behind the celebration lies a subtle reality: even JPEG AI still has a considerable distance to go before achieving true "perceptual compression".

วิศวกรรู้ดีว่าตัวชี้วัดมาตรฐานในการวัดคุณภาพการบีบอัดแบบดั้งเดิมอย่าง PSNR (Peak Signal-to-Noise Ratio) แท้จริงแล้วมีความเกี่ยวข้องน้อยกับสิ่งที่ดวงตาของมนุษย์รับรู้ว่า “ดูดีหรือไม่” รูปภาพหนึ่งอาจได้คะแนน PSNR สูง แต่คนดูอาจรู้สึกว่าธรรมดาทั่วไป ในขณะที่รูปภาพอีกภาพที่มี PSNR ต่ำกว่ากลับดูเหมือนมีรายละเอียดมากมายและพื้นผิวสมจริง การปรับปรุงตัวชี้วัดทางคณิตศาสตร์ และการปรับปรุงการรับรู้ของดวงตามนุษย์ คือสิ่งที่ต่างกันโดยสิ้นเชิง

ตลอดหลายทศวรรษที่ผ่านมา ตั้งแต่ JPEG ไปจนถึง VVC และจนถึง JPEG AI ตรรกะการออกแบบรหัสทั้งหมดยังคงวนเวียนอยู่ในกรอบของตัวชี้วัดทางคณิตศาสตร์ การบีบอัดแบบรับรู้ (ซึ่งมุ่งปรับปรุงประสบการณ์ของดวงตามนุษย์โดยตรง) ยังคงเป็นเป้าหมายระยะไกลในบทความวิชาการ มากกว่าความเป็นจริงทางวิศวกรรมที่สามารถบรรจุลงในโทรศัพท์มือถือ

ในเวลานี้เอง ทีมวิศวกรของแอปเปิลได้เผยแพร่บทความวิจัยอย่างเงียบๆ ซึ่งเสนอคำตอบของพวกเขาภายใต้รหัสชื่อ: PICO

PICO

หัวข้อบทความ: สิ่งที่มีความสำคัญในการบีบอัดภาพที่เรียนรู้จากประสบการณ์จริง

ที่อยู่ของเอกสารวิจัย: https://arxiv.org/pdf/2605.05148

ทำไม “ดูดีกว่า” ถึงยากกว่า “ตัวเลขสูงกว่า”?

ก่อนที่จะเข้าใจ PICO ให้เข้าใจก่อนว่าการบีบอัดภาพกำลังทำอะไร

การบันทึกภาพหนึ่งภาพเป็นไฟล์ 本质上 เป็นคำถามของการตัดสินใจว่าจะลืมอะไรและจดจำอะไร 由于พื้นที่จัดเก็บมีจำกัด จึงต้องทิ้งข้อมูลบางส่วน ขณะเดียวกันก็ทำให้ผู้ดูแทบไม่รู้สึกถึงการสูญเสีย รหัสผ่านและถอดรหัสต่างๆ ใช้วิธีการ “ทิ้ง” ที่แตกต่างกัน

รหัสและถอดรหัสแบบดั้งเดิมเช่น JPEG, AV1, VVC ล้วนเป็นระบบกฎที่วิศวกรออกแบบด้วยมือ พวกมันตัดภาพเป็นชิ้นๆ แปลง ควอนตัม และเข้ารหัสเอนโทรปี แต่ละขั้นตอนล้วนเป็นประสบการณ์เชิงประจักษ์ที่สะสมมานับสิบปี ระบบเหล่านี้สามารถแสดงผลได้ดีมากบนตัวชี้วัดทางคณิตศาสตร์เช่น PSNR แต่การออกแบบของพวกมันมีจุดมุ่งหมายพื้นฐานเพื่อ “ลดข้อผิดพลาดของพิกเซล” ไม่ใช่ “ลดความไม่สบายตาของมนุษย์”

ปัญหาคือ ตาคนไม่ใช่เครื่องนับข้อผิดพลาดของพิกเซล ตาคนไวต่อพื้นผิว ตัวอักษร และรายละเอียด ซึ่งซับซ้อนกว่าสูตรทางคณิตศาสตร์มาก เมื่อคุณบีบอัดภาพทิวทัศน์ถนนให้เล็กมาก PSNR อาจยังดูดีอยู่ แต่คุณจะเห็นขอบอาคารเบลอ ตัวอักษรบนป้ายถนนบิดเบี้ยว — และสิ่งเหล่านี้เองคือสิ่งที่ตาคนสังเกตเห็นก่อนใคร

การปรากฏตัวของรหัสผ่านการเรียนรู้แบบเชิงรับรู้เปิดประตูใหม่ในเชิงทฤษฎี: โครงข่ายประสาทสามารถฝึกฝนแบบ end-to-end โดยตรงตามการรับรู้ของมนุษย์ แทนที่จะเป็นสูตรทางคณิตศาสตร์ แต่ก่อนหน้า PICO รหัสผ่านการเรียนรู้แบบเชิงรับรู้ที่มีอยู่แล้วนั้น ไม่ว่าจะช้าจนใช้งานไม่ได้ ขาดความเข้ากันได้ข้ามอุปกรณ์ หรือไม่สามารถควบคุมอัตราบิตได้อย่างยืดหยุ่น จึงไม่สามารถนำไปใช้ในผลิตภัณฑ์สำหรับผู้บริโภคได้

สามคำถามหลัก สามวิธีแก้

PICO ย่อมาจาก Perceptual Image Codec (รหัสและถอดรหัสภาพเชิงรับรู้) ชื่อนี้ชี้ชัดถึงเป้าหมายของมัน: ทำให้ดวงตาของมนุษย์พึงพอใจ

PICO

ทีมวิจัยได้สำรวจระบบอย่างเป็นระบบซึ่งมีการตั้งค่าโมเดลหลายล้านรูปแบบ และได้นำนวัตกรรมทางเทคนิคสำคัญหลายประการมาใช้

คำถามแรก: หากการเข้ารหัสเอนโทรปีช้า ควรทำอย่างไร?

ในการบีบอัดภาพมีความท้าทายอย่างหนึ่ง: เพื่อบีบอัดให้เล็กลง ตัวเข้ารหัสและถอดรหัสต้องใช้ “โมเดลเอนโทรปี” เพื่อประมาณปริมาณข้อมูลของพิกเซลแต่ละตัวอย่างแม่นยำ วิธีที่แม่นยำที่สุดเรียกว่าการเข้ารหัสแบบอัตโนมัติ: เมื่อบีบอัดพิกเซลแต่ละตัว ต้องดูพิกเซลที่บีบอัดแล้วรอบข้างก่อน เพื่อทำนายทีละขั้นตอน คล้ายกับเชฟที่แต่ละครั้งที่ใส่วัตถุดิบ ต้องหันกลับไปดูสถานะในกระทะก่อนตัดสินใจขั้นตอนถัดไป แม่นยำ แต่ช้ามาก

วิธีแก้ปัญหาของ PICO คือ “โมเดลบริบทแบบครั้งเดียว” (One-shot Context Model): แยกพารามิเตอร์ “สเกล” ที่สำคัญที่สุดใน entropy coding ออกมาและคำนวณทั้งหมดในครั้งเดียวของการแพร่กระจายแบบก้าวหน้า โดยไม่ต้องรอคอยกลับไปกลับมาอีก; ส่วนพารามิเตอร์ที่เหลือสามารถคำนวณแบบขนานได้ รักษาความแม่นยำแบบอัตโนมัติย้อนกลับไว้ แต่หลีกเลี่ยงข้อจำกัดด้านความเร็วของมัน ผลลัพธ์คือ: เมื่อตัดโมดูลนี้ออก ประสิทธิภาพของโมเดลลดลง 10.28%; เมื่อเพิ่มมันเข้าไป ความเร็วแทบไม่ได้รับผลกระทบ

PICO

คำถามที่สอง: หากการฝึกฝนการรับรู้สร้างภาพหลอน ควรทำอย่างไร?

ภาพที่ฝึกด้วย GAN (Generative Adversarial Networks) มักดู “สมจริง” แต่อาจเป็นความจริงที่ถูกแต่งขึ้น — เส้นผมกลายเป็นลวดลายที่ไม่มีอยู่จริง พื้นผิวเรียบกลับมีเนื้อเทียมเพิ่มขึ้น ยิ่งไปกว่านั้น ดวงตาของมนุษย์ไวต่อข้อความอย่างมาก แม้แต่ตัวอักษรหนึ่งตัวจะเบี้ยวเพียงเล็กน้อย ก็จะรับรู้ทันที

PICO ได้ออกแบบ TextFidelityLoss ที่ออกแบบมาเฉพาะสำหรับข้อความ: โดยใช้ตัวตรวจจับข้อความที่มีอยู่แล้วเพื่อระบุพื้นที่ข้อความในภาพโดยอัตโนมัติ แล้วบังคับใช้ข้อจำกัดความแม่นยำของพิกเซลอย่างเข้มงวดในพื้นที่เหล่านี้ พร้อมทั้งลดพื้นที่ในการ "แสดงความสามารถ" ของ GAN ในบริเวณข้อความ การทดลองแสดงให้เห็นว่า เมื่อเพิ่มฟังก์ชันการสูญเสียนี้ ข้อผิดพลาดสัมบูรณ์ในพื้นที่ข้อความลดลงครึ่งหนึ่งอย่างสมบูรณ์

PICO

คำถามที่สาม: การประมวลผลภาพเป็นชิ้นๆ จะทิ้งขอบของบล็อกสีไว้ ควรทำอย่างไร?

เพื่อให้ทำงานได้อย่างรวดเร็วบนชิปมือถือ PICO ได้ตัดภาพออกเป็นแท่งขนาด 504×504 พิกเซล แล้วประมวลผลแต่ละแท่งแยกกันก่อนนำมารวมกันใหม่ แต่ GAN มักจะละเลยสีความถี่ต่ำระหว่างการฝึกอบรม ทำให้เกิดความแตกต่างของสีที่มองเห็นได้ระหว่างแท่งที่อยู่ติดกัน คล้ายกับรู้สึกว่าการแก้ไขภาพ “ต่อไม่สนิท” ทีมวิจัยจึงได้แนะนำ TilingArtifactLoss ซึ่งเป็นการสูญเสีย L1 แบบหลายความละเอียด เพื่อบังคับให้โมเดลรักษาความสม่ำเสมอของสีในความถี่เชิงพื้นที่หลายระดับ มาตรการนี้ช่วยลดข้อผิดพลาดที่ขอบแท่งลงมากกว่าครึ่ง

ผลการทดลอง

ทีมแอปเปิลไม่ได้พึ่งแค่ตัวชี้วัดการทดสอบมาตรฐาน พวกเขาจ้างแพลตฟอร์มภายนอก Mabyduck จัดการทดสอบเชิงesubจิตของมนุษย์ในขนาดใหญ่

การประเมินใช้วิธีเปรียบเทียบแบบเบลินด์แบบคู่: ผู้ประเมิน 610 คนที่ผ่านการคัดเลือก (ต้องผ่านการทดสอบสีตาบอดและการระบุอาร์ติแฟกต์จากการบีบอัด) ได้เปรียบเทียบผลการฟื้นฟูภาพเดียวกันภายใต้โค้ดเซอร์ต่างๆ เป็นคู่ๆ จากนั้นสรุปเป็นคะแนน Bayesian ELO รวมทั้งหมดมีการเก็บข้อมูลการเปรียบเทียบแบบคู่ 74,925 ครั้ง

PICO

ตัวเลขสุดท้ายพูดแทนทั้งหมด: ในคุณภาพภาพเดียวกัน ขนาดไฟล์ของ PICO มีขนาดเพียงหนึ่งในสามถึงหนึ่งในสองของ AV1, AV2, VVC, ECM และ JPEG AI — กล่าวอีกนัยหนึ่ง ในการจัดเก็บภาพเดียวกัน มันต้องการบิตเพียง 30%-43% เท่านั้นของมาตรฐานเหล่านี้ เมื่อเปรียบเทียบกับตัวบีบอัดแบบเรียนรู้ที่มีประสิทธิภาพสูงสุดในปัจจุบัน (เช่น HiFiC, MRIC เป็นต้น) PICO ยังช่วยลดขนาดไฟล์ได้อีก 20%-40%

PICO

ในด้านความเร็ว บน iPhone 17 Pro Max การเข้ารหัสภาพ 12MP โดย PICO ใช้เวลาเพียง 230 มิลลิวินาที และการถอดรหัสใช้เวลาเพียง 150 มิลลิวินาที ในขณะที่ตัวเข้ารหัส-ถอดรหัส ML ชั้นนำส่วนใหญ่ที่ทำงานบนการ์ดกราฟิก NVIDIA V100 ยังช้ากว่านี้

ควรสังเกตว่า วิจัยยังได้บันทึกตัวอย่างที่ขัดแย้งไว้โดยเฉพาะ: ในเกณฑ์ดั้งเดิม PSNR PICO แสดงผลในระดับปานกลาง แม้แต่ยังด้อยกว่า DCVC-RT และ VVC ซึ่งยืนยันการตัดสินใจพื้นฐานของทีมว่า การปรับปรุงคุณภาพการรับรู้และการปรับปรุงตัวชี้วัดทางคณิตศาสตร์ 本质上เป็นสองทิศทางที่แตกต่างกัน ไม่สามารถได้ทั้งสองอย่างพร้อมกัน

จุดเปลี่ยนของยุค ไม่ใช่จุดสิ้นสุด

PICO ยังมีข้อจำกัดบางประการ บทความยอมรับว่าสำหรับภาพสังเคราะห์ที่มีรูปแบบเป็นระเบียบสูง เช่น การ์ตูนหรือแผนภาพ PICO มีประสิทธิภาพในการบีบอัดน้อยกว่าตัวเข้ารหัส-ถอดรหัสแบบดั้งเดิม เนื่องจากเนื้อหาเหล่านี้เหมาะกับการสร้างแบบอัตโนมัติที่ขับเคลื่อนด้วยกฎมากกว่าการสร้างแบบรับรู้

แต่ข้อจำกัดเหล่านี้ไม่ได้ทำให้ความหมายของงานนี้จางหายไป

ในสามทศวรรษที่ผ่านมา ความก้าวหน้าทางเทคโนโลยีการบีบอัดภาพเกิดขึ้นเกือบทั้งหมดบนเส้นทางที่เน้น “ทำให้ดิจิทัลดูดีขึ้น” จาก JPEG ถึง HEVC และ再到 VVC วิศวกรแต่ละรุ่นได้ปรับปรุงตัวชี้วัดต่างๆ เช่น PSNR และ SSIM แต่การรับรู้ของดวงตาคนยังคงเป็น “ปัญหา” ที่ถูกหลีกเลี่ยง

PICO เป็นครั้งแรกที่มีใครสักคนแยกแยะปัญหาที่ยากนี้อย่างเป็นระบบ: ตั้งแต่การค้นหาสถาปัตยกรรม การออกแบบฟังก์ชันการสูญเสีย ไปจนถึงการประเมินเชิงประจักษ์ของมนุษย์ในระดับใหญ่ และสุดท้ายก็บรรจุไว้ในตัวเข้ารหัส-ถอดรหัสที่สามารถทำงานแบบเรียลไทม์บนโทรศัพท์มือถือได้

เมื่อคุณแบ่งปันรูปภาพครั้งต่อไปด้วยอุปกรณ์แอปเปิล คุณอาจไม่รู้สึกถึงความแตกต่างใดๆ แต่ในกระบวนการบีบอัดที่เงียบสงบนั้น อาจมีอัลกอริธึมที่ออกแบบมาเฉพาะสำหรับการรับรู้ของดวงตา กำลังตัดสินว่าข้อมูลใดควรเก็บไว้ และข้อมูลใดสามารถลืมไปอย่างเงียบๆ

ทีม: จาก WaveOne ถึง Apple

ผู้เขียนที่ติดต่อได้ของเอกสารฉบับนี้คือ Oren Rippel นักวิจัยจากแอปเปิล ผู้มีประสบการณ์ยาวนานในด้านการบีบอัด

ชื่อของเขาปรากฏครั้งแรกในวงกว้างในปี 2017 โดยตอนนั้นเขาอยู่ที่บริษัทสตาร์ทอัพ WaveOne และได้ตีพิมพ์บทความชื่อ “Real-Time Adaptive Image Compression” ซึ่งใช้เครือข่ายประสาทเทียมเอาชนะตัวเข้ารหัส-ถอดรหัสหลักทั้งหมดในขณะนั้น พร้อมรักษาความเร็วในการทำงานแบบเรียลไทม์ บทความดังกล่าวก่อให้เกิดเสียงสะท้อนอย่างมากในวงการวิชาการ และวางรากฐานให้ Rippel ได้รับการยอมรับในด้านการบีบอัดแบบเรียนรู้

PICO

ต่อมา ทีมแกนหลักชุดเดียวกันได้ดำเนินการต่อที่ WaveOne และเปิดตัว ELF-VC สำหรับการบีบอัดวิดีโอ ซึ่งสามารถลดอัตราบิตได้ 44% เมื่อเทียบกับ H.264 บนชุดทดสอบวิดีโอ UVG และมีความเร็วในการทำงานเร็วกว่า codec แบบ ML อื่นๆ มากกว่าห้าเท่า

ทีมงานของ WaveOne ต่อมาได้เข้าร่วมแอปเปิลทั้งทีม และ PICO ครั้งนี้คือคำตอบเชิงระบบชิ้นแรกของพวกเขา ซึ่งนำทรัพยากรด้านพลังการประมวลผลและแพลตฟอร์มจากแอปเปิลมาใช้ในการบีบอัดภาพแบบรับรู้

บทความนี้มาจาก微信号 “机器之心” (ID: almosthuman2014) โดยผู้เขียน: การบีบอัดคือปัญญา

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา