Surya OCR 2 บรรลุความแม่นยำ 83.3% ด้วยพารามิเตอร์ 6.5 พันล้าน ตั้งมาตรฐานใหม่

ข่าวจาก ME News เมื่อวันที่ 28 พฤษภาคม (UTC+8) ตามข้อมูลจาก Beating แพลตฟอร์มเอกสารอัจฉริยะแบบโอเพนซอร์ส Datalab ได้เปิดตัวโมเดล OCR แบบโอเพนซอร์สใหม่ล่าสุดชื่อ Surya OCR 2 อย่างเป็นทางการ โมเดลใหม่นี้มีพารามิเตอร์เพียง 650 ล้านพารามิเตอร์ และได้คะแนน 83.3% ในการประเมินเอกสารอัจฉริยะที่มีชื่อเสียง olmOCR-bench จัดอยู่ในอันดับหนึ่งในกลุ่มโมเดลที่มีพารามิเตอร์ต่ำกว่า 3 พันล้าน และมีประสิทธิภาพดีกว่ารุ่นต้นฉบับที่มีพารามิเตอร์ 9 พันล้านซึ่งมีขนาดใหญ่กว่าประมาณ 14 เท่า ทำให้บรรลุจุดสมดุลระหว่างจำนวนพารามิเตอร์กับความแม่นยำอย่างเหมาะสมที่สุด ในด้านฟังก์ชัน Surya OCR 2 รวมสามงานหลัก—การวิเคราะห์เค้าโครง เวลาการรับรู้ข้อความ และการรับรู้ตาราง—ไว้ในโมเดลภาษาเชิงภาพเดียว (VLM) ในขณะที่การตรวจจับบรรทัดข้อความและการตรวจจับข้อผิดพลาดของ OCR ยังคงทำงานผ่านโมเดลขนาดเล็กอิสระ ผู้ใช้สามารถดำเนินการ OCR ทั้งหน้าได้เพียงครั้งเดียวโดยเรียกใช้โมเดลเพียงครั้งเดียว และได้ผลลัพธ์เป็นรหัส HTML แบบมีโครงสร้างที่รวมข้อมูลกรอบพิกัดและลำดับการอ่าน โดยสูตรคณิตศาสตร์จะถูกแสดงในแท็ก HTML math และตารางข้ามบรรทัดหรือข้ามคอลัมน์จะถูกจัดรูปแบบเป็นมาตรฐาน HTML ในด้านการรองรับหลายภาษา โมเดลใหม่นี้มีอัตราการผ่านรวม 87.2% ในการทดสอบกับภาษา 91 ภาษา (อัตราการผ่านภาษาจีนอยู่ที่ 82.5%) และได้รับการปรับปรุงอย่างลึกซึ้งสำหรับเอกสารที่เสียหายและตัวอักษรลายมือ ในด้านประสิทธิภาพการปรับใช้ Surya OCR 2 รองรับสองแบ็กเอนด์การประมวลผล เมื่อทำงานบนอุปกรณ์ GPU ของ NVIDIA โดยใช้ Docker และเปิดใช้งานแบ็กเอนด์ vLLM การ์ดจอ RTX 5090 เพียงหนึ่งใบสามารถประมวลผลได้ถึง 5.35 หน้าต่อวินาที ในสภาพแวดล้อมของ Apple หรือ CPU ทั่วไป ระบบสามารถโหลดโมเดลในรูปแบบ GGUF ผ่าน llama.cpp และทำงานได้อย่างสมบูรณ์บนเครื่อง M1 โดยไม่ต้องพึ่งคลาวด์ ขณะนี้รหัสแหล่งที่มาของโมเดลใหม่นี้เปิดให้ใช้งานแบบโอเพนซอร์สภายใต้ใบอนุญาต Apache 2.0 และน้ำหนักโมเดลถูกแจกจ่ายฟรีภายใต้ใบอนุญาต OpenRAIL-M สำหรับบุคคลทั่วไป สถาบันการศึกษา และบริษัทสตาร์ทอัพที่มีรายได้ต่อปีต่ำกว่า 5 ล้านดอลลาร์สหรัฐ ในขณะเดียวกัน Datalab ก็เปิดให้ใช้งาน API แบบเสียค่าใช้จ่ายที่ใช้โมเดล Chandra 2 ขนาด 4 พันล้านพารามิเตอร์ที่ทรงพลังกว่าพร้อมให้เครดิตทดลองฟรี 5 ดอลลาร์สหรัฐ (ที่มา: BlockBeats)