ข่าวจาก ME News เมื่อวันที่ 28 พฤษภาคม (UTC+8) ตามข้อมูลจาก Beating แพลตฟอร์มเอกสารอัจฉริยะแบบโอเพนซอร์ส Datalab ได้เปิดตัวโมเดล OCR แบบโอเพนซอร์สใหม่ล่าสุดชื่อ Surya OCR 2 อย่างเป็นทางการ โมเดลใหม่นี้มีพารามิเตอร์เพียง 650 ล้านพารามิเตอร์ และได้คะแนน 83.3% ในการประเมินเอกสารอัจฉริยะที่มีชื่อเสียง olmOCR-bench จัดอยู่ในอันดับหนึ่งในกลุ่มโมเดลที่มีพารามิเตอร์ต่ำกว่า 3 พันล้าน และมีประสิทธิภาพดีกว่ารุ่นต้นฉบับที่มีพารามิเตอร์ 9 พันล้านซึ่งมีขนาดใหญ่กว่าประมาณ 14 เท่า ทำให้บรรลุจุดสมดุลระหว่างจำนวนพารามิเตอร์กับความแม่นยำอย่างเหมาะสมที่สุด ในด้านฟังก์ชัน Surya OCR 2 รวมสามงานหลัก—การวิเคราะห์เค้าโครง เวลาการรับรู้ข้อความ และการรับรู้ตาราง—ไว้ในโมเดลภาษาเชิงภาพเดียว (VLM) ในขณะที่การตรวจจับบรรทัดข้อความและการตรวจจับข้อผิดพลาดของ OCR ยังคงทำงานผ่านโมเดลขนาดเล็กอิสระ ผู้ใช้สามารถดำเนินการ OCR ทั้งหน้าได้เพียงครั้งเดียวโดยเรียกใช้โมเดลเพียงครั้งเดียว และได้ผลลัพธ์เป็นรหัส HTML แบบมีโครงสร้างที่รวมข้อมูลกรอบพิกัดและลำดับการอ่าน โดยสูตรคณิตศาสตร์จะถูกแสดงในแท็ก HTML math และตารางข้ามบรรทัดหรือข้ามคอลัมน์จะถูกจัดรูปแบบเป็นมาตรฐาน HTML ในด้านการรองรับหลายภาษา โมเดลใหม่นี้มีอัตราการผ่านรวม 87.2% ในการทดสอบกับภาษา 91 ภาษา (อัตราการผ่านภาษาจีนอยู่ที่ 82.5%) และได้รับการปรับปรุงอย่างลึกซึ้งสำหรับเอกสารที่เสียหายและตัวอักษรลายมือ ในด้านประสิทธิภาพการปรับใช้ Surya OCR 2 รองรับสองแบ็กเอนด์การประมวลผล เมื่อทำงานบนอุปกรณ์ GPU ของ NVIDIA โดยใช้ Docker และเปิดใช้งานแบ็กเอนด์ vLLM การ์ดจอ RTX 5090 เพียงหนึ่งใบสามารถประมวลผลได้ถึง 5.35 หน้าต่อวินาที ในสภาพแวดล้อมของ Apple หรือ CPU ทั่วไป ระบบสามารถโหลดโมเดลในรูปแบบ GGUF ผ่าน llama.cpp และทำงานได้อย่างสมบูรณ์บนเครื่อง M1 โดยไม่ต้องพึ่งคลาวด์ ขณะนี้รหัสแหล่งที่มาของโมเดลใหม่นี้เปิดให้ใช้งานแบบโอเพนซอร์สภายใต้ใบอนุญาต Apache 2.0 และน้ำหนักโมเดลถูกแจกจ่ายฟรีภายใต้ใบอนุญาต OpenRAIL-M สำหรับบุคคลทั่วไป สถาบันการศึกษา และบริษัทสตาร์ทอัพที่มีรายได้ต่อปีต่ำกว่า 5 ล้านดอลลาร์สหรัฐ ในขณะเดียวกัน Datalab ก็เปิดให้ใช้งาน API แบบเสียค่าใช้จ่ายที่ใช้โมเดล Chandra 2 ขนาด 4 พันล้านพารามิเตอร์ที่ทรงพลังกว่าพร้อมให้เครดิตทดลองฟรี 5 ดอลลาร์สหรัฐ (ที่มา: BlockBeats)
Surya OCR 2 บรรลุความแม่นยำ 83.3% ด้วยพารามิเตอร์ 6.5 พันล้าน ตั้งมาตรฐานใหม่
KuCoinFlashแชร์






การวิเคราะห์บนโซ่แสดงถึงความสนใจที่เพิ่มขึ้นในด้านปัญญาทางเอกสาร โดย Datalab เปิดตัว Surya OCR 2 เมื่อวันที่ 28 พฤษภาคม (UTC+8) โมเดลนี้มีความแม่นยำ 83.3% บน olmOCR-bench ด้วยพารามิเตอร์ 6.5 พันล้าน ซึ่งดีกว่ารุ่นที่มีพารามิเตอร์ 90 พันล้าน รองรับ 91 ภาษา และสามารถจัดการการรับรู้โครงสร้าง ข้อความ และตารางในหนึ่ง VLM เดียว ข้อมูลบนโซ่แสดงว่าสามารถประมวลผลได้ 5.35 หน้าต่อวินาทีบน RTX 5090 และทำงานได้เต็มรูปแบบบนอุปกรณ์ M1 โค้ดเปิดแหล่งที่มาภายใต้ใบอนุญาต Apache 2.0 โดยมีน้ำหนักฟรีสำหรับสตาร์ทอัพที่มีรายได้น้อยกว่า 5 ล้านดอลลาร์สหรัฐ Datalab ยังเสนอ API แบบจ่ายเงินสำหรับโมเดล Chandra 2 ขนาดพารามิเตอร์ 40 พันล้านพร้อมเครดิตทดลองมูลค่า $5
แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้
การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา