Nakamit ng Surya OCR 2 ang 83.3% na akurasyon gamit ang 6.5B na parameter, nagtatag ng bagong benchmark

Ayon sa ME News, noong Mayo 28 (UTC+8), ayon sa pagmamasid ng Beating, ang open-source na platform para sa dokumento at inteligensya ay naglabas ng bagong open-source na OCR model na Surya OCR 2. Ang bagong model ay mayroon lamang 650 milyong parameter at nakakuha ng 83.3% na marka sa pormal na pagtataya para sa dokumento at inteligensya na olmOCR-bench, at naging numero uno sa kategorya ng mga model na may mas mababa sa 3 bilyong parameter, kahit na mas mataas ang performance nito kaysa sa orihinal na bersyon na may 9 bilyong parameter na halos 14 beses na mas malaki. Ito ay nagtataguyod ng Pareto optimal sa pagitan ng bilang ng parameter at akurasyon. Sa mga tampok, ang Surya OCR 2 ay naglalagay ng tatlong pangunahing gawain—layout analysis, text recognition, at table recognition—sa isang solong visual language model (VLM), habang ang text line detection at OCR error detection ay patuloy na ginagawa ng mga hiwalay na lightweight model. Sa isang tawag sa model, ang user ay makakapagawa ng full-page OCR recognition at makakakuha ng structured HTML code na naglalaman ng coordinate boxes at reading order, kung saan ang mga mathematical formulas ay inilalabas gamit ang HTML math tags, at ang mga table na nasa iba’t ibang row o column ay inayos sa standard HTML format. Sa pagtutulungan sa maraming wika, ang bagong model ay nakakuha ng 87.2% na overall pass rate sa pagsubok sa 91 wika (82.5% para sa Chinese), at may malalim na pagpapabuti para sa nasira o kamay-isulat na dokumento. Sa pag-deploy, ang Surya OCR 2 ay sumusuporta sa dalawang inference backends. Sa mga NVIDIA GPU device, ang sistema ay tumatakbo sa Docker kasama ang vLLM backend, at isang RTX 5090 GPU ay nakakamit ng 5.35 pahina bawat segundo. Sa mga Apple device o ordinaryong CPU environment, ang sistema ay gumagamit ng llama.cpp upang i-load ang GGUF format at makapagpapatakbo nang buo sa lokal na device tulad ng M1 computer. Kasalukuyan, ang source code ng bagong model ay open-source sa ilalim ng Apache 2.0 license, at ang weights ay libreng ibinibigay sa ilalim ng OpenRAIL-M license para sa mga indibidwal, akademya, at mga startup na may taunang kita na mas mababa sa 5 milyong dolyar. Kasabay nito, opisyal na inilabas din ng Datalab ang bayad na API na may mas malakas na Chandra 2 model na may 4 bilyong parameter, kasama ang $5 credit para sa pagsubok. (Pinagmulan: BlockBeats)