Nakamit ng Surya OCR 2 ang 83.3% na akurasyon gamit ang 6.5B na parameter, nagtatag ng bagong benchmark

iconKuCoinFlash
I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconSummary

expand icon
Ipinapakita ng on-chain analysis ang paglalago ng interes sa document intelligence habang naglunsad ang Datalab ng Surya OCR 2 noong May 28 (UTC+8). Ang modelo ay nakakamit ng 83.3% na akurasya sa olmOCR-bench gamit ang 6.5B na parameter, na lalong lumalampas sa bersyon nito na may 90B na parameter. Suportahan nito ang 91 na wika, at nakakahandle ng layout, teksto, at pagkilala sa tabla sa isang VLM. Ipinapakita ng on-chain data ang 5.35 na pahina bawat segundo sa RTX 5090 at full local operation sa M1 devices. Ang code ay Apache 2.0 open-sourced, kasama ang libreng weights para sa mga startup na may kita sa ilalim ng $5M. Binibigyan din ng Datalab ang isang bayad na API para sa kanyang 40B-parameter Chandra 2 model na may $5 credit para sa pagsubok.

Ayon sa ME News, noong Mayo 28 (UTC+8), ayon sa pagmamasid ng Beating, ang open-source na platform para sa dokumento at inteligensya ay naglabas ng bagong open-source na OCR model na Surya OCR 2. Ang bagong model ay mayroon lamang 650 milyong parameter at nakakuha ng 83.3% na marka sa pormal na pagtataya para sa dokumento at inteligensya na olmOCR-bench, at naging numero uno sa kategorya ng mga model na may mas mababa sa 3 bilyong parameter, kahit na mas mataas ang performance nito kaysa sa orihinal na bersyon na may 9 bilyong parameter na halos 14 beses na mas malaki. Ito ay nagtataguyod ng Pareto optimal sa pagitan ng bilang ng parameter at akurasyon. Sa mga tampok, ang Surya OCR 2 ay naglalagay ng tatlong pangunahing gawain—layout analysis, text recognition, at table recognition—sa isang solong visual language model (VLM), habang ang text line detection at OCR error detection ay patuloy na ginagawa ng mga hiwalay na lightweight model. Sa isang tawag sa model, ang user ay makakapagawa ng full-page OCR recognition at makakakuha ng structured HTML code na naglalaman ng coordinate boxes at reading order, kung saan ang mga mathematical formulas ay inilalabas gamit ang HTML math tags, at ang mga table na nasa iba’t ibang row o column ay inayos sa standard HTML format. Sa pagtutulungan sa maraming wika, ang bagong model ay nakakuha ng 87.2% na overall pass rate sa pagsubok sa 91 wika (82.5% para sa Chinese), at may malalim na pagpapabuti para sa nasira o kamay-isulat na dokumento. Sa pag-deploy, ang Surya OCR 2 ay sumusuporta sa dalawang inference backends. Sa mga NVIDIA GPU device, ang sistema ay tumatakbo sa Docker kasama ang vLLM backend, at isang RTX 5090 GPU ay nakakamit ng 5.35 pahina bawat segundo. Sa mga Apple device o ordinaryong CPU environment, ang sistema ay gumagamit ng llama.cpp upang i-load ang GGUF format at makapagpapatakbo nang buo sa lokal na device tulad ng M1 computer. Kasalukuyan, ang source code ng bagong model ay open-source sa ilalim ng Apache 2.0 license, at ang weights ay libreng ibinibigay sa ilalim ng OpenRAIL-M license para sa mga indibidwal, akademya, at mga startup na may taunang kita na mas mababa sa 5 milyong dolyar. Kasabay nito, opisyal na inilabas din ng Datalab ang bayad na API na may mas malakas na Chandra 2 model na may 4 bilyong parameter, kasama ang $5 credit para sa pagsubok. (Pinagmulan: BlockBeats)

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.