Surya OCR 2 在 6.5B 個參數下達到 83.3% 的準確率，樹立新基準

ME News 消息，5 月 28 日（UTC+8），據動察 Beating 監測，開源文檔智能平台 Datalab 正式發布全新多語言 OCR 開源模型 Surya OCR 2。新模型僅有 6.5 億參數，在權威文檔智能評測 olmOCR-bench 中取得 83.3% 的成績，在 30 億參數以下級別位列第一，性能甚至超越了體積約 14 倍的初代 90 億參數版本，實現了參數量與準確率的帕累托最優。在功能上，Surya OCR 2 將版面分析、文本識別和表格識別等三大任務收攏到單一視覺語言模型（VLM）中，而文本行檢測與 OCR 錯漏檢測仍通過獨立的輕量級模型運行。用戶通過單次模型調用便能完成全頁 OCR 識別，輸出包含坐標框和閱讀順序的結構化 HTML 代碼，其中數學公式以 HTML math 標籤輸出，跨行跨列表格則被整理為標準 HTML 格式。而在多語言支持上，新模型在 91 種語言的測試中取得 87.2% 的綜合通過率（中文通過率 82.5%），並對殘損文檔與手寫體進行深度優化。在部署效率上，Surya OCR 2 支持兩大推理後端。系統在英偉達 GPU 設備上運行 Docker 並啟用 vLLM 後端，單張 RTX 5090 顯卡能實現每秒 5.35 頁的超高吞吐率。在蘋果設備或普通 CPU 環境下，系統則通過 llama.cpp 載入 GGUF 格式，在 M1 電腦上實現完全的本地端側運行。目前，新模型的源代碼基於 Apache 2.0 協議開源，權重基於 OpenRAIL-M 協議免費提供給個人、高校及年收入 500 萬美元以下的初創企業。而 Datalab 官方也同步開放了搭載更強 40 億參數 Chandra 2 模型的付費 API，並贈送 5 美元體驗額度。（來源：BlockBeats）