Surya OCR 2 在 6.5B 個參數下達到 83.3% 的準確率,樹立新基準

iconKuCoinFlash
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
鏈上分析顯示,隨著 Datalab 於 5 月 28 日(UTC+8)推出 Surya OCR 2,文件智能領域的興趣持續增長。該模型在 olmOCR-bench 上以 6.5B 參數達到 83.3% 的準確率,表現優於其 90B 參數版本。支援 91 種語言,可在單一 VLM 中處理版面、文字與表格識別。鏈上數據顯示,其在 RTX 5090 上每秒可處理 5.35 頁,並可在 M1 裝置上完全本地運行。程式碼已以 Apache 2.0 開源,且年收入低於 500 萬美元的初創企業可免費使用權重。Datalab 同時提供其 40B 參數 Chandra 2 模型的付費 API,並提供 5 美元試用信用額度。

ME News 消息,5 月 28 日(UTC+8),據動察 Beating 監測,開源文檔智能平台 Datalab 正式發布全新多語言 OCR 開源模型 Surya OCR 2。新模型僅有 6.5 億參數,在權威文檔智能評測 olmOCR-bench 中取得 83.3% 的成績,在 30 億參數以下級別位列第一,性能甚至超越了體積約 14 倍的初代 90 億參數版本,實現了參數量與準確率的帕累托最優。在功能上,Surya OCR 2 將版面分析、文本識別和表格識別等三大任務收攏到單一視覺語言模型(VLM)中,而文本行檢測與 OCR 錯漏檢測仍通過獨立的輕量級模型運行。用戶通過單次模型調用便能完成全頁 OCR 識別,輸出包含坐標框和閱讀順序的結構化 HTML 代碼,其中數學公式以 HTML math 標籤輸出,跨行跨列表格則被整理為標準 HTML 格式。而在多語言支持上,新模型在 91 種語言的測試中取得 87.2% 的綜合通過率(中文通過率 82.5%),並對殘損文檔與手寫體進行深度優化。在部署效率上,Surya OCR 2 支持兩大推理後端。系統在英偉達 GPU 設備上運行 Docker 並啟用 vLLM 後端,單張 RTX 5090 顯卡能實現每秒 5.35 頁的超高吞吐率。在蘋果設備或普通 CPU 環境下,系統則通過 llama.cpp 載入 GGUF 格式,在 M1 電腦上實現完全的本地端側運行。目前,新模型的源代碼基於 Apache 2.0 協議開源,權重基於 OpenRAIL-M 協議免費提供給個人、高校及年收入 500 萬美元以下的初創企業。而 Datalab 官方也同步開放了搭載更強 40 億參數 Chandra 2 模型的付費 API,並贈送 5 美元體驗額度。(來源:BlockBeats)

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露