Surya OCR 2は65億パラメータで83.3％の精度を達成し、新たなベンチマークを設定

MEニュース：5月28日（UTC+8）、動察Beatingの監視によると、オープンソースのドキュメントインテリジェンスプラットフォームDatalabが、新規のマルチランゲージOCRオープンソースモデル「Surya OCR 2」を正式にリリースしました。この新モデルは6.5億パラメータしか持たず、権威あるドキュメントインテリジェンス評価ベンチマーク「olmOCR-bench」で83.3%のスコアを記録し、30億パラメータ未満のカテゴリで第1位となり、約14倍のサイズを持つ初代90億パラメータモデルを上回る性能を発揮し、パラメータ数と精度のパレート最適を実現しました。機能面では、Surya OCR 2はレイアウト分析、テキスト認識、テーブル認識の3つのタスクを単一のビジュアル言語モデル（VLM）に統合し、テキスト行検出とOCRエラー検出は引き続き軽量な独立モデルで実行されます。ユーザーは1回のモデル呼び出しでページ全体のOCR認識を完了でき、座標ボックスと読み取り順序を含む構造化HTMLコードを出力します。数式はHTML mathタグで、複数行・複数列のテーブルは標準的なHTML形式に整理されます。マルチランゲージ対応では、新モデルは91言語のテストで87.2%の総合通過率（中国語の通過率は82.5%）を達成し、損傷したドキュメントや手書き文字にも最適化されています。デプロイ効率面では、Surya OCR 2は2つの推論バックエンドをサポートしています。NVIDIA GPU環境ではDockerを起動しvLLMバックエンドを有効にすると、1枚のRTX 5090 GPUで秒間5.35ページという超高スループットを実現します。Appleデバイスや一般CPU環境では、llama.cppを使用してGGUF形式をロードし、M1マシン上で完全なエッジデバイス実行が可能です。現在、新モデルのソースコードはApache 2.0ライセンスでオープンソース化されており、重みはOpenRAIL-Mライセンスに基づき、個人ユーザー、大学、年収500万ドル以下のスタートアップ企業に無料で提供されています。また、Datalab公式はより強力な40億パラメータのChandra 2モデルを搭載した有料APIも同時に公開し、5ドルの体験クレジットを提供しています。（出典：BlockBeats）