MEニュース:5月28日(UTC+8)、動察Beatingの監視によると、オープンソースのドキュメントインテリジェンスプラットフォームDatalabが、新規のマルチランゲージOCRオープンソースモデル「Surya OCR 2」を正式にリリースしました。この新モデルは6.5億パラメータしか持たず、権威あるドキュメントインテリジェンス評価ベンチマーク「olmOCR-bench」で83.3%のスコアを記録し、30億パラメータ未満のカテゴリで第1位となり、約14倍のサイズを持つ初代90億パラメータモデルを上回る性能を発揮し、パラメータ数と精度のパレート最適を実現しました。機能面では、Surya OCR 2はレイアウト分析、テキスト認識、テーブル認識の3つのタスクを単一のビジュアル言語モデル(VLM)に統合し、テキスト行検出とOCRエラー検出は引き続き軽量な独立モデルで実行されます。ユーザーは1回のモデル呼び出しでページ全体のOCR認識を完了でき、座標ボックスと読み取り順序を含む構造化HTMLコードを出力します。数式はHTML mathタグで、複数行・複数列のテーブルは標準的なHTML形式に整理されます。マルチランゲージ対応では、新モデルは91言語のテストで87.2%の総合通過率(中国語の通過率は82.5%)を達成し、損傷したドキュメントや手書き文字にも最適化されています。デプロイ効率面では、Surya OCR 2は2つの推論バックエンドをサポートしています。NVIDIA GPU環境ではDockerを起動しvLLMバックエンドを有効にすると、1枚のRTX 5090 GPUで秒間5.35ページという超高スループットを実現します。Appleデバイスや一般CPU環境では、llama.cppを使用してGGUF形式をロードし、M1マシン上で完全なエッジデバイス実行が可能です。現在、新モデルのソースコードはApache 2.0ライセンスでオープンソース化されており、重みはOpenRAIL-Mライセンスに基づき、個人ユーザー、大学、年収500万ドル以下のスタートアップ企業に無料で提供されています。また、Datalab公式はより強力な40億パラメータのChandra 2モデルを搭載した有料APIも同時に公開し、5ドルの体験クレジットを提供しています。(出典:BlockBeats)
Surya OCR 2は65億パラメータで83.3%の精度を達成し、新たなベンチマークを設定
KuCoinFlash共有






オンチェーン分析によると、Datalabが5月28日(UTC+8)にSurya OCR 2をリリースしたことを受けて、ドキュメントインテリジェンスへの関心が高まっています。このモデルは65億パラメータでolmOCR-benchにおいて83.3%の精度を達成し、900億パラメータ版を上回っています。91言語をサポートし、1つのVLMでレイアウト、テキスト、テーブルの認識を処理します。オンチェーンデータでは、RTX 5090で毎秒5.35ページの処理が可能で、M1デバイスでは完全なローカル動作が可能です。コードはApache 2.0ライセンスでオープンソース化されており、年間収益500万ドル以下のスタートアップには無料の重みが提供されます。Datalabはまた、400億パラメータのChandra 2モデル用の有料APIを提供しており、$5のトライアルクレジットが付いています。
出典:原文を表示
免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。
デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。