Surya OCR 2 досягає точності 83,3% з 6,5 млрд параметрів, встановлює новий стандарт

iconKuCoinFlash
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Аналіз у мережі показує зростаючий інтерес до документальної інтелігенції, оскільки Datalab запускає Surya OCR 2 28 травня (UTC+8). Модель досягає 83,3% точності на olmOCR-bench з 6,5 мільярдами параметрів, перевершуючи свою версію з 90 мільярдами параметрів. Підтримує 91 мову, виконуючи розпізнавання макету, тексту та таблиць в одній VLM. Дані у мережі показують 5,35 сторінок на секунду на RTX 5090 та повну локальну роботу на пристроях M1. Код відкрито під ліцензією Apache 2.0, а ваги безкоштовно надаються стартапам з дохodom менше $5 млн. Datalab також пропонує платний API для своєї моделі Chandra 2 з 40 мільярдами параметрів і кредитом на $5 для пробної версії.

ME News: 28 травня (UTC+8), за даними моніторингу Beating, відкритої платформи для інтелектуального аналізу документів Datalab офіційно запустила нову багатомовну OCR-модель з відкритим кодом Surya OCR 2. Нова модель має лише 650 мільйонів параметрів і показала результат 83,3% у авторитетному тесті olmOCR-bench, зайнявши перше місце серед моделей з менше 3 мільярдами параметрів, навіть перевершивши першу версію з 9 мільярдами параметрів, яка за розміром в 14 разів більша, досягнувши Pareto-оптимального балансу між кількістю параметрів і точністю. Функціонально Surya OCR 2 об’єднує три основні завдання — аналіз макету, розпізнавання тексту та розпізнавання таблиць — в єдину візуальну мовну модель (VLM), тоді як виявлення текстових рядків і виявлення помилок OCR продовжують працювати через окремі легкі моделі. Користувач може виконати повний OCR-аналіз сторінки за одне викликання моделі, отримавши структурований HTML-код із координатними рамками та порядком читання, де математичні формули виводяться у форматі HTML math-тегів, а таблиці, що перетинають рядки та стовпці, автоматично форматуються у стандартний HTML. Щодо підтримки багатьох мов, нова модель показала загальний рівень успішності 87,2% на тестах з 91 мовою (для китайської — 82,5%), а також глибоко оптимізована для роботи з пошкодженими документами та рукописним текстом. Щодо ефективності розгортання, Surya OCR 2 підтримує два інференс-бекенди: на пристроях з NVIDIA GPU система працює через Docker з vLLM-бекендом і досягає швидкості 5,35 сторінок на секунду на одній картці RTX 5090. На пристроях Apple або звичайних CPU система завантажує GGUF-формат через llama.cpp і повністю працює локально на комп’ютерах M1. Зараз вихідний код моделі випущений за ліцензією Apache 2.0, а ваги безкоштовно доступні для фізичних осіб, університетів та стартапів з річним доходом менше 5 мільйонів доларів США. Офіційно Datalab також запустив платний API з потужнішою моделлю Chandra 2 з 4 мільярдами параметрів і надав 5 доларів США на пробну версію. (Джерело: BlockBeats)

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.