Surya OCR 2 досягає точності 83,3% з 6,5 млрд параметрів, встановлює новий стандарт

ME News: 28 травня (UTC+8), за даними моніторингу Beating, відкритої платформи для інтелектуального аналізу документів Datalab офіційно запустила нову багатомовну OCR-модель з відкритим кодом Surya OCR 2. Нова модель має лише 650 мільйонів параметрів і показала результат 83,3% у авторитетному тесті olmOCR-bench, зайнявши перше місце серед моделей з менше 3 мільярдами параметрів, навіть перевершивши першу версію з 9 мільярдами параметрів, яка за розміром в 14 разів більша, досягнувши Pareto-оптимального балансу між кількістю параметрів і точністю. Функціонально Surya OCR 2 об’єднує три основні завдання — аналіз макету, розпізнавання тексту та розпізнавання таблиць — в єдину візуальну мовну модель (VLM), тоді як виявлення текстових рядків і виявлення помилок OCR продовжують працювати через окремі легкі моделі. Користувач може виконати повний OCR-аналіз сторінки за одне викликання моделі, отримавши структурований HTML-код із координатними рамками та порядком читання, де математичні формули виводяться у форматі HTML math-тегів, а таблиці, що перетинають рядки та стовпці, автоматично форматуються у стандартний HTML. Щодо підтримки багатьох мов, нова модель показала загальний рівень успішності 87,2% на тестах з 91 мовою (для китайської — 82,5%), а також глибоко оптимізована для роботи з пошкодженими документами та рукописним текстом. Щодо ефективності розгортання, Surya OCR 2 підтримує два інференс-бекенди: на пристроях з NVIDIA GPU система працює через Docker з vLLM-бекендом і досягає швидкості 5,35 сторінок на секунду на одній картці RTX 5090. На пристроях Apple або звичайних CPU система завантажує GGUF-формат через llama.cpp і повністю працює локально на комп’ютерах M1. Зараз вихідний код моделі випущений за ліцензією Apache 2.0, а ваги безкоштовно доступні для фізичних осіб, університетів та стартапів з річним доходом менше 5 мільйонів доларів США. Офіційно Datalab також запустив платний API з потужнішою моделлю Chandra 2 з 4 мільярдами параметрів і надав 5 доларів США на пробну версію. (Джерело: BlockBeats)