Surya OCR 2 достигает точности 83,3% при 6,5 млрд параметров, устанавливая новый эталон

Согласно новости ME, 28 мая (UTC+8), по данным мониторинга Beating, открытая платформа для интеллектуальной обработки документов Datalab официально выпустила новую многопользовательскую открытую модель OCR — Surya OCR 2. Новая модель содержит всего 650 миллионов параметров и показала результат 83,3% на авторитетном тесте по интеллектуальной обработке документов olmOCR-bench, заняв первое место среди моделей с параметрами менее 3 миллиардов, превзойдя по производительности первую версию с 9 миллиардами параметров, размер которой примерно в 14 раз больше, достигнув оптимизации Парето между количеством параметров и точностью. Функционально Surya OCR 2 объединяет три основные задачи — анализ макета, распознавание текста и распознавание таблиц — в единую визуально-языковую модель (VLM), в то время как обнаружение текстовых строк и детекция ошибок OCR остаются выполненными отдельными легковесными моделями. Пользователи могут выполнить полную OCR-обработку страницы одним вызовом модели, получив структурированный HTML-код с координатами рамок и порядком чтения, где математические формулы выводятся с использованием HTML-тегов math, а таблицы, охватывающие несколько строк и столбцов, приводятся к стандартному HTML-формату. Что касается поддержки многоязычности, новая модель продемонстрировала общий показатель прохождения тестов на 91 языке на уровне 87,2% (для китайского языка — 82,5%), а также глубоко оптимизирована для работы с поврежденными документами и рукописным текстом. С точки зрения эффективности развертывания, Surya OCR 2 поддерживает два инференс-бэкенда: при работе на устройствах с GPU NVIDIA с использованием Docker и бэкенда vLLM одна карта RTX 5090 обеспечивает пропускную способность до 5,35 страниц в секунду. На устройствах Apple или в средах с обычным процессором система загружает GGUF-формат через llama.cpp и полностью работает локально на компьютерах M1. В настоящее время исходный код новой модели открыт по лицензии Apache 2.0, а веса предоставляются бесплатно по лицензии OpenRAIL-M для частных лиц, университетов и стартапов с годовым доходом менее 5 миллионов долларов США. Одновременно официальная платформа Datalab запустила платный API с более мощной моделью Chandra 2 с 4 миллиардами параметров и предоставила 5 долларов США в качестве бонусного лимита для ознакомления. (Источник: BlockBeats)