Surya OCR 2 достигает точности 83,3% при 6,5 млрд параметров, устанавливая новый эталон

iconKuCoinFlash
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Анализ в цепочке показывает растущий интерес к документальной интеллектуальной системе: Datalab запускает Surya OCR 2 28 мая (UTC+8). Модель достигает точности 83,3% на olmOCR-bench с 6,5 млрд параметров, превосходя свою версию с 90 млрд параметров. Поддерживает 91 язык, обрабатывая распознавание макета, текста и таблиц в одной VLM. Данные в цепочке показывают 5,35 страниц в секунду на RTX 5090 и полную локальную работу на устройствах M1. Код открыт под лицензией Apache 2.0, а веса бесплатны для стартапов с доходом менее 5 млн долларов. Datalab также предлагает платный API для своей модели Chandra 2 с 40 млрд параметров с кредитом на пробную версию в размере 5 долларов.

Согласно новости ME, 28 мая (UTC+8), по данным мониторинга Beating, открытая платформа для интеллектуальной обработки документов Datalab официально выпустила новую многопользовательскую открытую модель OCR — Surya OCR 2. Новая модель содержит всего 650 миллионов параметров и показала результат 83,3% на авторитетном тесте по интеллектуальной обработке документов olmOCR-bench, заняв первое место среди моделей с параметрами менее 3 миллиардов, превзойдя по производительности первую версию с 9 миллиардами параметров, размер которой примерно в 14 раз больше, достигнув оптимизации Парето между количеством параметров и точностью. Функционально Surya OCR 2 объединяет три основные задачи — анализ макета, распознавание текста и распознавание таблиц — в единую визуально-языковую модель (VLM), в то время как обнаружение текстовых строк и детекция ошибок OCR остаются выполненными отдельными легковесными моделями. Пользователи могут выполнить полную OCR-обработку страницы одним вызовом модели, получив структурированный HTML-код с координатами рамок и порядком чтения, где математические формулы выводятся с использованием HTML-тегов math, а таблицы, охватывающие несколько строк и столбцов, приводятся к стандартному HTML-формату. Что касается поддержки многоязычности, новая модель продемонстрировала общий показатель прохождения тестов на 91 языке на уровне 87,2% (для китайского языка — 82,5%), а также глубоко оптимизирована для работы с поврежденными документами и рукописным текстом. С точки зрения эффективности развертывания, Surya OCR 2 поддерживает два инференс-бэкенда: при работе на устройствах с GPU NVIDIA с использованием Docker и бэкенда vLLM одна карта RTX 5090 обеспечивает пропускную способность до 5,35 страниц в секунду. На устройствах Apple или в средах с обычным процессором система загружает GGUF-формат через llama.cpp и полностью работает локально на компьютерах M1. В настоящее время исходный код новой модели открыт по лицензии Apache 2.0, а веса предоставляются бесплатно по лицензии OpenRAIL-M для частных лиц, университетов и стартапов с годовым доходом менее 5 миллионов долларов США. Одновременно официальная платформа Datalab запустила платный API с более мощной моделью Chandra 2 с 4 миллиардами параметров и предоставила 5 долларов США в качестве бонусного лимита для ознакомления. (Источник: BlockBeats)

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.