Surya OCR 2 logra una precisión del 83,3% con 6,5 mil millones de parámetros, establece un nuevo referente

Según noticias de ME, el 28 de mayo (UTC+8), según el monitoreo de Beating, la plataforma de inteligencia documental de código abierto Datalab ha lanzado oficialmente el nuevo modelo de OCR multilingüe de código abierto Surya OCR 2. Este nuevo modelo cuenta con solo 650 millones de parámetros y logró un puntaje del 83,3% en la evaluación de inteligencia documental de referencia olmOCR-bench, ocupando el primer lugar en la categoría de modelos con menos de 3 mil millones de parámetros, superando incluso la versión original de 9 mil millones de parámetros, que es aproximadamente 14 veces más grande, logrando así el óptimo de Pareto entre cantidad de parámetros y precisión. En cuanto a funcionalidades, Surya OCR 2 integra las tres tareas principales —análisis de diseño, reconocimiento de texto y reconocimiento de tablas— en un único modelo de lenguaje visual (VLM), mientras que la detección de líneas de texto y la detección de errores de OCR continúan ejecutándose mediante modelos ligeros independientes. Los usuarios pueden completar la OCR completa de una página con una sola llamada al modelo, generando como salida código HTML estructurado que incluye cuadros de coordenadas y orden de lectura; las fórmulas matemáticas se exportan con etiquetas HTML math, y las tablas que cruzan filas o columnas se organizan en formato HTML estándar. En cuanto al soporte multilingüe, el nuevo modelo alcanzó una tasa general de aprobación del 87,2% en pruebas con 91 idiomas (82,5% para chino), y ha sido profundamente optimizado para documentos dañados y escritura manuscrita. En eficiencia de implementación, Surya OCR 2 admite dos backends de inferencia: en dispositivos con GPU NVIDIA, el sistema ejecuta Docker con el backend vLLM, logrando una tasa de rendimiento de hasta 5,35 páginas por segundo en una sola tarjeta RTX 5090. En dispositivos Apple o entornos con CPU estándar, el sistema carga el formato GGUF mediante llama.cpp, permitiendo una ejecución completamente local en computadoras M1. Actualmente, el código fuente del nuevo modelo está disponible bajo licencia Apache 2.0, y los pesos se ofrecen gratuitamente bajo la licencia OpenRAIL-M para particulares, universidades y startups con ingresos anuales inferiores a 5 millones de dólares. Además, Datalab ha lanzado simultáneamente una API de pago que incorpora el modelo Chandra 2 con 4 mil millones de parámetros más potente, ofreciendo un crédito de prueba de 5 dólares. (Fuente: BlockBeats)