Surya OCR 2 atteint une précision de 83,3 % avec 6,5 milliards de paramètres, établit un nouveau référentiel

Selon les nouvelles de ME, le 28 mai (UTC+8), selon les données surveillées par Beating, la plateforme open source de intelligence documentaire Datalab a officiellement lancé le nouveau modèle OCR open source multilingue Surya OCR 2. Ce nouveau modèle, ne comptant que 650 millions de paramètres, obtient un score de 83,3 % sur le benchmark documentaire de référence olmOCR-bench, se classant premier parmi les modèles de moins de 3 milliards de paramètres, et surpassant même la version initiale de 9 milliards de paramètres, environ 14 fois plus volumineuse, réalisant ainsi un optimum de Pareto entre nombre de paramètres et précision. Sur le plan fonctionnel, Surya OCR 2 intègre les trois tâches principales — analyse de mise en page, reconnaissance de texte et reconnaissance de tableaux — au sein d’un seul modèle visuel-linguistique (VLM), tandis que la détection de lignes de texte et la détection d’erreurs OCR continuent d’être gérées par des modèles légers indépendants. Les utilisateurs peuvent effectuer une reconnaissance OCR complète d’une page en un seul appel de modèle, avec une sortie au format HTML structuré incluant des cadres de coordonnées et un ordre de lecture ; les formules mathématiques sont rendues avec des balises HTML math, et les tableaux traversant plusieurs lignes ou colonnes sont normalisés au format HTML standard. En matière de prise en charge multilingue, le nouveau modèle atteint un taux global de réussite de 87,2 % sur 91 langues (82,5 % pour le chinois) et offre une optimisation approfondie pour les documents endommagés et l’écriture manuscrite. En termes d’efficacité de déploiement, Surya OCR 2 prend en charge deux backends d’inférence. Sur des appareils NVIDIA GPU, le système exécute Docker avec le backend vLLM, permettant à une seule carte RTX 5090 d’atteindre un débit exceptionnel de 5,35 pages par seconde. Sur des appareils Apple ou dans des environnements CPU standards, le système charge le modèle au format GGUF via llama.cpp, permettant une exécution entièrement locale sur les ordinateurs M1. Actuellement, le code source du nouveau modèle est open source sous licence Apache 2.0, et les poids sont fournis gratuitement sous licence OpenRAIL-M aux particuliers, aux universités et aux startups dont le revenu annuel est inférieur à 5 millions de dollars américains. Parallèlement, Datalab propose également une API payante intégrant le modèle Chandra 2 plus puissant (4 milliards de paramètres), accompagnée d’un crédit d’essai de 5 dollars américains. (Source : BlockBeats)