يحقق Surya OCR 2 دقة 83.3% مع 6.5 مليار معلمة، ويوضع معيارًا جديدًا

أخبار ME، في 28 مايو (UTC+8)، وفقًا لمراقبة Beating، أطلقت منصة Datalab الذكية المستندة إلى الوثائق المفتوحة المصدر نموذج OCR مفتوح المصدر متعدد اللغات الجديد Surya OCR 2. يتميز النموذج الجديد بـ 650 مليون معلمة فقط، وحقق نتيجة 83.3% في تقييم الوثائق الذكية المرجعي olmOCR-bench، مما يجعله الأفضل في فئة النماذج التي تقل معلماتها عن 3 مليارات، ويتخطى أداءه إصداره الأول الذي يحتوي على 9 مليارات معلمة والذي يبلغ حجمه حوالي 14 ضعفًا، مما يحقق التوازن الأمثل بين عدد المعلمات والدقة. من حيث الوظائف، يدمج Surya OCR 2 المهام الثلاث الرئيسية—تحليل التخطيط، التعرف على النص، والتعرف على الجداول—في نموذج لغوي بصري واحد (VLM)، بينما لا تزال مهام كشف خطوط النص وكشف أخطاء OCR تعمل عبر نماذج خفيفة مستقلة. يمكن للمستخدمين إكمال التعرف الكامل على الصفحة عبر استدعاء نموذج واحد فقط، مع إخراج كود HTML مُهيكل يحتوي على مربعات إحداثيات وترتيب القراءة، حيث تُعرض الصيغ الرياضية باستخدام علامات HTML math، وتُنظم الجداول العابرة للصفوف والعموديات بتنسيق HTML قياسي. من حيث دعم اللغات المتعددة، حقق النموذج الجديد معدل نجاح شامل قدره 87.2% في اختبارات 91 لغة (معدل نجاح الصينية 82.5%)، مع تحسينات عميقة للوثائق التالفة والخط اليدوي. من حيث كفاءة النشر، يدعم Surya OCR 2 خلفيتين استدلاليتين. عند تشغيل النظام على أجهزة NVIDIA GPU باستخدام Docker مع خلفية vLLM، يمكن لبطاقة RTX 5090 واحدة تحقيق معدل إنتاجية فائق يبلغ 5.35 صفحة في الثانية. وفي بيئات أجهزة Apple أو المعالجات العادية، يُحمّل النظام GGUF بتنسيق llama.cpp، مما يمكّن التشغيل الكامل على جهاز M1. حاليًا، تم فتح شفرة النموذج الجديد بموجب ترخيص Apache 2.0، وتُقدّم الأوزان مجانًا بموجب ترخيص OpenRAIL-M للأفراد والجامعات والشركات الناشئة التي لا تتجاوز إيراداتها السنوية 5 ملايين دولار أمريكي. كما أطلقت Datalab رسميًا واجهة برمجة تطبيقات مدفوعة مزودة بنموذج Chandra 2 الأقوى بـ 4 مليارات معلمة، مع منح 5 دولارات كرصيد تجريبي. (المصدر: BlockBeats)