Surya OCR 2 đạt độ chính xác 83,3% với 6,5 tỷ tham số, thiết lập chuẩn mực mới

Tin tức từ ME News, ngày 28 tháng 5 (UTC+8), theo giám sát của Beating, nền tảng tài liệu thông minh mã nguồn mở Datalab chính thức ra mắt mô hình OCR mã nguồn mở đa ngôn ngữ mới Surya OCR 2. Mô hình mới chỉ có 650 triệu tham số, đạt điểm 83,3% trong bài đánh giá tài liệu thông minh uy tín olmOCR-bench, đứng đầu trong nhóm mô hình dưới 3 tỷ tham số, hiệu năng thậm chí vượt trội phiên bản ban đầu với 9 tỷ tham số, lớn hơn khoảng 14 lần, đạt được sự tối ưu Pareto giữa số lượng tham số và độ chính xác. Về chức năng, Surya OCR 2 tích hợp ba nhiệm vụ chính—phân tích bố cục, nhận dạng văn bản và nhận dạng bảng—vào một mô hình ngôn ngữ thị giác (VLM) duy nhất, trong khi phát hiện dòng văn bản và phát hiện lỗi OCR vẫn được thực hiện thông qua các mô hình nhẹ độc lập. Người dùng có thể hoàn thành nhận dạng OCR toàn trang chỉ với một lần gọi mô hình, đầu ra là mã HTML có cấu trúc bao gồm khung tọa độ và thứ tự đọc, với công thức toán học được xuất dưới dạng thẻ HTML math và các bảng xuyên dòng, xuyên cột được chuẩn hóa thành định dạng HTML tiêu chuẩn. Về hỗ trợ đa ngôn ngữ, mô hình mới đạt tỷ lệ vượt qua tổng thể 87,2% trên 91 ngôn ngữ (tỷ lệ vượt qua tiếng Trung là 82,5%) và được tối ưu hóa sâu cho tài liệu bị hư hỏng và chữ viết tay. Về hiệu suất triển khai, Surya OCR 2 hỗ trợ hai backend suy luận. Khi chạy trên thiết bị GPU NVIDIA với Docker và kích hoạt backend vLLM, một card RTX 5090 đơn lẻ có thể đạt tốc độ xử lý lên tới 5,35 trang mỗi giây. Trong môi trường thiết bị Apple hoặc CPU thông thường, hệ thống sử dụng llama.cpp để tải định dạng GGUF, cho phép chạy hoàn toàn tại chỗ trên máy M1. Hiện tại, mã nguồn của mô hình mới đã được mở nguồn theo giấy phép Apache 2.0, trọng số được cung cấp miễn phí theo giấy phép OpenRAIL-M cho cá nhân, trường học và các startup có doanh thu hàng năm dưới 5 triệu USD. Đồng thời, Datalab cũng chính thức mở API trả phí tích hợp mô hình Chandra 2 với 4 tỷ tham số mạnh mẽ hơn, kèm theo 5 USD tín dụng dùng thử. (Nguồn: BlockBeats)