Tin tức từ ME News, ngày 28 tháng 5 (UTC+8), theo giám sát của Beating, nền tảng tài liệu thông minh mã nguồn mở Datalab chính thức ra mắt mô hình OCR mã nguồn mở đa ngôn ngữ mới Surya OCR 2. Mô hình mới chỉ có 650 triệu tham số, đạt điểm 83,3% trong bài đánh giá tài liệu thông minh uy tín olmOCR-bench, đứng đầu trong nhóm mô hình dưới 3 tỷ tham số, hiệu năng thậm chí vượt trội phiên bản ban đầu với 9 tỷ tham số, lớn hơn khoảng 14 lần, đạt được sự tối ưu Pareto giữa số lượng tham số và độ chính xác. Về chức năng, Surya OCR 2 tích hợp ba nhiệm vụ chính—phân tích bố cục, nhận dạng văn bản và nhận dạng bảng—vào một mô hình ngôn ngữ thị giác (VLM) duy nhất, trong khi phát hiện dòng văn bản và phát hiện lỗi OCR vẫn được thực hiện thông qua các mô hình nhẹ độc lập. Người dùng có thể hoàn thành nhận dạng OCR toàn trang chỉ với một lần gọi mô hình, đầu ra là mã HTML có cấu trúc bao gồm khung tọa độ và thứ tự đọc, với công thức toán học được xuất dưới dạng thẻ HTML math và các bảng xuyên dòng, xuyên cột được chuẩn hóa thành định dạng HTML tiêu chuẩn. Về hỗ trợ đa ngôn ngữ, mô hình mới đạt tỷ lệ vượt qua tổng thể 87,2% trên 91 ngôn ngữ (tỷ lệ vượt qua tiếng Trung là 82,5%) và được tối ưu hóa sâu cho tài liệu bị hư hỏng và chữ viết tay. Về hiệu suất triển khai, Surya OCR 2 hỗ trợ hai backend suy luận. Khi chạy trên thiết bị GPU NVIDIA với Docker và kích hoạt backend vLLM, một card RTX 5090 đơn lẻ có thể đạt tốc độ xử lý lên tới 5,35 trang mỗi giây. Trong môi trường thiết bị Apple hoặc CPU thông thường, hệ thống sử dụng llama.cpp để tải định dạng GGUF, cho phép chạy hoàn toàn tại chỗ trên máy M1. Hiện tại, mã nguồn của mô hình mới đã được mở nguồn theo giấy phép Apache 2.0, trọng số được cung cấp miễn phí theo giấy phép OpenRAIL-M cho cá nhân, trường học và các startup có doanh thu hàng năm dưới 5 triệu USD. Đồng thời, Datalab cũng chính thức mở API trả phí tích hợp mô hình Chandra 2 với 4 tỷ tham số mạnh mẽ hơn, kèm theo 5 USD tín dụng dùng thử. (Nguồn: BlockBeats)
Surya OCR 2 đạt độ chính xác 83,3% với 6,5 tỷ tham số, thiết lập chuẩn mực mới
KuCoinFlashChia sẻ






Phân tích trên chuỗi cho thấy sự quan tâm ngày càng tăng đối với trí tuệ tài liệu khi Datalab ra mắt Surya OCR 2 vào ngày 28 tháng 5 (UTC+8). Mô hình đạt độ chính xác 83,3% trên olmOCR-bench với 6,5 tỷ tham số, vượt trội so với phiên bản 90 tỷ tham số. Hỗ trợ 91 ngôn ngữ, nó xử lý nhận dạng bố cục, văn bản và bảng trong một VLM duy nhất. Dữ liệu trên chuỗi cho thấy 5,35 trang mỗi giây trên RTX 5090 và hoạt động hoàn toàn cục bộ trên các thiết bị M1. Mã nguồn được mở rộng theo giấy phép Apache 2.0, với trọng số miễn phí dành cho các startup có doanh thu dưới 5 triệu USD. Datalab cũng cung cấp API trả phí cho mô hình Chandra 2 với 40 tỷ tham số, kèm theo tín dụng dùng thử 5 USD.
Nguồn:Hiển thị bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này.
Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.