Surya OCR 2 alcança 83,3% de precisão com 6,5 bilhões de parâmetros, estabelece novo padrão

Notícia da ME, 28 de maio (UTC+8): De acordo com monitoramento da Beating, a plataforma aberta de inteligência de documentos Datalab lançou oficialmente o novo modelo de OCR multilíngue de código aberto Surya OCR 2. O novo modelo possui apenas 650 milhões de parâmetros e alcançou 83,3% no benchmark de inteligência de documentos olmOCR-bench, ocupando o primeiro lugar na categoria abaixo de 3 bilhões de parâmetros, superando até mesmo a versão original de 9 bilhões de parâmetros, que é cerca de 14 vezes maior em tamanho, alcançando o ótimo de Pareto entre quantidade de parâmetros e precisão. Em termos de funcionalidade, o Surya OCR 2 integra as três tarefas principais — análise de layout, reconhecimento de texto e reconhecimento de tabelas — em um único modelo de linguagem visual (VLM), enquanto a detecção de linhas de texto e a detecção de erros de OCR continuam sendo executadas por modelos leves independentes. Os usuários podem realizar o OCR completo da página com uma única chamada ao modelo, gerando código HTML estruturado contendo caixas de coordenadas e ordem de leitura, com fórmulas matemáticas exportadas em tags HTML math e tabelas跨越linhas e colunas organizadas em formato HTML padrão. Em suporte multilíngue, o novo modelo alcançou uma taxa geral de aprovação de 87,2% em testes com 91 idiomas (taxa de aprovação em chinês: 82,5%) e foi profundamente otimizado para documentos danificados e escrita manual. Em eficiência de implantação, o Surya OCR 2 suporta dois backends de inferência. Quando executado em dispositivos NVIDIA GPU com Docker e o backend vLLM ativado, um único cartão RTX 5090 alcança uma taxa de throughput de 5,35 páginas por segundo. Em dispositivos Apple ou ambientes CPU comuns, o sistema carrega o formato GGUF por meio do llama.cpp, permitindo execução totalmente local em computadores M1. Atualmente, o código-fonte do novo modelo está disponível sob licença Apache 2.0, e os pesos são fornecidos gratuitamente sob a licença OpenRAIL-M para indivíduos, instituições acadêmicas e startups com receita anual inferior a 5 milhões de dólares. Paralelamente, a Datalab também lançou oficialmente uma API paga com o modelo mais potente Chandra 2 de 4 bilhões de parâmetros, oferecendo um crédito gratuito de 5 dólares para experimentação. (Fonte: BlockBeats)