Surya OCR 2 alcança 83,3% de precisão com 6,5 bilhões de parâmetros, estabelece novo padrão

iconKuCoinFlash
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
A análise on-chain mostra crescente interesse em inteligência de documentos, com o lançamento do Datalab do Surya OCR 2 em 28 de maio (UTC+8). O modelo alcança 83,3% de precisão no olmOCR-bench com 6,5 bilhões de parâmetros, superando sua versão de 90 bilhões de parâmetros. Suportando 91 idiomas, ele realiza reconhecimento de layout, texto e tabelas em um único VLM. Dados on-chain revelam 5,35 páginas por segundo em RTX 5090 e operação local completa em dispositivos M1. O código está aberto sob licença Apache 2.0, com pesos gratuitos para startups com receita abaixo de US$ 5 milhões. O Datalab também oferece uma API paga para seu modelo Chandra 2 de 40 bilhões de parâmetros, com crédito de teste de US$ 5.

Notícia da ME, 28 de maio (UTC+8): De acordo com monitoramento da Beating, a plataforma aberta de inteligência de documentos Datalab lançou oficialmente o novo modelo de OCR multilíngue de código aberto Surya OCR 2. O novo modelo possui apenas 650 milhões de parâmetros e alcançou 83,3% no benchmark de inteligência de documentos olmOCR-bench, ocupando o primeiro lugar na categoria abaixo de 3 bilhões de parâmetros, superando até mesmo a versão original de 9 bilhões de parâmetros, que é cerca de 14 vezes maior em tamanho, alcançando o ótimo de Pareto entre quantidade de parâmetros e precisão. Em termos de funcionalidade, o Surya OCR 2 integra as três tarefas principais — análise de layout, reconhecimento de texto e reconhecimento de tabelas — em um único modelo de linguagem visual (VLM), enquanto a detecção de linhas de texto e a detecção de erros de OCR continuam sendo executadas por modelos leves independentes. Os usuários podem realizar o OCR completo da página com uma única chamada ao modelo, gerando código HTML estruturado contendo caixas de coordenadas e ordem de leitura, com fórmulas matemáticas exportadas em tags HTML math e tabelas跨越linhas e colunas organizadas em formato HTML padrão. Em suporte multilíngue, o novo modelo alcançou uma taxa geral de aprovação de 87,2% em testes com 91 idiomas (taxa de aprovação em chinês: 82,5%) e foi profundamente otimizado para documentos danificados e escrita manual. Em eficiência de implantação, o Surya OCR 2 suporta dois backends de inferência. Quando executado em dispositivos NVIDIA GPU com Docker e o backend vLLM ativado, um único cartão RTX 5090 alcança uma taxa de throughput de 5,35 páginas por segundo. Em dispositivos Apple ou ambientes CPU comuns, o sistema carrega o formato GGUF por meio do llama.cpp, permitindo execução totalmente local em computadores M1. Atualmente, o código-fonte do novo modelo está disponível sob licença Apache 2.0, e os pesos são fornecidos gratuitamente sob a licença OpenRAIL-M para indivíduos, instituições acadêmicas e startups com receita anual inferior a 5 milhões de dólares. Paralelamente, a Datalab também lançou oficialmente uma API paga com o modelo mais potente Chandra 2 de 4 bilhões de parâmetros, oferecendo um crédito gratuito de 5 dólares para experimentação. (Fonte: BlockBeats)

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.