Surya OCR 2 Mencapai Akurasi 83,3% dengan 6,5 Miliar Parameter, Menetapkan Patokan Baru

Berita ME, 28 Mei (UTC+8), menurut pemantauan Beating, platform dokumen cerdas open-source Datalab secara resmi meluncurkan model OCR multibahasa open-source baru, Surya OCR 2. Model baru ini hanya memiliki 650 juta parameter, mencapai skor 83,3% dalam evaluasi dokumen cerdas terkemuka olmOCR-bench, menempati peringkat pertama di kelas di bawah 3 miliar parameter, dengan kinerja bahkan melampaui versi awal berparameter 9 miliar yang ukurannya sekitar 14 kali lebih besar, mencapai optimalisasi Pareto antara jumlah parameter dan akurasi. Dari segi fungsionalitas, Surya OCR 2 menggabungkan tiga tugas utama—analisis tata letak, pengenalan teks, dan pengenalan tabel—ke dalam satu model visual-bahasa (VLM), sementara deteksi baris teks dan deteksi kesalahan OCR tetap dijalankan melalui model ringan independen. Pengguna dapat menyelesaikan pengenalan OCR seluruh halaman hanya dengan satu panggilan model, menghasilkan kode HTML terstruktur yang mencakup kotak koordinat dan urutan membaca, di mana rumus matematika dikeluarkan dalam tag HTML math, dan tabel lintas baris serta lintas kolom diatur dalam format HTML standar. Dalam hal dukungan multibahasa, model baru ini mencapai tingkat kelulusan komprehensif 87,2% pada pengujian 91 bahasa (tingkat kelulusan bahasa Mandarin 82,5%), serta dioptimalkan secara mendalam untuk dokumen rusak dan tulisan tangan. Dari segi efisiensi penyebaran, Surya OCR 2 mendukung dua backend inferensi. Sistem berjalan di perangkat GPU NVIDIA dengan Docker dan backend vLLM, memungkinkan satu kartu RTX 5090 mencapai throughput hingga 5,35 halaman per detik. Di perangkat Apple atau lingkungan CPU biasa, sistem memuat format GGUF melalui llama.cpp, memungkinkan eksekusi penuh di sisi lokal pada komputer M1. Saat ini, kode sumber model baru dirilis di bawah lisensi Apache 2.0, dan bobotnya disediakan secara gratis di bawah lisensi OpenRAIL-M untuk individu, lembaga pendidikan tinggi, dan startup dengan pendapatan tahunan di bawah 5 juta dolar AS. Secara bersamaan, Datalab juga membuka API berbayar yang dilengkapi model Chandra 2 berparameter 4 miliar yang lebih kuat, dengan memberikan kredit percobaan senilai 5 dolar AS. (Sumber: BlockBeats)