Surya OCR 2 Mencapai Akurasi 83,3% dengan 6,5 Miliar Parameter, Menetapkan Patokan Baru

iconKuCoinFlash
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Analisis on-chain menunjukkan meningkatnya minat terhadap kecerdasan dokumen seiring peluncuran Datalab Surya OCR 2 pada 28 Mei (UTC+8). Model ini mencapai akurasi 83,3% pada olmOCR-bench dengan 6,5 miliar parameter, mengungguli versi dengan 90 miliar parameternya. Mendukung 91 bahasa, model ini mampu mengenali tata letak, teks, dan tabel dalam satu VLM. Data on-chain menunjukkan 5,35 halaman per detik pada RTX 5090 dan operasi penuh lokal di perangkat M1. Kode dirilis secara open source dengan lisensi Apache 2.0, dengan bobot gratis untuk startup berpendapatan di bawah $5 juta. Datalab juga menawarkan API berbayar untuk model Chandra 2 berparameter 40 miliar dengan kredit percobaan $5.

Berita ME, 28 Mei (UTC+8), menurut pemantauan Beating, platform dokumen cerdas open-source Datalab secara resmi meluncurkan model OCR multibahasa open-source baru, Surya OCR 2. Model baru ini hanya memiliki 650 juta parameter, mencapai skor 83,3% dalam evaluasi dokumen cerdas terkemuka olmOCR-bench, menempati peringkat pertama di kelas di bawah 3 miliar parameter, dengan kinerja bahkan melampaui versi awal berparameter 9 miliar yang ukurannya sekitar 14 kali lebih besar, mencapai optimalisasi Pareto antara jumlah parameter dan akurasi. Dari segi fungsionalitas, Surya OCR 2 menggabungkan tiga tugas utama—analisis tata letak, pengenalan teks, dan pengenalan tabel—ke dalam satu model visual-bahasa (VLM), sementara deteksi baris teks dan deteksi kesalahan OCR tetap dijalankan melalui model ringan independen. Pengguna dapat menyelesaikan pengenalan OCR seluruh halaman hanya dengan satu panggilan model, menghasilkan kode HTML terstruktur yang mencakup kotak koordinat dan urutan membaca, di mana rumus matematika dikeluarkan dalam tag HTML math, dan tabel lintas baris serta lintas kolom diatur dalam format HTML standar. Dalam hal dukungan multibahasa, model baru ini mencapai tingkat kelulusan komprehensif 87,2% pada pengujian 91 bahasa (tingkat kelulusan bahasa Mandarin 82,5%), serta dioptimalkan secara mendalam untuk dokumen rusak dan tulisan tangan. Dari segi efisiensi penyebaran, Surya OCR 2 mendukung dua backend inferensi. Sistem berjalan di perangkat GPU NVIDIA dengan Docker dan backend vLLM, memungkinkan satu kartu RTX 5090 mencapai throughput hingga 5,35 halaman per detik. Di perangkat Apple atau lingkungan CPU biasa, sistem memuat format GGUF melalui llama.cpp, memungkinkan eksekusi penuh di sisi lokal pada komputer M1. Saat ini, kode sumber model baru dirilis di bawah lisensi Apache 2.0, dan bobotnya disediakan secara gratis di bawah lisensi OpenRAIL-M untuk individu, lembaga pendidikan tinggi, dan startup dengan pendapatan tahunan di bawah 5 juta dolar AS. Secara bersamaan, Datalab juga membuka API berbayar yang dilengkapi model Chandra 2 berparameter 4 miliar yang lebih kuat, dengan memberikan kredit percobaan senilai 5 dolar AS. (Sumber: BlockBeats)

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.