Firecrawl Menulis Ulang Parser PDF dengan Rust, Peningkatan Kecepatan Hingga 5,7x

iconKuCoinFlash
Bagikan
AI summary iconRingkasan

Berita ME, 15 April (UTC+8), menurut pemantauan 1M AI News, alat ekstraksi data web Firecrawl meluncurkan Fire-PDF, mesin parsing PDF yang ditulis ulang dengan Rust, yang mempercepat konversi PDF menjadi Markdown terstruktur hingga 3,5 hingga 5,7 kali lebih cepat dibanding generasi sebelumnya, dengan waktu pemrosesan rata-rata kurang dari 400 milidetik per halaman. Peningkatan kecepatan ini dicapai dengan mengurangi panggilan GPU yang tidak perlu. Firecrawl juga secara bersamaan mengopen-source library Rust pdf-inspector, yang dapat mengklasifikasikan setiap halaman PDF dalam hitungan milidetik: halaman teks murni diekstraksi secara native langsung, melewati GPU; hanya halaman yang berisi scan atau gambar padat yang dikirim ke model tata letak neural network dan model visual-language GLM-OCR. Sebagai contoh, laporan keuangan berisi 150 halaman teks dan 60 halaman scan, sebagian besar halaman tidak memerlukan GPU. Dari segi akurasi, Fire-PDF mengatur parameter berbeda untuk jenis konten berbeda: tabel mendapatkan kuota token lebih tinggi dan waktu generasi hingga 25 detik, rumus dipertahankan dalam format LaTeX, dan tata letak multi-kolom diprediksi urutan membacanya oleh jaringan saraf. Fire-PDF telah otomatis diterapkan untuk semua pengguna Firecrawl tanpa perlu konfigurasi tambahan. (Sumber: BlockBeats)

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.