Firecrawl 用 Rust 重寫 PDF 解析器,速度提升高達 5.7 倍

iconKuCoinFlash
分享
AI summary icon精華摘要

ME News 消息,4 月 15 日(UTC+8),據 1M AI News 監測,網頁數據提取工具 Firecrawl 發布 Fire-PDF,這是一款用 Rust 重寫的 PDF 解析引擎,將 PDF 轉為結構化 Markdown 的速度提升至前一代的 3.5 至 5.7 倍,平均每頁處理時間低於 400 毫秒。提速核心在於減少不必要的 GPU 調用。Firecrawl 同步開源了 Rust 庫 pdf-inspector,可在毫秒級對每頁 PDF 進行分類:純文本頁直接原生提取,跳過 GPU;只有掃描件或圖片密集的頁面才送入神經網絡佈局模型和 GLM-OCR 視覺語言模型處理。以一份 150 頁文本加 60 頁掃描件的財報為例,大部分頁面無需 GPU。準確度方面,Fire-PDF 對不同內容類型分別設參:表格獲得更高 token 限額和最多 25 秒生成時間,公式以 LaTeX 保留,多欄佈局通過神經網絡預測閱讀順序。Fire-PDF 已對所有 Firecrawl 用戶自動生效,無需配置。(來源:BlockBeats)

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露