MEニュース:4月15日(UTC+8)、1M AI Newsの監視によると、ウェブデータ抽出ツールFirecrawlが、Rustで再実装されたPDF解析エンジン「Fire-PDF」をリリース。PDFを構造化されたMarkdownに変換する速度が前世代の3.5~5.7倍に向上し、平均処理時間は1ページあたり400ミリ秒未満となった。高速化の鍵は不要なGPU呼び出しを削減することにある。Firecrawlは同時にRustライブラリ「pdf-inspector」をオープンソース化し、PDFの各ページをミリ秒単位で分類可能にした。テキストのみのページはネイティブ抽出を行いGPUをスキップし、スキャン画像や画像が多数含まれるページのみ、ニューラルネットワークレイアウトモデルとGLM-OCR視覚言語モデルで処理する。たとえば、150ページのテキストと60ページのスキャン画像からなる決算書の場合、大部分のページはGPUを必要としない。精度面では、Fire-PDFはコンテンツタイプごとにパラメータを最適化:テーブルにはより高いトークン制限と最大25秒の生成時間を割り当て、数式はLaTeX形式で保持し、複数カラムレイアウトはニューラルネットワークで読解順序を予測する。Fire-PDFはすでにすべてのFirecrawlユーザーに自動適用されており、設定は不要である。(出典:BlockBeats)
Firecrawl、PDFパーサーをRustで再構築し、速度が最大5.7倍に向上
KuCoinFlash共有






4月15日(UTC+8)、FirecrawlはRustベースのPDFパーサー「Fire-PDF」をリリースし、処理速度を3.5〜5.7倍に向上させました。このエンジンはGPU呼び出しを削減することで、1ページあたり400ミリ秒以内でPDFをMarkdownに変換します。また、Firecrawlはページを分類し、適切な処理方法にルーティングするRustライブラリ「pdf-inspector」をオープンソース化しました。Fire-PDFはすべてのユーザーに自動適用されるため、注目すべきアルトコインはオンチェーンデータの抽出速度の向上を恩恵を受けます。
出典:原文を表示
免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。
デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。