Firecrawl réécrit son parseur PDF en Rust, avec une augmentation de vitesse jusqu'à 5,7 fois

iconKuCoinFlash
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
Le 15 avril (UTC+8), Firecrawl a lancé Fire-PDF, un analyseur PDF basé sur Rust qui augmente la vitesse de 3,5 à 5,7 fois. Le moteur convertit les PDF en Markdown en moins de 400 ms par page en réduisant les appels GPU. Firecrawl a également open-sourcé pdf-inspector, une bibliothèque Rust qui classe les pages et les redirige vers la méthode de traitement appropriée. Les altcoins à surveiller pourraient bénéficier d'une extraction de données sur chaîne plus rapide, car Fire-PDF s'applique automatiquement à tous les utilisateurs.

Selon les nouvelles de ME, le 15 avril (UTC+8), selon les données surveillées par 1M AI News, l'outil d'extraction de données web Firecrawl a lancé Fire-PDF, un moteur d'analyse PDF réécrit en Rust, qui accélère la conversion des PDF en Markdown structuré de 3,5 à 5,7 fois par rapport à la génération précédente, avec un temps moyen de traitement inférieur à 400 millisecondes par page. L'optimisation repose sur la réduction des appels GPU inutiles. Firecrawl a également open-sourcé la bibliothèque Rust pdf-inspector, permettant de classer chaque page PDF en quelques millisecondes : les pages de texte pur sont extraites directement en natif, en ignorant le GPU ; seules les pages entièrement numérisées ou riches en images sont traitées par un modèle de mise en page neuronal et un modèle visuel-linguistique GLM-OCR. Par exemple, pour un rapport financier de 150 pages de texte et 60 pages numérisées, la majorité des pages n'exigent pas de GPU. En termes de précision, Fire-PDF applique des paramètres spécifiques selon le type de contenu : les tableaux bénéficient d'une limite de tokens plus élevée et d'un temps de génération maximal de 25 secondes, les formules sont conservées en LaTeX, et la mise en page multicolonne est déterminée par un modèle neuronal pour prédire l'ordre de lecture. Fire-PDF est désormais activé automatiquement pour tous les utilisateurs de Firecrawl, sans configuration requise. (Source : BlockBeats)

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.