Firecrawl переписав парсер PDF на Rust, швидкість зросла до 5,7 разів

iconKuCoinFlash
Поділитися
AI summary iconКороткий зміст

ME News повідомляє, 15 квітня (UTC+8), за даними 1M AI News, інструмент для витягування даних з веб-сайтів Firecrawl запустив Fire-PDF — PDF-движок, переписаний на Rust, який прискорює перетворення PDF у структурований Markdown у 3,5–5,7 разів порівняно з попереднім поколінням, з середнім часом обробки менше 400 мілісекунд на сторінку. Основна причина прискорення — зменшення непотрібних викликів GPU. Firecrawl одночасно відкрив джерельний код бібліотеки Rust pdf-inspector, яка класифікує кожну сторінку PDF за мілісекунди: сторінки з чистим текстом безпосередньо витягуються нативно, пропускаючи GPU; лише сторінки зі сканованими документами або інтенсивним використанням зображень передаються на обробку нейромережевою моделлю макету та візуальною мовною моделлю GLM-OCR. Наприклад, у фінансовому звіті з 150 сторінок тексту та 60 сторінок сканованих документів більшість сторінок не потребують GPU. Щодо точності, Fire-PDF встановлює окремі параметри для різних типів контенту: таблиці отримують вищий ліміт токенів і до 25 секунд на генерацію, формули зберігаються у форматі LaTeX, а багатостовпцевий макет аналізується нейромережею для передбачення порядку читання. Fire-PDF вже автоматично застосовується для всіх користувачів Firecrawl без необхідності налаштувань. (Джерело: BlockBeats)

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.