LlamaIndex запускает LiteParse v2.0, переписанный на Rust, скорость увеличена до 100 раз
KuCoinFlash
Поделиться
Сводка
LlamaIndex запустила LiteParse v2.0 — переписанную на Rust версию своей библиотеки для парсинга документов. Обновление увеличивает скорость до 100 раз для небольших файлов и в 3 раза для крупных. Поддерживаются форматы PDF, DOCX, XLSX и PPTX с OCR через PDFium и tesseract-rs. Доступны нативные пакеты для Python, JavaScript и Rust, а также поддержка WebAssembly. Альткоины, за которыми стоит следить, могут извлечь выгоду из таких улучшений производительности. Индекс страха и жадности может отреагировать при росте внедрения.
ME AI Новость: согласно мониторингу Beating, LlamaIndex объявила о полной переработке открытой библиотеки для парсинга документов LiteParse на Rust и выпуске версии 2.0. После рефакторинга основной парсер демонстрирует ускорение до 100 раз при обработке небольших документов и почти в 3 раза — при работе с крупными файлами. Целью рефакторинга является создание локальной, высокоскоростной базы для анализа макета документа, не требующей вызова крупных моделей, для использования в AI-агентов и RAG-конвейерах. LiteParse 2.0 сохраняет дизайн локального выполнения без зависимости от крупных моделей, интегрируя глубоко кастомизированную ветку PDFium для анализа пространственной структуры и библиотеку tesseract-rs для локальной оптической распознавания символов (OCR). Инструмент поддерживает PDF и офисные документы, включая DOCX, XLSX и PPTX. Парсер проецирует текст в двумерное пространство в соответствии с макетом документа, выводя структурированный текст с сохранением позиционных и макетных отношений, обеспечивая высокоточную локализацию и контекстную ссылку для крупных моделей при минимальном энергопотреблении. В плане интеграции и распространения LlamaIndex предоставляет нативные пакеты для основных сред выполнения. Разработчики могут быстро интегрировать инструмент в свои процессы через pip install liteparse для Python, npm i @llamaindex/liteparse для JavaScript и Cargo для Rust. Благодаря использованию Rust в основе, новая версия поддерживает компиляцию в формат WebAssembly, обеспечивая локальное выполнение в браузерах и на узлах граничных вычислений. Следует отметить, что из-за ограничений среды выполнения функция OCR в среде WebAssembly не встроена; разработчики должны реализовать сканирование файлов через внешние обратные вызовы (например, с использованием tesseract.js). (Источник: BlockBeats)
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.