LlamaIndex 推出 LiteParse v2.0,重寫為 Rust,速度提升高達 100 倍

iconKuCoinFlash
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
LlamaIndex 已推出 LiteParse v2.0,這是一款基於 Rust 重寫的文件解析庫。此更新使小文件的處理速度最高提升 100 倍,大文件提升 3 倍。它支援 PDF、DOCX、XLSX 和 PPTX 格式,並透過 PDFium 和 tesseract-rs 提供 OCR 功能。提供 Python、JavaScript 和 Rust 的原生套件,並支援 WebAssembly。山寨幣潛力股或可從此類效率提升中受益。若採用率上升,恐懼與貪婪指數或將有所反應。
ME AI 消息,據動察 Beating 監測,LlamaIndex 宣布將開源文檔解析庫 LiteParse 役徹底用 Rust 重寫,發布 2.0 版本。重構後的核心解析器在處理小文檔時速度提升達 100 倍,解析大文檔也有近 3 倍的提速。重構旨在為 AI 智能體與檢索增強生成 RAG 管道提供本地運行、極速且無需調用大模型的空間版面解析底座。LiteParse 2.0 保持了無大模型依賴的本地化運行設計,集成 PDFium 深度定制分支進行空間版面分析,並結合 tesseract-rs 庫在本地實現光學字元識別 OCR 功能。工具目前支援 PDF 與包括 DOCX、XLSX 以及 PPTX 在內的 Office 文檔。解析器將文本按文檔佈局進行二維空間投影,輸出保留位置與版面相對關係的結構化文本,以極低功耗為大模型提供高保真定位與引用前情。在生態接入與分發上,LlamaIndex 提供了跨主流運行時的原生包支援。開發者可以通過 Python 的 pip install liteparse、JavaScript 的 npm i @llamaindex/liteparse、Rust 的 Cargo 倉庫快速接入開發流程。得益於底層採用 Rust 構建,新版本通過編譯為 WebAssembly 格式,打通了瀏覽器端與邊緣計算節點的本地運行能力。需要指出的是,由於運行環境受限,在 WebAssembly 環境下的 OCR 功能並非內置,開發者需要通過外部回調注入(如調用 tesseract.js)實現檔案掃描。(來源:BlockBeats)
免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露