LlamaIndex เปิดตัว LiteParse v2.0 ที่เขียนใหม่ด้วย Rust ความเร็วเพิ่มขึ้นสูงสุด 100 เท่า

iconKuCoinFlash
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
LlamaIndex ได้เปิดตัว LiteParse v2.0 ซึ่งเป็นการเขียนใหม่ด้วย Rust สำหรับไลบรารีการแยกข้อมูลเอกสาร การอัปเดตนี้เพิ่มความเร็วสูงสุดถึง 100 เท่าสำหรับไฟล์ขนาดเล็ก และ 3 เท่าสำหรับไฟล์ขนาดใหญ่ โดยรองรับ PDF, DOCX, XLSX และ PPTX พร้อม OCR ผ่าน PDFium และ tesseract-rs มีแพ็กเกจแบบเนทีฟสำหรับ Python, JavaScript และ Rust รวมถึงการรองรับ WebAssembly อาจมี altcoin บางตัวที่ได้รับประโยชน์จากประสิทธิภาพที่ดีขึ้นนี้ ดัชนีความกลัวและโลภอาจตอบสนองหากการรับรองเพิ่มขึ้น
ME AI ข่าว ตามการติดตามของ Beating ล่าสุด LlamaIndex ประกาศว่าจะเขียนใหม่ทั้งหมดด้วย Rust สำหรับไลบรารีการแยกเอกสาร LiteParse และเปิดตัวเวอร์ชัน 2.0 ตัวแยกหลักที่ถูกปรับปรุงใหม่เร็วขึ้นถึง 100 เท่าเมื่อจัดการเอกสารขนาดเล็ก และเร็วขึ้นเกือบ 3 เท่าเมื่อจัดการเอกสารขนาดใหญ่ การรีวิศวกรรมนี้มีเป้าหมายเพื่อสร้างพื้นฐานการวิเคราะห์โครงสร้างเอกสารแบบโลคัล ความเร็วสูง และไม่ต้องเรียกใช้โมเดลขนาดใหญ่ สำหรับตัวแทน AI และท่อ RAG (Retrieval-Augmented Generation) LiteParse 2.0 ยังคงออกแบบให้ทำงานแบบโลคัลโดยไม่ต้องพึ่งโมเดลขนาดใหญ่ รวมถึงการใช้ PDFium ที่ปรับแต่งเฉพาะทางสำหรับการวิเคราะห์โครงสร้างเชิงพื้นที่ และใช้ไลบรารี tesseract-rs เพื่อให้ฟังก์ชัน OCR (Optical Character Recognition) ทำงานแบบโลคัล เครื่องมือนี้รองรับไฟล์ PDF และเอกสาร Office รวมถึง DOCX, XLSX และ PPTX ตัวแยกจะฉายข้อความตามโครงสร้างของเอกสารในรูปแบบสองมิติ และส่งออกข้อความที่มีโครงสร้างพร้อมรักษาความสัมพันธ์เชิงตำแหน่งและรูปแบบ เพื่อให้โมเดลขนาดใหญ่สามารถเข้าใจบริบทและอ้างอิงได้อย่างแม่นยำด้วยการใช้พลังงานต่ำมาก ในด้านการเชื่อมต่อและแจกจ่ายในระบบนิเวศ LlamaIndex ให้การสนับสนุนแพ็กเกจแบบเนทีฟสำหรับรันไทม์หลักๆ นักพัฒนาสามารถเชื่อมต่อเข้ากับกระบวนการพัฒนาได้อย่างรวดเร็วผ่าน pip install liteparse ใน Python, npm i @llamaindex/liteparse ใน JavaScript และผ่าน Cargo ใน Rust ด้วยการใช้ Rust เป็นฐานราก รุ่นใหม่นี้สามารถคอมไพล์เป็นรูปแบบ WebAssembly เพื่อเปิดใช้งานการทำงานแบบโลคัลบนเบราว์เซอร์และโหนดขอบ (edge computing) ควรระบุว่า เนื่องจากข้อจำกัดของสภาพแวดล้อม การทำงานของ OCR ในสภาพแวดล้อม WebAssembly ไม่ได้รวมอยู่ในตัว นักพัฒนาจำเป็นต้องใช้การเรียกกลับจากภายนอก (เช่น เรียกใช้ tesseract.js) เพื่อสแกนไฟล์ (ที่มา: BlockBeats)
แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา