ফায়ারক্রল পিডিএফ পার্সার রাস্টে পুনর্লিখন করেছে, গতি বৃদ্ধি পেয়েছে প্রায় 5.7x

iconKuCoinFlash
শেয়ার
AI summary iconসারাংশ

ME সংবাদের মতে, ১৫ এপ্রিল (UTC+8), 1M AI নিউজের মনিটরিংয়ের ভিত্তিতে, ওয়েবসাইট ডেটা এক্সট্র্যাকশন টুল Firecrawl একটি Rust-এ পুনর্লিখিত PDF পার্সিং ইঞ্জিন Fire-PDF প্রকাশ করেছে, যা PDF-কে স্ট্রাকচারড Markdown-এ রূপান্তরিত করার গতি আগের সংস্করণের চেয়ে ৩.৫ থেকে ৫.৭ গুণ বাড়িয়েছে, যার গড় প্রতি পৃষ্ঠা প্রসেসিং সময় ৪০০ মিলিসেকেন্ডের কম। এই গতি বৃদ্ধির মূল কারণ হল অপ্রয়োজনীয় GPU কল কমানো। Firecrawl একইসাথে Rust লাইব্রেরি pdf-inspector-কে ওপেন-সোর্স করেছে, যা প্রতিটি PDF পৃষ্ঠাকে মিলিসেকেন্ডের মধ্যে ক্লাসিফাই করতে পারে: শুধুমাত্র টেক্সটযুক্ত পৃষ্ঠাগুলির জন্য সরাসরি ন্যাটিভ এক্সট্র্যাকশন করা হয়, GPU-এর প্রয়োজন হয় না; শুধুমাত্র স্ক্যানড বা ছবি-ঘনত্বযুক্ত পৃষ্ঠাগুলিকেই নিউরাল নেটওয়ার্ক-ভিত্তিক লেআউট মডেল এবং GLM-OCR ভিজুয়াল-ল্যাঙ্গুয়েজ মডেলের মধ্যে পাঠানো হয়। ১৫০টি টেক্সটপৃষ্ঠা এবং ৬০টি স্ক্যানডপৃষ্ঠা বিশিষ্ট একটি ফাইন্যানশিয়াল রিপোর্টের উদাহরণে, বেশিরভাগ পৃষ্ঠা GPU-এর প্রয়োজন হয়না। সঠিকতা方面, Fire-PDF-এর বিভিন্ন কনটেন্ট-টাইপের জন্য আলাদা প্যারামিটারসেট: টেবিলগুলির জন্য更高 token-লিমিট (টোকেন-সীমা) 25-সেকেন্ড-পর্যন্তজন্মনসময়,ফরমুলা LaTeX-এরপদ্ধতিতেসংরক্ষণকরা,বহুকলামবিন্যাসনিউরালনেটওয়ার্কদ্বারাঅনুমানকরা।Fire-PDFসমস্তFirecrawlব্যবহারকারীদেরজন্যঅটোমেটিকভাবেসক্রিয়হয়েছে,কোনওকনফিগারেশনএরপ্রয়োজনহয়না।(উৎস: BlockBeats)

দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না। ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।