সূর্য ওসিআর 2 এ 6.5 বিলিয়ন প্যারামিটার সহ 83.3% সঠিকতা অর্জন করে, নতুন বেঞ্চমার্ক স্থাপন করে

iconKuCoinFlash
শেয়ার
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconসারাংশ

expand icon
অন-চেইন বিশ্লেষণ দেখায় যে ডকুমেন্ট ইন্টেলিজেন্সে আগ্রহ বাড়ছে, যখন মে 28-এ (UTC+8) Datalab Surya OCR 2 চালু করে। এই মডেলটি 6.5B প্যারামিটার সহ olmOCR-bench-এ 83.3% সঠিকতা অর্জন করে, যা এর 90B-প্যারামিটার সংস্করণকে পরাজিত করে। 91টি ভাষা সমর্থন করে, এটি একটি VLM-এ লেআউট, টেক্সট এবং টেবিল শনাক্তকরণ করে। অন-চেইন ডেটা অনুযায়ী, RTX 5090-এ প্রতি সেকেন্ডে 5.35 পৃষ্ঠা এবং M1 ডিভাইসে সম্পূর্ণ লোকাল অপারেশন। কোড Apache 2.0-এ ওপেন-সোর্সড, যারা $5M-এর কম আয় করে, তাদের জন্য ফ্রি ওয়েটস। Datalab Chandra 2 মডেলের 40B-প্যারামিটারভিত্তিক পেইড APIও অফার করে, যার $5-এর ট্রায়াল ক্রেডিট আছে।

ME সংবাদ অনুযায়ী, 28 মে (UTC+8), ডিটেক্ট বিটিং-এর মনিটরিং অনুযায়ী, ওপেন-সোর্স ডকুমেন্ট ইন্টেলিজেন্স প্ল্যাটফর্ম Datalab একটি নতুন মাল্টি-ল্যাঙ্গুয়েজ OCR ওপেন-সোর্স মডেল Surya OCR 2 প্রকাশ করেছে। নতুন মডেলটির কেবলমাত্র 6.5 বিলিয়ন প্যারামিটার রয়েছে, যা প্রতিষ্ঠিত ডকুমেন্ট ইন্টেলিজেন্স মূল্যায়ন olmOCR-bench-এ 83.3% স্কোর অর্জন করেছে এবং 30 বিলিয়ন প্যারামিটারের নিচের শ্রেণিতে প্রথম স্থান অধিকার করেছে, যা প্রায় 14 গুণ বড় 90 বিলিয়ন প্যারামিটারের প্রথম সংস্করণকেও পারফরম্যান্সের দিক থেকে ছাড়িয়েছে, এভাবে প্যারামিটার সংখ্যা এবং সঠিকতা এর প্যারেটো-অপটিমাল সমন্বয় ঘটিয়েছে। ফাংশনালি, Surya OCR 2-এ লেআউট বিশ্লেষণ, টেক্সট রিকগনিশন এবং টেবিল রিকগনিশন—এই তিনটি কাজকে একটি এককভাবেভিজুয়াল-ল্যাঙ্গুয়েজ মডেল (VLM)-এর মধ্যে একীভূত করা হয়েছে, যখন টেক্সট-লাইন ডিটেকশন এবং OCR-এর ত্রুটি-শনাক্তকরণটি এখনও স্বতন্ত্রভাবে হালকা-ওজনযুক্ত মডেলগুলির মধ্যে চলছে। ব্যবহারকারীরা একবারই মডেলকে কল করেই পুরোপুরি OCR-এর ফলাফলগুলির JSON-ফরম্যাটের HTML-কোড, 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 100% HTML math tag-এর 1০০% HTML Math Tag - The above text is an error and should be replaced with: ব্যবহারকারীদের একবারই মডেলকে call (আহ্বান) করা হয়, Páginas completas OCR recognition, outputting structured HTML code with bounding boxes and reading order, where mathematical formulas are output in HTML Math tags and cross-line and cross-column tables are formatted into standard HTML. In terms of multilingual support, the new model achieved an overall pass rate of 87.2% across tests in 91 languages (Chinese pass rate: 82.5%), with deep optimizations for damaged documents and handwritten text. Regarding deployment efficiency, Surya OCR 2 supports two inference backends. When running on NVIDIA GPU devices using Docker with the vLLM backend, a single RTX 5999 GPU achieves a throughput of up to 5.35 pages per second. On Apple devices or standard CPU environments, the system loads the GGUF format via llama.cpp to enable full on-device local execution on M1 computers. Currently, the source code of the new model is open-sourced under the Apache 2.0 license, and weights are freely available under the OpenRAIL-M license for individuals, academic institutions, and startups with annual revenues under $5 million. Datalab has also simultaneously launched a paid API powered by the stronger Chandra 2 model with a $5 free trial credit. (Source: BlockBeats)

দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না। ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।