LangSmith এআই এজেন্ট গুণগত পরীক্ষার জন্য 30+ মূল্যায়ন টেমপ্লেট চালু করেছে

KuCoinFlash

রিলিজের সময়: ১৭/০৪/২০২৬, ০৮:৩২:৪৯

সারাংশ

এপ্রিল ১৭ (UTC+৮)-এ AI + ক্রিপ্টো সংবাদ প্রকাশিত হয়, যখন LangChain-এর LangSmith AI এজেন্ট পরীক্ষার জন্য ৩০-এর বেশি মূল্যায়ন টেমপ্লেট চালু করে। এই আপডেটে সেফটি, রিসপন্স কোয়ালিটি, এক্সিকিউশন ট্রাজেক্টরি, ইউজার বিহেভিয়ার অ্যানালিসিস এবং মাল্টিমোডাল—পাঁচটি শ্রেণিতে ইভ্যালুয়েটর টেমপ্লেট লাইব্রেরি এবং পুনরায় ব্যবহারযোগ্য ইভ্যালুয়েটর অন্তর্ভুক্ত। এই টেমপ্লেটগুলি অনলাইন মনিটরিং এবং অফলাইন পরীক্ষার জন্য সমর্থন করে, যাতে অপ্টিমাইজড LLM প্রম্পট এবং রুল-ভিত্তিক কোড ব্যবহার করা হয়। নতুন Evaluators ট্যাবটি কেন্দ্রীয়ভাবে ব্যবস্থাপনার সুবিধা দেয়। টেমপ্লেটগুলি openevals v0.2.0-এর সাথে ওপেন-সোর্সড, যা মাল্টিমোডাল সমর্থন যোগ করে। নতুন টোকেন লিস্টিং এবং AI টুলগুলি বাজারকে আকার দিতে থাকছে।

ME সংবাদের মতে, ১৭ এপ্রিল (UTC+8), অ্যানালিসিস বিটিং-এর মনিটরিং অনুযায়ী, এআই এজেন্ট ডেভেলপমেন্ট প্ল্যাটফর্ম LangChain-এর অবজারভেবিলিটি টুল LangSmith দুটি আপডেট প্রকাশ করেছে: এভালুয়েটর টেমপ্লেট লাইব্রেরি এবং পুনরায় ব্যবহারযোগ্য এভালুয়েটর। এজেন্টের “ব্যবহারযোগ্যতা” মূল্যায়ন বর্তমানে ডেভেলপমেন্টের সবচেয়ে সময়সাপেক্ষ ধাপগুলির মধ্যে একটি। এজেন্ট সঠিক টুলগুলি কল করতে পারে, কিন্তু উত্তরের ফরম্যাট ভুল হতে পারে, একক-চ্যাটে সঠিকভাবে কাজ করতে পারে, কিন্তু মাল্টি-রাউন্ডে ক্রাশ হতে পারে, এবং চূড়ান্ত উত্তরটি যদিও যুক্তিসঙ্গত মনে হয়, তবুও মধ্যবর্তী ধাপগুলিতে ভুল ডকুমেন্টগুলি রিট্রিভ করা হতে পারে। ডেভেলপারদের একক-স্টেপ, ফুল-ট্রাজেক্টরি, মাল্টি-রাউন্ড ডায়ালগ, এবং নির্দিষ্ট টুল-কলসহ বিভিন্ন লেভেলে চেকপয়েন্টগুলি সেটআপ করতে হয়, এবং প্রতিটি এভালুয়েটরের জন্য প্রমপ্টস লিখতে, বাস্তব-ডেটা-এর সাথে ক্যালিব্রেট করতে, এবং বারবার অপটিমাইজ করতে হয়—শূন্য থেকে শুরু করলে 3-4 সপ্তাহও লাগতে পারে। LangSmith-এর 30-এরও beshi pre-built template-এর 5টি ক্যাটাগরি: 1) Security & Protection (prompt injection detection, PII leakage check, bias & toxicity), 2) Answer Quality (correctness, usefulness, tone), 3) Execution Trajectory (whether agent took correct steps), 4) User Behavior Analysis (language distribution, satisfaction signals), 5) Multimodal (voice & image output review)। Template-গুলি contain optimized LLM evaluation prompts and rule-based code evaluators, which can be used directly or customized, and are applicable for both online monitoring and offline experimentation. Reusable evaluators solve organizational management issues: the newly added Evaluators tab centrally displays all evaluators in the workspace, allowing one-click attachment to new projects; once prompts are updated, changes take effect globally without maintaining duplicate copies in each project. These templates are also open-sourced alongside openevals v0.2.0, which adds multimodal evaluation support. (Source: BlockBeats)

উৎস:আসল দেখান

দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না। ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।