LangSmith เปิดตัวเทมเพลตการประเมินมากกว่า 30 แบบสำหรับการทดสอบคุณภาพของตัวแทน AI

ข่าวจาก ME News เมื่อวันที่ 17 เมษายน (UTC+8) ตามข้อมูลจาก Beating แพลตฟอร์มพัฒนาเอเจนต์ AI LangChain เปิดตัวการอัปเดตสองรายการสำหรับเครื่องมือการสังเกตการณ์ LangSmith: คลังเทมเพลตผู้ประเมินและผู้ประเมินที่สามารถใช้ซ้ำได้ การประเมินว่าเอเจนต์นั้น “ใช้งานได้ดี” เป็นหนึ่งในขั้นตอนที่ใช้เวลานานที่สุดในการพัฒนาปัจจุบัน เอเจนต์อาจเรียกใช้เครื่องมือที่ถูกต้องแต่ให้รูปแบบคำตอบผิดพลาด การสนทนาแบบเดี่ยวทำงานได้ดีแต่การสนทนาแบบหลายรอบล่ม คำตอบสุดท้ายดูเหมือนสมเหตุสมผลแต่ขั้นตอนกลางกลับดึงเอกสารผิดพลาด นักพัฒนาจำเป็นต้องตั้งจุดตรวจสอบในหลายระดับ เช่น ขั้นตอนเดียว ทรานสคริปต์เต็มรูปแบบ การสนทนาหลายรอบ และการเรียกใช้เครื่องมือเฉพาะ ขณะที่ผู้ประเมินแต่ละตัวต้องผ่านกระบวนการเขียนพรอมต์ การปรับเทียบกับข้อมูลจริง และการปรับแต่งซ้ำๆ ซึ่งหากเริ่มจากศูนย์อาจใช้เวลาหลายสัปดาห์ ตอนนี้ LangSmith มีเทมเพลตสำเร็จรูปมากกว่า 30 แบบ ครอบคลุมห้าหมวดหมู่: ความปลอดภัยและการป้องกัน (ตรวจจับการฉีดพรอมต์ การตรวจสอบการรั่วไหลของข้อมูลส่วนบุคคล อคติและคำพูดเป็นพิษ) คุณภาพของคำตอบ (ความถูกต้อง ความเป็นประโยชน์ น้ำเสียง) เส้นทางการดำเนินการ (เอเจนต์ดำเนินการตามขั้นตอนที่ถูกต้องหรือไม่) การวิเคราะห์พฤติกรรมผู้ใช้ (การกระจายภาษา สัญญาณความพึงพอใจ) และมัลติมีเดีย (การตรวจสอบผลลัพธ์เสียงและภาพ) เทมเพลตเหล่านี้รวมถึงพรอมต์การประเมินของ LLM ที่ผ่านการปรับแต่งแล้วและเครื่องมือประเมินตามกฎที่สามารถใช้งานได้ทันทีหรือปรับแต่งเองได้ พร้อมรองรับทั้งการตรวจสอบออนไลน์และการทดลองแบบออฟไลน์ ส่วนผู้ประเมินที่สามารถใช้ซ้ำได้นั้นแก้ไขปัญหาการจัดการในระดับองค์กร: แท็บ Evaluators ใหม่แสดงผู้ประเมินทั้งหมดในพื้นที่ทำงานอย่างเป็นกลาง สามารถผูกไว้กับโปรเจกต์ใหม่ได้เพียงคลิกเดียว และเมื่ออัปเดตพรอมต์จะมีผลทั่วทั้งระบบโดยไม่จำเป็นต้องจัดการสำเนาซ้ำในแต่ละโปรเจกต์ เทมเพลตเหล่านี้ได้รับการเปิดแหล่งรหัสพร้อมกับการเปิดตัว openevals v0.2.0 โดยเพิ่มการรองรับการประเมินแบบมัลติมีเดีย (ที่มา: BlockBeats)