LangSmith เปิดตัวเทมเพลตการประเมินมากกว่า 30 แบบสำหรับการทดสอบคุณภาพของตัวแทน AI

iconKuCoinFlash
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
ข่าว AI + crypto ถูกเปิดเผยเมื่อวันที่ 17 เมษายน (UTC+8) เมื่อ LangChain เปิดตัว LangSmith พร้อมเทมเพลตการประเมินมากกว่า 30 แบบสำหรับการทดสอบ AI agent การอัปเดตนี้รวมถึงไลบรารีเทมเพลตผู้ประเมินและผู้ประเมินที่สามารถใช้ซ้ำได้ในห้าหมวดหมู่: ความปลอดภัย คุณภาพของคำตอบ เส้นทางการดำเนินการ การวิเคราะห์พฤติกรรมผู้ใช้ และแบบมัลติโมดัล เทมเพลตเหล่านี้รองรับการตรวจสอบแบบออนไลน์และการทดลองแบบออฟไลน์ โดยมีคำสั่ง LLM ที่ได้รับการปรับปรุงและรหัสที่ใช้กฎฐาน การแท็บผู้ประเมินใหม่ช่วยให้สามารถจัดการแบบรวมศูนย์ได้ เทมเพลตถูกเปิดซอร์สพร้อม openevals v0.2.0 ซึ่งเพิ่มการรองรับแบบมัลติโมดัล การเริ่มต้นรายการโทเค็นใหม่และเครื่องมือ AI ยังคงส่งผลต่อตลาดต่อไป

ข่าวจาก ME News เมื่อวันที่ 17 เมษายน (UTC+8) ตามข้อมูลจาก Beating แพลตฟอร์มพัฒนาเอเจนต์ AI LangChain เปิดตัวการอัปเดตสองรายการสำหรับเครื่องมือการสังเกตการณ์ LangSmith: คลังเทมเพลตผู้ประเมินและผู้ประเมินที่สามารถใช้ซ้ำได้ การประเมินว่าเอเจนต์นั้น “ใช้งานได้ดี” เป็นหนึ่งในขั้นตอนที่ใช้เวลานานที่สุดในการพัฒนาปัจจุบัน เอเจนต์อาจเรียกใช้เครื่องมือที่ถูกต้องแต่ให้รูปแบบคำตอบผิดพลาด การสนทนาแบบเดี่ยวทำงานได้ดีแต่การสนทนาแบบหลายรอบล่ม คำตอบสุดท้ายดูเหมือนสมเหตุสมผลแต่ขั้นตอนกลางกลับดึงเอกสารผิดพลาด นักพัฒนาจำเป็นต้องตั้งจุดตรวจสอบในหลายระดับ เช่น ขั้นตอนเดียว ทรานสคริปต์เต็มรูปแบบ การสนทนาหลายรอบ และการเรียกใช้เครื่องมือเฉพาะ ขณะที่ผู้ประเมินแต่ละตัวต้องผ่านกระบวนการเขียนพรอมต์ การปรับเทียบกับข้อมูลจริง และการปรับแต่งซ้ำๆ ซึ่งหากเริ่มจากศูนย์อาจใช้เวลาหลายสัปดาห์ ตอนนี้ LangSmith มีเทมเพลตสำเร็จรูปมากกว่า 30 แบบ ครอบคลุมห้าหมวดหมู่: ความปลอดภัยและการป้องกัน (ตรวจจับการฉีดพรอมต์ การตรวจสอบการรั่วไหลของข้อมูลส่วนบุคคล อคติและคำพูดเป็นพิษ) คุณภาพของคำตอบ (ความถูกต้อง ความเป็นประโยชน์ น้ำเสียง) เส้นทางการดำเนินการ (เอเจนต์ดำเนินการตามขั้นตอนที่ถูกต้องหรือไม่) การวิเคราะห์พฤติกรรมผู้ใช้ (การกระจายภาษา สัญญาณความพึงพอใจ) และมัลติมีเดีย (การตรวจสอบผลลัพธ์เสียงและภาพ) เทมเพลตเหล่านี้รวมถึงพรอมต์การประเมินของ LLM ที่ผ่านการปรับแต่งแล้วและเครื่องมือประเมินตามกฎที่สามารถใช้งานได้ทันทีหรือปรับแต่งเองได้ พร้อมรองรับทั้งการตรวจสอบออนไลน์และการทดลองแบบออฟไลน์ ส่วนผู้ประเมินที่สามารถใช้ซ้ำได้นั้นแก้ไขปัญหาการจัดการในระดับองค์กร: แท็บ Evaluators ใหม่แสดงผู้ประเมินทั้งหมดในพื้นที่ทำงานอย่างเป็นกลาง สามารถผูกไว้กับโปรเจกต์ใหม่ได้เพียงคลิกเดียว และเมื่ออัปเดตพรอมต์จะมีผลทั่วทั้งระบบโดยไม่จำเป็นต้องจัดการสำเนาซ้ำในแต่ละโปรเจกต์ เทมเพลตเหล่านี้ได้รับการเปิดแหล่งรหัสพร้อมกับการเปิดตัว openevals v0.2.0 โดยเพิ่มการรองรับการประเมินแบบมัลติมีเดีย (ที่มา: BlockBeats)

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา