LangSmith ra mắt hơn 30 mẫu đánh giá để kiểm tra chất lượng tác nhân AI

Tin tức từ ME News, ngày 17 tháng 4 (UTC+8), theo giám sát của Dongcha Beating, công cụ khả năng quan sát LangSmith thuộc nền tảng phát triển đại lý AI LangChain đã ra mắt hai bản cập nhật: thư viện mẫu đánh giá và các bộ đánh giá có thể tái sử dụng. Việc đánh giá xem đại lý AI có “dễ sử dụng” hay không là một trong những bước tốn nhiều thời gian nhất trong quá trình phát triển hiện nay. Đại lý có thể gọi đúng công cụ nhưng trả lời sai định dạng, hội thoại một vòng hoạt động bình thường nhưng sụp đổ trong hội thoại đa vòng, câu trả lời cuối cùng nghe có vẻ hợp lý nhưng các bước trung gian lại truy xuất tài liệu sai. Các nhà phát triển cần thiết lập các điểm kiểm tra ở nhiều cấp độ khác nhau: từng bước, toàn bộ hành trình, hội thoại đa vòng, gọi công cụ cụ thể… và mỗi bộ đánh giá đều phải trải qua quá trình viết prompt, hiệu chỉnh với dữ liệu thực tế, tinh chỉnh lặp đi lặp lại — từ đầu thường mất vài tuần. LangSmith hiện cung cấp hơn 30 mẫu sẵn sàng, bao phủ năm danh mục: an toàn và bảo vệ (phát hiện tiêm prompt, kiểm tra rò rỉ thông tin cá nhân, thiên kiến và độc hại), chất lượng câu trả lời (tính chính xác, hữu ích, giọng điệu), hành trình thực thi (đại lý có thực hiện đúng các bước hay không), phân tích hành vi người dùng (phân bố ngôn ngữ, tín hiệu mức độ hài lòng), đa phương tiện (kiểm tra đầu ra âm thanh và hình ảnh). Các mẫu bao gồm prompt đánh giá LLM đã được tinh chỉnh và bộ đánh giá mã dựa trên quy tắc, có thể sử dụng ngay hoặc tùy chỉnh, đồng thời phù hợp với cả giám sát trực tuyến và thí nghiệm ngoại tuyến. Các bộ đánh giá có thể tái sử dụng giải quyết vấn đề quản lý ở cấp tổ chức: tab Evaluators mới hiển thị tập trung tất cả các bộ đánh giá trong không gian làm việc, cho phép gắn一键 vào dự án mới, cập nhật prompt sẽ có hiệu lực toàn cầu mà không cần duy trì bản sao lặp lại trong từng dự án. Các mẫu trên đã được mở nguồn cùng với bản phát hành openevals v0.2.0, bổ sung hỗ trợ đánh giá đa phương tiện. (Nguồn: BlockBeats)