Tin tức từ ME News, ngày 17 tháng 4 (UTC+8), theo giám sát của Dongcha Beating, công cụ khả năng quan sát LangSmith thuộc nền tảng phát triển đại lý AI LangChain đã ra mắt hai bản cập nhật: thư viện mẫu đánh giá và các bộ đánh giá có thể tái sử dụng. Việc đánh giá xem đại lý AI có “dễ sử dụng” hay không là một trong những bước tốn nhiều thời gian nhất trong quá trình phát triển hiện nay. Đại lý có thể gọi đúng công cụ nhưng trả lời sai định dạng, hội thoại một vòng hoạt động bình thường nhưng sụp đổ trong hội thoại đa vòng, câu trả lời cuối cùng nghe có vẻ hợp lý nhưng các bước trung gian lại truy xuất tài liệu sai. Các nhà phát triển cần thiết lập các điểm kiểm tra ở nhiều cấp độ khác nhau: từng bước, toàn bộ hành trình, hội thoại đa vòng, gọi công cụ cụ thể… và mỗi bộ đánh giá đều phải trải qua quá trình viết prompt, hiệu chỉnh với dữ liệu thực tế, tinh chỉnh lặp đi lặp lại — từ đầu thường mất vài tuần. LangSmith hiện cung cấp hơn 30 mẫu sẵn sàng, bao phủ năm danh mục: an toàn và bảo vệ (phát hiện tiêm prompt, kiểm tra rò rỉ thông tin cá nhân, thiên kiến và độc hại), chất lượng câu trả lời (tính chính xác, hữu ích, giọng điệu), hành trình thực thi (đại lý có thực hiện đúng các bước hay không), phân tích hành vi người dùng (phân bố ngôn ngữ, tín hiệu mức độ hài lòng), đa phương tiện (kiểm tra đầu ra âm thanh và hình ảnh). Các mẫu bao gồm prompt đánh giá LLM đã được tinh chỉnh và bộ đánh giá mã dựa trên quy tắc, có thể sử dụng ngay hoặc tùy chỉnh, đồng thời phù hợp với cả giám sát trực tuyến và thí nghiệm ngoại tuyến. Các bộ đánh giá có thể tái sử dụng giải quyết vấn đề quản lý ở cấp tổ chức: tab Evaluators mới hiển thị tập trung tất cả các bộ đánh giá trong không gian làm việc, cho phép gắn一键 vào dự án mới, cập nhật prompt sẽ có hiệu lực toàn cầu mà không cần duy trì bản sao lặp lại trong từng dự án. Các mẫu trên đã được mở nguồn cùng với bản phát hành openevals v0.2.0, bổ sung hỗ trợ đánh giá đa phương tiện. (Nguồn: BlockBeats)
LangSmith ra mắt hơn 30 mẫu đánh giá để kiểm tra chất lượng tác nhân AI
KuCoinFlashChia sẻ






Tin tức về AI và tiền mã hóa đã xuất hiện vào ngày 17 tháng 4 (UTC+8) khi LangChain ra mắt hơn 30 mẫu đánh giá để kiểm thử tác nhân AI. Bản cập nhật bao gồm thư viện mẫu đánh giá và các bộ đánh giá có thể tái sử dụng trong năm danh mục: an toàn, chất lượng phản hồi, quỹ đạo thực thi, phân tích hành vi người dùng và đa phương tiện. Các mẫu này hỗ trợ giám sát trực tuyến và thí nghiệm ngoại tuyến, với các lời nhắc LLM được tối ưu hóa và mã dựa trên quy tắc. Tab Đánh giá mới cho phép quản lý tập trung. Các mẫu đã được mở nguồn cùng với openevals v0.2.0, bổ sung hỗ trợ đa phương tiện. Các danh sách token mới và công cụ AI tiếp tục định hình thị trường.
Nguồn:Hiển thị bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này.
Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.