OpenAI ra mắt LifeSciBench để đánh giá các hệ thống AI trong nghiên cứu khoa học thực tế

iconTechFlow
Chia sẻ
AI summary iconTóm tắt

OpenAI đã công bố bộ tiêu chuẩn đánh giá mới LifeSciBench, nhằm đo lường khả năng của các hệ thống AI trong các bối cảnh nghiên cứu thực tế. LifeSciBench dựa trên 750 nhiệm vụ do chuyên gia biên soạn, bao phủ 7 quy trình nghiên cứu và 7 lĩnh vực sinh học, với các nhiệm vụ được lấy từ 173 nhà nghiên cứu có bằng tiến sĩ và kinh nghiệm trong ngành công nghệ sinh học hoặc dược phẩm. Bộ tiêu chuẩn này nhấn mạnh việc đánh giá các năng lực nghiên cứu phức tạp, bao gồm tích hợp bằng chứng, thiết kế thí nghiệm, phân tích dữ liệu, suy luận khoa học và giao tiếp nghiên cứu, thay vì chỉ các câu hỏi mang tính sự thật đơn lẻ. Hơn 79% các nhiệm vụ yêu cầu suy luận đa bước, trung bình mỗi câu hỏi cần khoảng 4 bước suy luận, đồng thời bao gồm 1.062 tệp dữ liệu liên quan đến nghiên cứu thực tế (như bài báo, biểu đồ, dữ liệu chuỗi và tệp cấu trúc, v.v.).

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.