CUSP Benchmark cho thấy các mô hình AI thiếu khả năng dự báo khoa học

iconKuCoinFlash
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Các nền tảng tin tức AI và tiền mã hóa đang theo dõi một tiêu chuẩn mới gọi là CUSP, được phát triển bởi Stanford, Oxford và Viện Allen về AI. Bài kiểm tra cho thấy các mô hình hàng đầu như GPT-5.4 và Claude Sonnet 4.5 gặp khó khăn trong việc dự báo tiến bộ khoa học. Độ chính xác gần như ngẫu nhiên và ước lượng thời gian sai lệch vài tháng. Bộ dữ liệu CUSP bao gồm 4.760 cột mốc và 17.429 nhiệm vụ. Các danh sách token mới thường dựa vào các mô hình dự đoán, nhưng nghiên cứu này đặt ra những lo ngại về độ tin cậy của chúng.
ME AI tin tức, theo giám sát của Beating, Đại học Stanford, Đại học Oxford và Viện Nghiên cứu Trí tuệ Nhân tạo Allen đã cùng nhau ra mắt chuẩn thời gian CUSP để đánh giá khả năng dự đoán tiến bộ khoa học của AI. Hệ thống đánh giá đã kiểm tra hệ thống các mô hình lớn tiên tiến như GPT-5.4, Claude Sonnet 4.5 và DeepSeek R1. Kết quả cho thấy các mô hình lớn thể hiện xuất sắc trong việc hiểu các cơ chế như đường đi công nghệ hiện có. Tuy nhiên, khi dự đoán liệu các phát hiện mới có thực sự được thực hiện hay không, độ chính xác gần như ngẫu nhiên. Ngoài ra, các mô hình lớn cũng thể hiện sự trễ hệ thống trong việc dự đoán thời điểm đột phá khoa học. Các đánh giá AI truyền thống dễ gặp rò rỉ thông tin; mô hình có thể chỉ đơn giản là lặp lại các thành tựu khoa học đã được công bố trong dữ liệu huấn luyện. Để đo lường khả năng dự đoán thực sự, CUSP áp dụng giới hạn thời gian về kiến thức. Nhóm nghiên cứu đã tổng hợp các tiến bộ前沿 từ các tạp chí như Nature và Science. Bộ chuẩn này bao gồm 4.760 cột mốc khoa học, tạo ra 17.429 nhiệm vụ đánh giá cụ thể. Việc kiểm tra giới hạn thông tin có sẵn cho mô hình thông qua điều kiện cắt thời gian, đồng thời thiết lập các thí nghiệm đối chiếu như tìm kiếm trực tuyến pre-cutoff để phân biệt khoảng trống kiến thức và khoảng trống dự đoán. Kết quả đánh giá cho thấy các mô hình lớn không thể cung cấp hướng dẫn đáng tin cậy trong các cuộc khám phá khoa học không có đáp án chuẩn. Ít nhất trong việc dự đoán tiến bộ khoa học, các mô hình hiện tại vẫn chưa thể đưa ra phán đoán tiên tri đáng tin cậy. Trong các nhiệm vụ suy luận cơ chế, mô hình thể hiện xuất sắc; ví dụ, khi nhận diện hướng nghiên cứu hợp lý từ các lựa chọn, GPT-5.4 đạt độ chính xác 81,9%. Nhưng khi đối mặt với việc xác định tính khả thi — tức là đánh giá liệu một tuyên bố có thể được thực hiện hay không — độ chính xác của các mô hình chỉ nằm trong khoảng 45% đến 52%. Đối với dự đoán thời điểm đột phá, các mô hình lớn đều đánh giá quá cao. GPT-5.4 trễ 14 tháng, Claude S4.5 trễ 17 tháng, trong khi GPT-4o trễ tới 26 tháng. Trong các nhiệm vụ này, LLaMA 3.3 có sai số thời gian nhỏ nhất, ở mức +4 tháng. Trong thiết kế giải pháp sinh thành, dù GPT-5.4 đạt điểm cao nhất là 5,04/10, các lộ trình công nghệ do nó tạo ra vẫn không thể đồng bộ với các lộ trình khoa học thực tế. Điều này cho thấy mô hình có thể viết ra các giải pháp trông giống thật, nhưng rất khó xác định chính xác lộ trình công nghệ cụ thể sẽ xảy ra sau này. Đối với các đột phá mang tính khai phá có ảnh hưởng lớn, khoảng trống dự đoán khoa học càng rõ rệt hơn. (Nguồn: BlockBeats)
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.