CUSP Benchmark cho thấy các mô hình AI thiếu khả năng dự báo khoa học

ME AI tin tức, theo giám sát của Beating, Đại học Stanford, Đại học Oxford và Viện Nghiên cứu Trí tuệ Nhân tạo Allen đã cùng nhau ra mắt chuẩn thời gian CUSP để đánh giá khả năng dự đoán tiến bộ khoa học của AI. Hệ thống đánh giá đã kiểm tra hệ thống các mô hình lớn tiên tiến như GPT-5.4, Claude Sonnet 4.5 và DeepSeek R1. Kết quả cho thấy các mô hình lớn thể hiện xuất sắc trong việc hiểu các cơ chế như đường đi công nghệ hiện có. Tuy nhiên, khi dự đoán liệu các phát hiện mới có thực sự được thực hiện hay không, độ chính xác gần như ngẫu nhiên. Ngoài ra, các mô hình lớn cũng thể hiện sự trễ hệ thống trong việc dự đoán thời điểm đột phá khoa học. Các đánh giá AI truyền thống dễ gặp rò rỉ thông tin; mô hình có thể chỉ đơn giản là lặp lại các thành tựu khoa học đã được công bố trong dữ liệu huấn luyện. Để đo lường khả năng dự đoán thực sự, CUSP áp dụng giới hạn thời gian về kiến thức. Nhóm nghiên cứu đã tổng hợp các tiến bộ前沿 từ các tạp chí như Nature và Science. Bộ chuẩn này bao gồm 4.760 cột mốc khoa học, tạo ra 17.429 nhiệm vụ đánh giá cụ thể. Việc kiểm tra giới hạn thông tin có sẵn cho mô hình thông qua điều kiện cắt thời gian, đồng thời thiết lập các thí nghiệm đối chiếu như tìm kiếm trực tuyến pre-cutoff để phân biệt khoảng trống kiến thức và khoảng trống dự đoán. Kết quả đánh giá cho thấy các mô hình lớn không thể cung cấp hướng dẫn đáng tin cậy trong các cuộc khám phá khoa học không có đáp án chuẩn. Ít nhất trong việc dự đoán tiến bộ khoa học, các mô hình hiện tại vẫn chưa thể đưa ra phán đoán tiên tri đáng tin cậy. Trong các nhiệm vụ suy luận cơ chế, mô hình thể hiện xuất sắc; ví dụ, khi nhận diện hướng nghiên cứu hợp lý từ các lựa chọn, GPT-5.4 đạt độ chính xác 81,9%. Nhưng khi đối mặt với việc xác định tính khả thi — tức là đánh giá liệu một tuyên bố có thể được thực hiện hay không — độ chính xác của các mô hình chỉ nằm trong khoảng 45% đến 52%. Đối với dự đoán thời điểm đột phá, các mô hình lớn đều đánh giá quá cao. GPT-5.4 trễ 14 tháng, Claude S4.5 trễ 17 tháng, trong khi GPT-4o trễ tới 26 tháng. Trong các nhiệm vụ này, LLaMA 3.3 có sai số thời gian nhỏ nhất, ở mức +4 tháng. Trong thiết kế giải pháp sinh thành, dù GPT-5.4 đạt điểm cao nhất là 5,04/10, các lộ trình công nghệ do nó tạo ra vẫn không thể đồng bộ với các lộ trình khoa học thực tế. Điều này cho thấy mô hình có thể viết ra các giải pháp trông giống thật, nhưng rất khó xác định chính xác lộ trình công nghệ cụ thể sẽ xảy ra sau này. Đối với các đột phá mang tính khai phá có ảnh hưởng lớn, khoảng trống dự đoán khoa học càng rõ rệt hơn. (Nguồn: BlockBeats)