Các nhà toán học tại Harvard thử nghiệm AI trên các bài toán cấp độ nghiên cứu chưa được công bố

iconCryptoBriefing
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Tin tức AI + tiền mã hóa từ Harvard cho thấy các hệ thống AI đã giải được bảy trong số 10 bài toán toán học gốc. Bài kiểm tra, được công bố ngày 10 tháng 6 năm 2026, sử dụng các bài toán không có trong dữ liệu huấn luyện. Các mô hình từ OpenAI và Google đã cải thiện so với các lần thử nghiệm ban đầu. Tin tức trên chuỗi và những tiến bộ trong AI tiếp tục thu hút sự chú ý. Những lý do chính xác đằng sau sự tiến bộ vẫn chưa rõ ràng.

Đây là một câu hỏi khiến các nhà nghiên cứu trằn trọc cả đêm: AI thực sự có thể làm toán, hay chỉ đơn thuần rất giỏi trong việc nhận diện mẫu từ những vấn đề nó đã từng thấy trước đó? Một nhóm 30 nhà toán học tại Harvard đã quyết định tìm câu trả lời bằng cách đưa ra một bài kiểm tra mà các hệ thống AI hàng đầu không thể nào đã từng học qua.

Dự án có tên “First Proof, Second Batch” đã tập hợp hội đồng chuyên gia tại Trung tâm Toán học và Ứng dụng thuộc Đại học Harvard vào đầu tháng 6 năm 2026. Nhiệm vụ của họ đơn giản nhưng chưa từng có về quy mô: chấm điểm mù các giải pháp do AI tạo ra cho 10 bài toán toán học cấp nghiên cứu gốc và chưa từng được công bố. Kết quả, được công bố vào ngày 10 tháng 6, vẽ nên một bức tranh không phải là kịch bản thảm họa cũng không phải là chiến thắng mà các phe phái bên nào đó có thể mong muốn.

Cài đặt: tại sao các vấn đề chưa được công bố lại quan trọng

Toàn bộ bài tập phụ thuộc vào một lựa chọn thiết kế quan trọng. Mọi vấn đề trong bộ dữ liệu đều được lấy từ các nghiên cứu đang hoạt động và chưa được công bố. Không có câu hỏi nào xuất hiện trong sách giáo khoa, trên arXiv hoặc bất kỳ nơi nào khác mà dữ liệu huấn luyện của AI có thể thu thập được.

Quảng cáo

Các nhà toán học đằng sau dự án cũng không phải là những người tầm thường. Danh sách bao gồm Mohammed Abouzaid từ Stanford, Nikhil Srivastava từ UC Berkeley, Rachel Ward từ UT Austin và Lauren Williams của Harvard.

Điều mà AI đã làm đúng và sai

Bốn hệ thống AI hàng đầu đã tham gia đánh giá, bao gồm các mô hình từ OpenAI và Google. Con số nổi bật: hội đồng chuyên gia đã trao điểm đỗ cho bảy trong số 10 bài toán trên bốn hệ thống được kiểm tra.

Trong các phiên chạy thử sơ bộ và ban đầu, các hệ thống AI được báo cáo đã giải được chỉ 2 trong số 10 bài toán. Khoảng cách giữa hiệu suất ban đầu và kết quả cuối cùng cho thấy các mô hình có thể đã được lợi từ nhiều lần thử hoặc các chiến lược nhắc nhở khác nhau, mặc dù quy trình chấm điểm mù đã được thiết kế để đánh giá chất lượng các giải pháp được nộp dựa trên giá trị riêng của chúng.

Xây dựng trên các kết quả trước đó

Lô thứ hai này xây dựng trên đợt đánh giá ban đầu được thực hiện vào tháng 2 năm 2026. Dự án First Proof được thiết kế ngay từ đầu như một khung đánh giá liên tục, chứ không phải một hành động một lần. Bằng cách chạy nhiều đợt với các vấn đề mới mỗi lần, các tổ chức có thể theo dõi xem khả năng của AI có thực sự cải thiện trong toán học cấp độ nghiên cứu hay chỉ đơn thuần ngừng phát triển sau đợt tăng trưởng ban đầu do các tiêu chuẩn đánh giá mang lại.

Các bài kiểm tra toán học tiêu chuẩn, ngay cả những bài khó như các bài toán cấp độ thi đấu, ngày càng bị các mô hình tiên tiến vượt qua. Nhưng các bài toán thi đấu, theo định nghĩa, đều có lời giải và phương pháp giải đã được biết đến. Toán học cấp độ nghiên cứu hoạt động trong một chế độ hoàn toàn khác, nơi bạn thường không biết liệu lời giải có tồn tại hay không, chứ chưa nói đến việc sử dụng kỹ thuật nào để đạt được nó.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.