Đây là một câu hỏi khiến các nhà nghiên cứu trằn trọc cả đêm: AI thực sự có thể làm toán, hay chỉ đơn thuần rất giỏi trong việc nhận diện mẫu từ những vấn đề nó đã từng thấy trước đó? Một nhóm 30 nhà toán học tại Harvard đã quyết định tìm câu trả lời bằng cách đưa ra một bài kiểm tra mà các hệ thống AI hàng đầu không thể nào đã từng học qua.
Dự án có tên “First Proof, Second Batch” đã tập hợp hội đồng chuyên gia tại Trung tâm Toán học và Ứng dụng thuộc Đại học Harvard vào đầu tháng 6 năm 2026. Nhiệm vụ của họ đơn giản nhưng chưa từng có về quy mô: chấm điểm mù các giải pháp do AI tạo ra cho 10 bài toán toán học cấp nghiên cứu gốc và chưa từng được công bố. Kết quả, được công bố vào ngày 10 tháng 6, vẽ nên một bức tranh không phải là kịch bản thảm họa cũng không phải là chiến thắng mà các phe phái bên nào đó có thể mong muốn.
Cài đặt: tại sao các vấn đề chưa được công bố lại quan trọng
Toàn bộ bài tập phụ thuộc vào một lựa chọn thiết kế quan trọng. Mọi vấn đề trong bộ dữ liệu đều được lấy từ các nghiên cứu đang hoạt động và chưa được công bố. Không có câu hỏi nào xuất hiện trong sách giáo khoa, trên arXiv hoặc bất kỳ nơi nào khác mà dữ liệu huấn luyện của AI có thể thu thập được.
Các nhà toán học đằng sau dự án cũng không phải là những người tầm thường. Danh sách bao gồm Mohammed Abouzaid từ Stanford, Nikhil Srivastava từ UC Berkeley, Rachel Ward từ UT Austin và Lauren Williams của Harvard.
Điều mà AI đã làm đúng và sai
Bốn hệ thống AI hàng đầu đã tham gia đánh giá, bao gồm các mô hình từ OpenAI và Google. Con số nổi bật: hội đồng chuyên gia đã trao điểm đỗ cho bảy trong số 10 bài toán trên bốn hệ thống được kiểm tra.
Trong các phiên chạy thử sơ bộ và ban đầu, các hệ thống AI được báo cáo đã giải được chỉ 2 trong số 10 bài toán. Khoảng cách giữa hiệu suất ban đầu và kết quả cuối cùng cho thấy các mô hình có thể đã được lợi từ nhiều lần thử hoặc các chiến lược nhắc nhở khác nhau, mặc dù quy trình chấm điểm mù đã được thiết kế để đánh giá chất lượng các giải pháp được nộp dựa trên giá trị riêng của chúng.
Xây dựng trên các kết quả trước đó
Lô thứ hai này xây dựng trên đợt đánh giá ban đầu được thực hiện vào tháng 2 năm 2026. Dự án First Proof được thiết kế ngay từ đầu như một khung đánh giá liên tục, chứ không phải một hành động một lần. Bằng cách chạy nhiều đợt với các vấn đề mới mỗi lần, các tổ chức có thể theo dõi xem khả năng của AI có thực sự cải thiện trong toán học cấp độ nghiên cứu hay chỉ đơn thuần ngừng phát triển sau đợt tăng trưởng ban đầu do các tiêu chuẩn đánh giá mang lại.
Các bài kiểm tra toán học tiêu chuẩn, ngay cả những bài khó như các bài toán cấp độ thi đấu, ngày càng bị các mô hình tiên tiến vượt qua. Nhưng các bài toán thi đấu, theo định nghĩa, đều có lời giải và phương pháp giải đã được biết đến. Toán học cấp độ nghiên cứu hoạt động trong một chế độ hoàn toàn khác, nơi bạn thường không biết liệu lời giải có tồn tại hay không, chứ chưa nói đến việc sử dụng kỹ thuật nào để đạt được nó.
