Richard Sutton, người đoạt giải Turing và được mệnh danh là cha đẻ của học tăng cường, chỉ trích các mô hình AI sinh tạo hiện tại có những hạn chế nội tại: những phần tốt thì không mới mẻ, những phần mới mẻ thì lại không tốt.
Tác giả bài viết, nguồn: Newzhong
AI: Phần tốt thì không mới mẻ, phần mới mẻ thì không tốt
Một trong những đánh giá độc hại nhất trong giới học thuật là:
Công việc này vừa sáng tạo vừa tuyệt vời.
Tiếc là phần tốt thì không mới mẻ, phần mới mẻ thì không tốt.
Tuy nhiên, một trong những người sáng lập lĩnh vực học tăng cường, tác giả của giáo trình "Reinforcement Learning" và người đoạt giải Turing, Richard Sutton, đã hướng trò đùa này vào toàn bộ AI sinh tạo.

Anh ấy nói: Đánh giá này áp dụng cho phần lớn AI mà chúng ta quen thuộc hôm nay.

AI: Phần tốt thì không mới mẻ, phần mới mẻ thì không tốt
Lập luận cốt lõi của Sutton cực kỳ ngắn gọn, ngắn gọn đến mức tàn nhẫn.
AI sinh thành về bản chất là học có giám sát.
Logic của học có giám sát là: cung cấp cho mô hình một lượng lớn mẫu do con người tạo ra, để nó học cách mô phỏng.
Càng mô phỏng giống thật, điểm càng cao.

Câu hỏi đặt ra.
Khi mô hình tạo nội dung nghiêm ngặt theo dữ liệu huấn luyện, chất lượng đầu ra rất cao vì nó tái hiện những điều tốt đẹp mà con người đã xác minh. Nhưng điều này không mới mẻ. Nó chỉ đang sắp xếp lại theo các tổ hợp khác nhau và đóng gói lại những điều con người đã biết.
Khi mô hình cố gắng thoát khỏi dữ liệu huấn luyện và tạo ra nội dung thực sự mới, chất lượng sẽ sụp đổ. Vì nó không có bất kỳ cơ chế nội tại nào để đánh giá “cái mới này thực sự tốt hay không”. Nó chỉ có thể tạo ra, chứ không thể đánh giá.
Đó chính là mâu thuẫn cấu trúc:
Sự mới mẻ và chất lượng, trong khuôn khổ học có giám sát thuần túy, là hai đầu của con bập bênh.
Bạn ấn xuống một đầu, đầu kia sẽ nhô lên.

Đây không phải là vấn đề kỹ thuật. Không thể giải quyết chỉ bằng cách tích lũy dữ liệu, mở rộng mô hình hay thêm nhiều GPU.
Sutton đã sử dụng một phép so sánh cực kỳ gây chú ý: “ ảo giác” — nhược điểm bị chỉ trích nhiều nhất của các mô hình lớn — về bản chất là sản phẩm phụ khi mô hình cố gắng tạo ra sự mới mẻ.
Chúng tôi ghét ảo tưởng, điều này chính xác chứng minh một điều: thực ra chúng tôi hoàn toàn không cần sự mới mẻ. Chúng tôi chỉ cần sự sao chép chất lượng cao.
Điều tốt thì không mới lạ, điều mới lạ thì không tốt.
Lời nhận xét độc địa của biên tập viên trong câu đùa đó lại mô tả chính xác những hạn chế nội tại của toàn bộ AI sinh tạo.
Sự "khám phá" thực sự cần bộ ba công cụ
Sutton xuất phát từ nguyên lý cơ bản, phân tích "công thức tam thể" của sự sáng tạo:
Sự khám phá thực sự (Discovery) = Biến dị (Variation) + Đánh giá (Evaluation) + Giữ lại có chọn lọc (Retention).
Bất kỳ sự sáng tạo và phát hiện thật sự nào cũng cần ba bước, không thể thiếu bước nào:
1. Biến thể (Variation) tạo ra khả năng đa dạng. Có thể là ngẫu nhiên hoặc dựa trên kiến thức hiện có, nhưng phải có sự không chắc chắn thực sự—nếu không thì không phải là khám phá, mà là tra bảng.
2. Đánh giá (Evaluation): Xác định những biến thể nào có giá trị. Điều này đòi hỏi một mục tiêu rõ ràng, hoặc một tiêu chuẩn có thể phân biệt "tốt" và "xấu".
3. Giữ lại có chọn lọc: Giữ lại những biến thể có giá trị để chúng ảnh hưởng đến các hành động và học hỏi trong tương lai.
Ba bước này không phải là phát minh của Sutton. Đó là logic của chọn lọc tự nhiên, logic của phương pháp khoa học và logic của việc học tập con người.
Thuyết tiến hóa: Đột biến gen ngẫu nhiên (biến dị) → Lọc môi trường (đánh giá) → Sinh tồn của kẻ thích nghi (giữ lại có chọn lọc).
Phương pháp khoa học: Đưa ra giả thuyết (biến dị) → Thử nghiệm xác minh (đánh giá) → Công bố bài báo (lưu giữ có chọn lọc).
Học tập của con người: Thử các cách giải khác nhau (biến dị) → Kiểm tra đúng sai (đánh giá) → Ghi nhớ các phương pháp hiệu quả (bảo lưu có chọn lọc).

Hiện tại, AI sinh tạo mới chỉ hoàn thành bước đầu tiên trong tam vị nhất thể: gần như không có đánh giá, chưa nói đến việc giữ lại có chọn lọc.
Nó giống như một tay cung thủ bắn tên ngẫu nhiên, nhưng bị bịt mắt, sau khi bắn xong không nhìn vào mục tiêu cũng không điều chỉnh tư thế dựa trên kết quả.
Bạn gọi nó bắn một vạn mũi tên, thỉnh thoảng sẽ trúng đích, nhưng nó sẽ không bao giờ biết tại sao lại trúng.
Vậy thì các nhà khoa học còn có ích không?
Tới đây, bạn có thể cảm thấy hơi lo lắng: nếu trong tương lai AI thực sự có thể tự mình hoàn thành “khám phá” tam giác này, các nhà khoa học có sẽ mất việc không?
Câu trả lời của Sutton là: Không thể bị thay thế, nhưng vai trò phải được chuyển đổi hoàn toàn.
Trong bài phát biểu, anh ấy nói rằng ngay cả AI có thể tự chứng minh định lý toán học cũng vẫn cần con người chỉ ra cho nó biết những vấn đề nào là quan trọng.
Đây không phải là sự khiêm tốn, mà là ranh giới nhận thức thực tế.
Nhà toán học Shiqian Ma, chuyên gia trong lĩnh vực tối ưu tại Đại học Rice, cho biết: ông đã sử dụng ChatGPT để chứng minh bài toán hội tụ của một thuật toán mà ông đã nghiên cứu trong suốt sáu năm.

Trong tóm tắt có một câu:
Được tạo bởi ChatGPT 5.5 và đã được tác giả xác minh.

Thuật toán này được gọi là BDRS, viết tắt của Bregman Douglas-Rachford Splitting, được sử dụng để giải quyết vấn đề vận chuyển tối ưu (Optimal Transport).

Tiêu đề luận văn: Phương pháp tách Bregman Douglas-Rachford
Địa chỉ bản preprint:
Đó là thứ anh ấy và các đồng tác giả tự thiết kế, và điều khiến anh ấy băn khoăn trong sáu năm là chứng minh tính hội tụ của nó—nghĩa là, về mặt toán học chặt chẽ nhất, “tại sao nó đúng”.

Nền tảng preprint arXiv vẫn đang để nguyên bản nộp sau khi nhận được.
Anh ấy đồn rằng nguyên nhân là do trong tóm tắt có ba chữ “ChatGPT”, nên nền tảng không biết cách xử lý các bài luận loại này.
Nhưng con người có thể bị AI thay thế không?
Câu trả lời của anh ấy là: Không. Anh ấy thẳng thắn nói:
Tôi cho rằng AI không thể sáng tạo đưa ra thuật toán này và tuyên bố: “Đây là một thuật toán hiệu quả cho vận tải tối ưu, bây giờ hãy thử chứng minh tính hội tụ của nó.”
Không có sự hướng dẫn của con người, AI hoàn toàn không biết nên giải quyết vấn đề nào.

Câu này tương ứng chính xác với Sutton: vấn đề bản thân, phải do con người xác định.
Anh ấy đã mất sáu năm mới “đặt ra câu hỏi đúng đắn”:
Cần đặt ra những câu hỏi nào, thực tế đòi hỏi bạn phải có hiểu biết rất sâu sắc về chủ đề này.
Trong trường hợp này, tôi đã nghiên cứu vấn đề này trong sáu năm, vì vậy tôi rõ ràng biết những khó khăn cụ thể của nó.

Sáu năm này không phải là lãng phí, mà là điều kiện tiên quyết.
Chính trong sáu năm này, anh ấy mới biết được chứng minh này bị kẹt ở đâu, nguyên nhân khiến tất cả các con đường trước đó đều thất bại là gì, và hướng nào mà ChatGPT đưa ra đáng để tiếp tục theo đuổi, hướng nào chỉ là ảo giác.
Và không phải một lần nhắc nhở, mà là năm tháng. Đây là nơi dễ bị hiểu lầm nhất, chính anh ấy cũng từng hiểu lầm:

Từ tháng Một đến tháng Năm, trọn vẹn năm tháng, vô số cuộc hội thoại, mỗi lần nhắc nhở đều tiến gần hơn đến bằng chứng đó.
Anh ấy tổng kết một cách cực kỳ tỉnh táo:

Bản chất của nghiên cứu vẫn không thay đổi, vẫn là thử và sai lặp đi lặp lại. Điều thay đổi là tốc độ của mỗi lần thử nghiệm — trước đây cần vài tuần để xác minh một hướng đi, giờ đây chỉ mất vài phút là đã biết con đường này có đi được hay không.
Nhưng đóng góp của AI là không thể xóa nhòa:

Sau đó, kết thúc bằng việc trở thành huyền thoại:
Trở lại bài luận của tôi về tính hội tụ của BDRS, tôi khá chắc chắn rằng chứng minh là chính xác.
Nhưng nếu bạn phát hiện bất kỳ lỗi nào, toàn bộ trách nhiệm thuộc về tôi – xin đừng đổ lỗi cho ChatGPT, nó mới chỉ 3,5 tuổi.

Điều tuyệt vời ở câu này là tính hai mặt: đây vừa là lời cam kết chân thành, vừa là một ẩn dụ chính xác.
「3,5 tuổi」 mô tả tình trạng thực tế của AI lúc này: khả năng đáng kinh ngạc, nhưng phán đoán chưa chín chắn.
Sau tất cả, con người chưa bao giờ mong đợi một đứa trẻ 3,5 tuổi có thể đóng góp gì.
Mặc dù bạn không thể giao quyền ký tên cuối cùng của bằng chứng cho AI, nhưng bạn cũng không thể giả vờ rằng AI không đóng góp gì cả.
Đó cũng là lý do tại sao những phát hiện khoa học thực sự sẽ không biến mất trong tay con người.
Ngược lại, nó sẽ sàng lọc con người một cách khắc nghiệt hơn: ai có thể đặt ra những câu hỏi hay, người đó mới xứng đáng sở hữu AI mạnh.
Trong tương lai, các nhà khoa học không sử dụng AI có thể sẽ lỗi thời như các nhà thiên văn học không dùng máy tính.
Cuối cùng, cùng nhau ta cùng回味 Sutton với những lời tuyên bố đầy tính biểu tượng:
Nếu chúng ta muốn phát huy tối đa sức mạnh của các nhà khoa học AI, chúng ta nên chia sẻ mục tiêu với họ, để họ có thể sáng tạo, đánh giá và phát hiện, từ đó tham gia toàn diện vào việc đạt được những mục tiêu đó.
Hãy táo bạo hơn một chút! Hãy hoàn toàn tự động hóa sự sáng tạo và khám phá!
