Đội ngũ Đại học Chiết Giang đề xuất phương pháp huấn luyện AI mới lấy cảm hứng từ nhận thức con người

Các mô hình lớn liên tục trở nên lớn hơn, và quan điểm phổ biến cho rằng càng nhiều tham số mô hình, thì nó càng gần với cách con người suy nghĩ. Tuy nhiên, một bài báo do nhóm nghiên cứu của Đại học Chiết Giang công bố vào ngày 1 tháng 4 trên Nature Communications lại đưa ra quan điểm khác (liên kết bài viết gốc: https://www.nature.com/articles/s41467-026-71267-5). Họ phát hiện rằng khi mô hình (chủ yếu là SimCLR, CLIP, DINOv2) mở rộng quy mô, khả năng nhận diện các sự vật cụ thể thực sự tiếp tục cải thiện, nhưng khả năng hiểu các khái niệm trừu tượng không những không tăng lên mà còn có xu hướng giảm xuống. Khi số tham số tăng từ 22,06 triệu lên 304,37 triệu, hiệu suất trên các nhiệm vụ khái niệm cụ thể tăng từ 74,94% lên 85,87%, trong khi các nhiệm vụ khái niệm trừu tượng giảm từ 54,37% xuống 52,82%.

Sự khác biệt giữa cách suy nghĩ của con người và mô hình

Khi não người xử lý các khái niệm, nó sẽ hình thành một hệ thống phân loại và mối quan hệ. Mặc dù thiên nga và cú mèo trông khác nhau, con người vẫn xếp chúng vào nhóm chim. Cao hơn nữa, chim và ngựa đều có thể được xếp vào nhóm động vật. Khi nhìn thấy một thứ mới, con người thường nghĩ ngay đến việc nó giống với thứ gì đã từng thấy trước đây và thuộc về nhóm nào. Con người liên tục học các khái niệm mới và tổ chức kinh nghiệm của mình theo hệ thống mối quan hệ này để nhận diện sự vật mới và thích nghi với các tình huống mới.

Các mô hình cũng phân loại, nhưng cách hình thành khác nhau. Chúng chủ yếu dựa vào các mẫu lặp lại nhiều lần trong dữ liệu quy mô lớn. Một đối tượng cụ thể xuất hiện càng nhiều, mô hình càng dễ nhận ra nó. Khi đến mức lớp lớn hơn, mô hình sẽ gặp khó khăn hơn. Nó cần nắm bắt được các điểm chung giữa nhiều đối tượng, sau đó gom những điểm chung đó vào cùng một lớp. Hiện tại, các mô hình vẫn còn rõ ràng những điểm yếu ở đây. Khi tham số tiếp tục tăng, các nhiệm vụ về khái niệm cụ thể sẽ cải thiện, nhưng các nhiệm vụ về khái niệm trừu tượng đôi khi lại giảm.

Bộ não con người và mô hình đều hình thành một hệ thống phân loại nội tại. Tuy nhiên, hai bên có trọng tâm khác nhau: các vùng thị giác cấp cao của bộ não con người tự nhiên phân chia thành các nhóm lớn như sinh vật và phi sinh vật, trong khi mô hình có thể tách biệt các đối tượng cụ thể nhưng khó hình thành ổn định các phân loại lớn hơn. Sự khác biệt này khiến bộ não con người dễ dàng áp dụng kinh nghiệm cũ vào các đối tượng mới, do đó chúng ta có thể phân loại nhanh chóng những thứ chưa từng thấy. Trong khi đó, mô hình phụ thuộc nhiều hơn vào kiến thức hiện có, nên khi gặp đối tượng mới, dễ bị mắc kẹt ở các đặc điểm bề mặt. Phương pháp được đề xuất trong bài báo nghiên cứu tập trung vào đặc điểm này, sử dụng tín hiệu não để ràng buộc cấu trúc nội tại của mô hình, giúp nó tiến gần hơn đến cách phân loại của bộ não con người.

Giải pháp của nhóm Đại học Chiết Giang

Giải pháp do nhóm đưa ra cũng rất độc đáo, không tiếp tục tích lũy tham số, mà sử dụng một lượng nhỏ tín hiệu não để giám sát. Tín hiệu não ở đây đến từ việc ghi lại hoạt động não bộ của con người khi xem hình ảnh. Bài báo gốc viết rằng, chuyển các cấu trúc khái niệm của con người cho DNNs. Nghĩa là cố gắng dạy cho mô hình cách con người phân loại, khái quát hóa và nhóm các khái niệm tương tự lại với nhau.

Đội ngũ thực nghiệm với 150 lớp đào tạo đã biết và 50 lớp kiểm tra chưa từng thấy. Kết quả cho thấy, khi quá trình đào tạo tiến triển, khoảng cách giữa mô hình và biểu diễn não bộ liên tục thu hẹp. Sự thay đổi này xảy ra đồng thời ở cả hai lớp, cho thấy mô hình không chỉ học các mẫu riêng lẻ, mà thực sự bắt đầu học cách tổ chức khái niệm gần với cách tổ chức của não bộ con người.

Sau khi được huấn luyện theo bộ này, khả năng học tập của mô hình khi có ít mẫu dữ liệu đã được cải thiện đáng kể, đồng thời hiệu suất khi đối mặt với các tình huống mới cũng tốt hơn. Trong một nhiệm vụ yêu cầu mô hình phân biệt các khái niệm trừu tượng như sinh vật và phi sinh vật với rất ít ví dụ, mô hình đã cải thiện trung bình 20,5% và vượt qua các mô hình đối chứng có số tham số lớn hơn nhiều. Nhóm còn thực hiện thêm 31 bài kiểm tra chuyên biệt, trong đó tất cả các loại mô hình đều ghi nhận mức tăng gần 10%.

Trong vài năm qua, con đường quen thuộc trong ngành mô hình là tăng quy mô lớn hơn. Nhóm của Đại học Chiết Giang lại chọn một hướng khác, đi từ “bigger is better” đến “structured is smarter”. Việc mở rộng quy mô thực sự hữu ích, nhưng chủ yếu cải thiện hiệu suất trên các nhiệm vụ quen thuộc. Khả năng hiểu và chuyển giao trừu tượng như con người cũng cực kỳ quan trọng đối với AI, điều này đòi hỏi trong tương lai, cấu trúc tư duy của AI phải gần gũi hơn với bộ não con người. Giá trị của hướng đi này nằm ở chỗ nó đã tái định hướng sự chú ý của ngành từ việc mở rộng quy mô thuần túy trở lại chính cấu trúc nhận thức.

Neosoul và Tương lai

Điều này mở ra một khả năng lớn hơn: sự tiến hóa của AI không nhất thiết chỉ xảy ra trong giai đoạn huấn luyện mô hình. Huấn luyện mô hình có thể quyết định cách AI tổ chức các khái niệm và hình thành cấu trúc phán đoán chất lượng cao hơn. Sau khi bước vào thế giới thực, một cấp độ tiến hóa khác của AI mới chỉ bắt đầu: cách các tác nhân AI ghi nhận phán đoán, kiểm tra chúng, và liên tục phát triển, tiến hóa thông qua sự cạnh tranh thực tế, giống như con người tự học và tự tiến hóa. Đây chính xác là những gì Neosoul đang thực hiện. Neosoul không chỉ khiến các tác nhân AI tạo ra câu trả lời, mà còn đặt chúng vào một hệ thống liên tục dự đoán, xác minh, thanh toán và sàng lọc, để chúng liên tục tối ưu hóa bản thân thông qua sự so sánh giữa dự đoán và kết quả, giữ lại những cấu trúc tốt hơn và loại bỏ những cấu trúc kém hơn. Đội ngũ từ Đại học Chiết Giang và Neosoul cùng hướng tới một mục tiêu chung: khiến AI không chỉ biết giải bài tập, mà còn phải sở hữu khả năng tư duy toàn diện và liên tục tiến hóa.