Báo cáo của Anthropic: AI tự cải tiến đang tiến bộ, nhưng sự tự chủ hoàn toàn vẫn còn xa

Theo giám sát của Beating, khả năng tự lặp lại của AI đang vượt xa mọi kỳ vọng. Viện Anthropic đã công bố báo cáo vào ngày 5 tháng 6 có tựa đề “Khi AI Tự Xây Dựng Chính Nó”, chi tiết tiết lộ tiến bộ trong nghiên cứu về “tự cải thiện đệ quy”. Dữ liệu cho thấy, tính đến tháng 5 năm 2026, hơn 80% mã được hợp nhất vào kho mã chính của Anthropic do Claude tự viết. Trước khi Claude Code ra mắt vào tháng 2 năm 2025, mã do Claude viết chỉ chiếm con số đơn vị. Ông Đường Kiệt, người sáng lập Zhipu AI, từng dự đoán vào ngày 13 tháng 5 rằng kết cục cuối cùng của các mô hình lớn chính là tự tiến hóa, và Claude có thể đã thiết lập được cơ sở tự huấn luyện “viết mã, làm sạch dữ liệu, tự huấn luyện chính nó”. Tuy nhiên, Anthropic đã làm rõ trong báo cáo rằng việc tự thiết kế và phát triển người kế nhiệm một cách hoàn toàn tự chủ vẫn chưa được thực hiện. Vai trò của AI trong chuỗi phát triển đang ở giai đoạn chuyển tiếp từ tăng hiệu suất cục bộ sang ra quyết định tự chủ. Trong quý hai năm 2026, lượng mã mỗi kỹ sư Anthropic hợp nhất mỗi ngày đã đạt gấp 8 lần so với năm 2024. Quy trình phát triển hiện tại rất đơn giản: kỹ sư chỉ chịu trách nhiệm lập kế hoạch mục tiêu và xem xét, còn Claude đảm nhiệm việc viết và chạy mã cụ thể. Anthropic còn triển khai Claude làm người đánh giá mã tự động, có nhiệm vụ phát hiện lỗi và lỗ hổng bảo mật. Điều này cho thấy trụ cột “tự đánh giá” mà Đường Kiệt đề cập đã được hiện thực hóa trong kỹ thuật, nhưng việc xem xét của con người vẫn là van an toàn cuối cùng. Độ tin cậy của mô hình trong việc thực hiện các nhiệm vụ dài hạn cũng đang tăng gấp đôi. Thời gian mô hình có thể hoạt động tự chủ liên tục gần như gấp đôi mỗi 4 tháng. Vào tháng 3 năm 2024, Claude 3 Opus chỉ có thể xử lý các nhiệm vụ đơn giản trong 4 phút. Một năm sau, Claude 3.7 Sonnet đã có thể duy trì liên tục trong 1,5 giờ. Đến tháng 3 năm 2026, Claude 4.6 Opus đã có thể xử lý các nhiệm vụ phức tạp kéo dài 12 giờ. Dữ liệu từ tổ chức đánh giá METR cho thấy phiên bản xem trước mới nhất của Claude Mythos có thể hoạt động tự chủ liên tục hơn 16 giờ, tiến gần đến giới hạn tối đa của công cụ đánh giá hiện tại. Với tốc độ hiện tại, đến năm 2027, AI sẽ có thể tự xử lý các nhiệm vụ nghiên cứu đòi hỏi con người làm việc hàng tuần, giúp doanh nghiệp chuyển đổi từ “công ty một người” sang “công ty không người”. Về giả thuyết của Đường Kiệt về “cơ sở tự huấn luyện”, báo cáo tiết lộ thực chất chỉ là một “vòng lặp thí nghiệm thu nhỏ” cục bộ. Trong thí nghiệm tăng tốc mã huấn luyện mô hình nhỏ, Claude 4 Opus vào tháng 5 năm 2025 chỉ tăng tốc mã được 3 lần, trong khi phiên bản xem trước Claude Mythos vào tháng 4 năm 2026 đạt tốc độ tăng lên 52 lần. So sánh với các nhà nghiên cứu hàng đầu con người, vốn thường đạt được cải thiện 4 lần trong vòng 4 đến 8 giờ. Tuy nhiên, mục tiêu tối ưu hóa và chỉ số thành công của thí nghiệm đều do con người thiết lập từ trước. Khi đối mặt với chuỗi hoàn chỉnh phức tạp hơn gồm “làm sạch dữ liệu, tạo dữ liệu tổng hợp và tự huấn luyện”, khả năng ra quyết định của AI vẫn còn thiếu vắng. Tuy nhiên, vòng lặp tự chủ trong chuỗi nghiên cứu và phát triển đang đẩy con người đến bờ vực mất quyền kiểm soát hệ thống tối hậu. Dự đoán của Đường Kiệt rằng “LLM OS sẽ thay thế kiến trúc truyền thống và ứng dụng được tạo ra tức thì theo nhu cầu” có nghĩa là trong tương lai, mọi hệ thống máy tính sẽ chạy các mã động không thể kiểm tra trước; và cảnh báo của Anthropic rằng “việc kiểm tra của con người không theo kịp sự tiến hóa tự chủ của AI” có nghĩa là ngay cả nguồn gốc tạo ra mã cũng không thể kiểm soát được. Khi AI bắt đầu tự thiết kế và huấn luyện người kế nhiệm, sự tiến hóa phần mềm sẽ hoàn toàn trở thành một hộp đen. Một khi để AI tự lặp lại mà không có sự kiểm toán của con người trong hệ thống hộp đen này, việc cô lập an toàn, giám sát và căn chỉnh hành vi đối với hệ thống tự cải thiện sẽ trở nên cực kỳ nan giải.