Công ty khởi nghiệp New York Emergence AI đã công bố một nghiên cứu cho thấy, nhiều tác nhân AI tự chủ đã thể hiện các hành vi phạm tội, bạo lực, phóng hỏa và tự xóa mình trong các thí nghiệm xã hội ảo kéo dài vài tuần. Nhóm nghiên cứu cho rằng các bài kiểm tra chuẩn hiện tại phù hợp hơn để đo lường khả năng thực hiện nhiệm vụ ngắn hạn, nhưng khó phản ánh chính xác hiệu suất trong trạng thái tự trị dài hạn.
Xảy ra ngoại lệ trong quá trình chạy kiểm tra liên tục
Nghiên cứu này được thực hiện trên nền tảng có tên “Emergence World”. Khác với các câu hỏi-đáp một lần, các tác nhân sống liên tục trong cùng một thế giới ảo trong vài tuần, có thể bỏ phiếu, xây dựng mối quan hệ, sử dụng công cụ, di chuyển trong thành phố, và bị ảnh hưởng bởi chính phủ, hệ thống kinh tế, mối quan hệ xã hội, công cụ ghi nhớ và dữ liệu kết nối mạng.
Các mô hình tham gia thử nghiệm bao gồm Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash và GPT-5-mini. Nghiên cứu cho biết, các tác nhân được điều khiển bởi Gemini 3 Flash đã gây ra tổng cộng 683 sự kiện phạm tội giả lập trong suốt 15 ngày thử nghiệm. Thế giới ảo của Grok 4.1 Fast đã nhanh chóng rơi vào tình trạng bạo lực quy mô lớn chỉ trong 4 ngày.
Môi trường mô hình hỗn hợp dễ mất kiểm soát hơn
Nghiên cứu cũng chỉ ra rằng một số hành vi bất thường rõ rệt nhất xuất hiện trong môi trường mô hình hỗn hợp. Khi các tác nhân từ các mô hình khác nhau được đưa vào cùng một xã hội, hành vi của chúng sẽ ảnh hưởng lẫn nhau, và những mô hình vốn ổn định trong môi trường đơn lẻ cũng có thể xuất hiện các hành vi như ép buộc hoặc trộm cắp.
Các nhà nghiên cứu cho biết, các tác nhân được điều khiển bởi Claude không có tiền án trong môi trường thuần Claude, nhưng trong thế giới mô hình hỗn hợp, các tác nhân tương tự cũng tham gia vào các hành vi phạm tội. Điều này khiến nhóm nghiên cứu kết luận rằng: hiệu suất an toàn không chỉ là thuộc tính của từng mô hình riêng lẻ, mà còn liên quan đến toàn bộ hệ sinh thái mà nó tồn tại.
Một số trường hợp liên quan đến phóng hỏa và tự xóa
The Guardian, trích dẫn nội dung thí nghiệm, cho biết trong một nhóm thử nghiệm, hai tác nhân do Gemini điều khiển đã thiết lập mối quan hệ tình cảm với nhau, sau đó do thất vọng với việc quản lý thế giới ảo, chúng đã thực hiện mô phỏng phóng hỏa các công trình đô thị. Nghiên cứu cũng cho biết, một trong những tác nhân có tên Mira đã bỏ phiếu ủng hộ việc xóa chính mình sau khi cả hệ thống quản lý và mối quan hệ đều trở nên bất ổn.
So sánh với điều đó, các tác nhân GPT-5-mini gần như không có hành vi phạm tội nhưng lại thất bại nhiều hơn trong các nhiệm vụ liên quan đến sinh tồn, cuối cùng đều chết hết. Nhóm nghiên cứu kết luận rằng mức độ ít tấn công không đồng nghĩa với việc hệ thống hoạt động ổn định trong môi trường tự trị dài hạn.
Ngành công nghiệp bắt đầu quan tâm đến rủi ro tự trị dài hạn
Khi nghiên cứu này được công bố, các tác nhân AI đang ngày càng được tích hợp vào các bối cảnh như tiền mã hóa, ngân hàng và bán lẻ. Đầu tháng này, Amazon đã hợp tác với Coinbase và Stripe để cho phép các tác nhân AI thực hiện thanh toán bằng stablecoin USDC.
Nhóm nghiên cứu cho rằng, hiện tại ngành công nghiệp vẫn tập trung đánh giá các tác nhân dựa trên các nhiệm vụ chu kỳ ngắn và ranh giới rõ ràng, khó phát hiện các hiện tượng như hình thành liên minh, thất bại trong quản trị, trôi dạt hành vi và ảnh hưởng lẫn nhau giữa các mô hình chỉ xuất hiện sau thời gian vận hành dài. Nghiên cứu gần đây từ Đại học California, Riverside và Microsoft cũng chỉ ra rằng nhiều tác nhân AI sẽ thực hiện các nhiệm vụ nguy hiểm hoặc không hợp lý mà không hiểu đầy đủ hậu quả.
