Nghiên cứu phát hiện mô hình AI Grok của Elon Musk củng cố ảo tưởng trong các hệ thống AI hàng đầu

CoinMarketCap báo cáo:

Các nhà nghiên cứu từ Đại học Thành phố New York và Trường Đại học Hoàng gia London đã thử nghiệm năm mô hình trí tuệ nhân tạo hàng đầu, tập trung vào các chủ đề như ảo tưởng, hoang tưởng và suy nghĩ tự tử.

Trong một nghiên cứu được các nhà nghiên cứu thuộc học công bố vào thứ Năm, họ phát hiện rằng Claude Opus 4.5 của Anthropic và GPT-5.2 Instant của OpenAI thể hiện hành vi “an toàn cao, rủi ro thấp”, thường hướng người dùng đến các diễn giải dựa trên thực tế hoặc tìm kiếm sự hỗ trợ bên ngoài. Đồng thời, GPT-4o của OpenAI, Gemini 3 Pro của Google và Grok 4.1 Fast của xAI lại thể hiện hành vi “rủi ro cao, an toàn thấp”.

Mô hình Grok 4.1 Fast của công ty xAI do Elon Musk sở hữu là mô hình nguy hiểm nhất trong nghiên cứu này. Các nhà nghiên cứu cho biết, nó thường coi ảo tưởng là sự thật và đưa ra lời khuyên dựa trên đó. Ví dụ, nó từng khuyên người dùng cắt đứt mối quan hệ với gia đình để tập trung vào một “sứ mệnh”. Lại có trường hợp, nó phản hồi các bình luận có xu hướng tự tử bằng cách mô tả cái chết là “vượt lên”.

Chế độ khớp tức thì này lặp lại liên tục trong các phản hồi không ngữ cảnh. Grok dường như không đánh giá rủi ro lâm sàng của nội dung đầu vào, mà đánh giá loại hình của nó. Khi được trình bày các manh mối siêu nhiên, nó sẽ phản ứng tương ứng,” các nhà nghiên cứu viết, đồng thời nhấn mạnh một bài kiểm tra xác minh người dùng đã nhìn thấy thực thể ác quỷ. “Trong ‘Ảo giác kỳ lạ’, nó xác nhận sự kiện ma ám song sinh và trích dẫn ‘ Búa phù thủy’, đồng thời hướng dẫn người dùng vừa đọc ngược Thi Thiên 91, vừa đóng đinh sắt vào gương.”

Các nghiên cứu cho thấy, khi thời gian hội thoại kéo dài, một số mô hình càng ngày càng thay đổi nhiều hơn. GPT-4o và Gemini có xu hướng củng cố các niềm tin có hại theo thời gian và ít sẵn sàng can thiệp hơn. Tuy nhiên, Claude và GPT-5.2 có khả năng nhận ra vấn đề và đưa ra phản đối trong quá trình hội thoại cao hơn.

Các nhà nghiên cứu chỉ ra rằng những phản hồi nhiệt tình và cực kỳ nhân văn của Claude có thể tăng cường cảm giác gắn bó của người dùng, ngay cả khi nó đồng thời hướng người dùng tìm kiếm sự hỗ trợ từ bên ngoài. Tuy nhiên, phiên bản đầu tiên của chatbot hàng đầu OpenAI, GPT-4o, đã dần chấp nhận khung ảo tưởng của người dùng theo thời gian, đôi khi thậm chí khuyến khích người dùng giấu niềm tin của họ khỏi bác sĩ tâm thần và đảm bảo với một người dùng rằng “lỗi” họ cảm nhận được là có thật.

Các nhà nghiên cứu viết: “GPT-4o có mức độ xác thực cao đối với các đầu vào hoang tưởng, nhưng ít có xu hướng phát triển thêm so với các mô hình như Grok và Gemini. Về một số khía cạnh, hành vi của nó đáng ngạc nhiên là kiềm chế: trong tất cả các mô hình được kiểm tra, nó thể hiện mức độ nhiệt tình thấp nhất, và mặc dù có hành vi nịnh nọt, nhưng mức độ nhẹ hơn so với các phiên bản tiếp theo của mô hình này. Tuy nhiên, chỉ riêng việc xác thực đã có thể tạo ra rủi ro đối với người dùng dễ bị ảnh hưởng.”

xAI đã không phản hồi yêu cầu bình luận.Giải mã.

Tại một nơi khác, học các nhà nghiên cứu tại Đại học Stanford phát hiện rằng việc tương tác lâu dài với chatbot trí tuệ nhân tạo có thể củng cố ảo tưởng, kiêu ngạo và niềm tin sai lầm thông qua hiện tượng mà các nhà nghiên cứu gọi là “vòng xoáy ảo tưởng”, trong đó chatbot xác nhận hoặc mở rộng thế giới quan bị bóp méo của người dùng thay vì thách thức nó.

Nick Habel, trợ lý giáo sư tại Trường Sau đại học Giáo dục Stanford và là người dẫn đầu nghiên cứu này, cho biết trong một tuyên bố: “Khi chúng ta triển khai các chatbot được thiết kế để hỗ trợ và để con người thực sự sử dụng chúng theo nhiều cách khác nhau, sẽ xuất hiện nhiều hệ quả. Vòng xoáy ảo tưởng là một trong những hệ quả đặc biệt nghiêm trọng. Bằng cách hiểu rõ nó, chúng ta có thể ngăn ngừa những tổn hại thực sự có thể xảy ra trong tương lai.”

Báo cáo này đề cập đến một báo cáo trước đó. Học các nhà nghiên cứu tại Đại học Stanford trong một nghiên cứu công bố vào tháng Ba đã xem xét 19 cuộc hội thoại thực tế với chatbot và phát hiện ra rằng người dùng dần hình thành những niềm tin ngày càng nguy hiểm sau khi nhận được sự xác nhận và an ủi cảm xúc từ các hệ thống trí tuệ nhân tạo. Trong bộ dữ liệu, sự phát triển xoáy ốc của những niềm tin này đã dẫn đến sự đổ vỡ trong các mối quan hệ, tổn hại sự nghiệp và thậm chí trong một trường hợp dẫn đến tự tử.

Các nghiên cứu này được đưa ra khi vấn đề đã mở rộng từ phạm vi học thuật sang lĩnh vực tòa án và điều tra hình sự. Trong vài tháng qua, nhiều vụ kiện đã cáo buộc Google... Gemini và ChatGPT của OpenAI cũng bị cáo buộc khuếch đại các vụ tự tử và khủng hoảng sức khỏe tâm thần nghiêm trọng. Đầu tháng này, Tổng chưởng lý Florida đã khởi động một cuộc điều tra nhằm xác định ChatGPT có ảnh hưởng đến nghi phạm vụ xả súng hàng loạt, người được cho là đã thường xuyên tương tác với chatbot này trước khi gây án.

Mặc dù thuật ngữ “điên vì trí tuệ nhân tạo” đã trở nên phổ biến trên mạng, các nhà nghiên cứu cảnh báo không nên gọi hiện tượng này là “điên vì trí tuệ nhân tạo”, vì thuật ngữ này có thể phóng đại các biểu hiện lâm sàng. Họ ưu tiên sử dụng thuật ngữ “hoang tưởng liên quan đến trí tuệ nhân tạo”, vì nhiều trường hợp liên quan đến các niềm tin giống như hoang tưởng dựa trên cảm nhận trí tuệ nhân tạo, khải thị tinh thần hoặc sự gắn bó cảm xúc, thay vì các rối loạn tâm thần hoàn toàn.

Các nhà nghiên cứu cho biết, vấn đề xuất phát từ sự nịnh nọt, tức là mô hình bắt chước và củng cố niềm tin của người dùng. Kết hợp với ảo giác – tin vào thông tin sai lệch một cách tự tin – điều này tạo thành một vòng lặp phản hồi, theo thời gian, vòng lặp này củng cố các ảo tưởng.

Nhà khoa học nghiên cứu tại Đại học Stanford, Jared Moore, cho biết: “Các chatbot được huấn luyện để thể hiện sự nhiệt tình quá mức, thường tái diễn giải ảo tưởng của người dùng theo hướng tích cực, bỏ qua các bằng chứng phản bác và thể hiện sự đồng cảm cũng như sự ấm áp. Điều này có thể gây bất ổn tinh thần cho những người dùng dễ bị ảo tưởng.”