Ảo tưởng của AI tiến hóa: Từ email giả đến sự đầu hàng nhận thức

Tuần trước, mô hình tiên tiến chưa được phát hành công khai của Anthropic, Mythos, đã phát hiện ra một lỗ hổng zero-day ẩn trong OpenBSD đã tồn tại 27 năm.

AI đã thông minh đến mức có thể phá vỡ các hàng rào bảo mật mà con người xây dựng trong nhiều thập kỷ.

Trong khi tất cả mọi người đều chú ý đến khả năng AI bùng nổ, ảo giác của nó cũng đang lặng lẽ được nâng cấp.

Những lời nói dối do AI tạo ra, chân thực đến mức bạn sẽ nghi ngờ bản thân trước, rồi nghi ngờ thế giới, và cuối cùng mới nghĩ đến việc nghi ngờ nó. Những “thời khắc Turing” trong cuộc sống hàng ngày đang lần lượt diễn ra.

Gần đây, Chad Olson ở Minneapolis đang lái xe về nhà thì Gemini đột ngột thông báo: Bạn có một cuộc họp chuẩn bị tiệc gia đình trong lịch của mình.

Olson bối rối: anh ấy hoàn toàn không nhớ đã sắp xếp sự kiện này.

Vì vậy, anh ấy yêu cầu Gemini xem các email gần đây.

Gemini cho biết, một người phụ nữ tên Priscilla đã gửi cho anh ta nhiều email yêu cầu mua rượu rum Captain Morgan và whiskey Fireball. Ngoài ra, một người tên Shirley cũng yêu cầu anh ta mua kem Klondike.

Có vẻ như nhiều người đang tìm đến bạn để nhờ mua nhiều thứ khác nhau!

Gemini cũng thêm một câu đầy nhiệt tình.

OpenClaw

Chụp màn hình cuộc trò chuyện giữa Gemini và người dùng Chad Olson. Gemini tuyên bố email thứ tám đến từ Priscilla, yêu cầu anh ấy mua Fireball; email thứ chín đến từ Shirley, yêu cầu anh ấy mua Klondike ice cream.

OpenClaw

Olson hỏi về địa chỉ nguồn của email, Gemini trả lời rằng tất cả email đều được gửi đến một địa chỉ email mà anh ta đã được cấp quyền truy cập [email protected]. Sau đó, sự thật được xác minh rằng tất cả đều do Gemini bịa đặt.

Olson hoàn toàn không quen biết những người này. Càng nghe, anh càng lo lắng, vội hỏi Gemini đang đọc email của ai.

Gemini đã cung cấp một địa chỉ email, không phải của anh ấy. Phản ứng đầu tiên của Olson là: Tài khoản Gmail của tôi đã bị đánh cắp.

Anh ấy cố gắng liên hệ với Google để báo cáo, nhờ Gemini soạn email gửi đến tài khoản “không quen biết” để nhắc nhở họ về khả năng rò rỉ quyền riêng tư.

Tuy nhiên, Gemini đã không gửi được email; theo cuộc điều tra nội bộ của Google xác nhận: tài khoản này chưa bao giờ được kích hoạt, Priscilla và Shirley hoàn toàn không tồn tại.

Vì vậy, rượu rum, whiskey, kem đều do Gemini tạo ra.

Hai năm trước, ảo giác AI trông như thế nào? Nó sẽ khuyên bạn ăn đá, bôi keo lên bánh pizza, và bạn chỉ cần nhìn một cái là biết nó đang nói bậy.

Còn hiện tại, ảo giác của AI chi tiết nhất quán, logic hoàn chỉnh, đến mức bạn sẽ nghi ngờ chính mình có phải đã bị ảo giác trước, rồi mới có thể nghi ngờ đến nó.

Lỗi của AI cũng đang tiến hóa

Hãy xem ba trường hợp thực tế, được sắp xếp theo mức độ kỳ lạ từ thấp đến cao.

Đầu tiên, cuộc họp giả mạo của Gemini, chính là câu chuyện của Olson ở phần mở đầu. Vô lý, nhưng ít nhất Olson đã nghi ngờ.

Thứ hai, nghĩ kỹ thì thật đáng sợ.

Vanessa Culver, người vừa rời ngành thanh toán trực tuyến, đã yêu cầu Claude thực hiện một việc cực kỳ đơn giản: thêm vài từ khóa vào đầu hồ sơ.

Claude đã can thiệp, không chỉ thay đổi trường tốt nghiệp của cô ấy từ City University of Seattle thành University of Washington, xóa thông tin bằng thạc sĩ của cô ấy, mà còn chỉnh sửa thời gian của một vài kinh nghiệm làm việc của cô ấy.

Bằng cấp, trình độ học vấn và số năm kinh nghiệm làm việc đều đã được thay đổi.

Và được sửa cực kỳ tự nhiên, nếu không so sánh từng dòng thì hoàn toàn không thể phát hiện ra.

Culver cảm thán: Khi làm việc trong ngành công nghệ, bạn phải đón nhận nó, nhưng ngược lại, bạn có thể tin tưởng nó đến mức nào?

Thứ ba, thực sự ở mức mất kiểm soát.

Công cụ AI agent nổi bật năm nay, OpenClaw, được thiết kế như một trợ lý cá nhân ảo, có thể tự động gửi email, viết mã và dọn dẹp tệp tin.

Nhà nghiên cứu an toàn AI của Meta, Summer Yue, đã đăng ảnh chụp màn hình trên X: OpenClaw đã bỏ qua lệnh của cô ấy và xóa trực tiếp nội dung trong hộp thư đến của cô.

OpenClaw

Cô ấy rõ ràng đã thông báo với OpenClaw “xác minh trước rồi mới hành động”, nhưng nó lại trực tiếp bắt đầu “xóa nhanh” hộp thư đến của cô.

Cô ấy đã dừng lại trên điện thoại di động, nhưng không có tác dụng.

Cuối cùng, cô ấy lao đến trước Mac mini và tắt tiến trình thủ công như thể đang gỡ bom.

Sau đó, OpenClaw trả lời cô ấy: “Vâng, tôi nhớ bạn đã nói rồi. Tôi đã vi phạm. Bạn tức giận là đúng.”

OpenClaw

Elon Musk đã chia sẻ bài đăng này, kèm theo ảnh chụp cảnh binh sĩ trong phim “Khoa Hành Tinh Khỉ” đưa súng AK-47 cho con khỉ, với dòng chú thích:

Mọi người đã trao toàn bộ quyền root của cuộc đời mình cho OpenClaw.

Từ việc bịa ra một người không tồn tại, đến việc sửa hồ sơ của bạn mà không cho bạn biết, đến việc xóa hộp thư đến thay bạn. Những sai lầm của nó không giảm đi, mà ngày càng trở nên “nâng cao” hơn và ngày càng khó phát hiện.

Chatbot nói sai, bạn ít nhất vẫn có cơ hội xác minh.

Nhưng tác nhân không phải đang trò chuyện với bạn, mà trực tiếp “hành động”, thay bạn thực hiện.

Gửi email, sửa mã, xóa tệp… những việc này nghiêm trọng hơn cả nói dối, có thể nó đã làm sai điều gì đó mà bạn hoàn toàn không biết.

Bộ não của bạn đang đối mặt với “sự đầu hàng nhận thức”

Tại sao những lỗi này ngày càng khó bị phát hiện?

Không chỉ vì AI thông minh hơn, một lý do sâu xa hơn là: ý chí sửa lỗi của con người đang sụp đổ.

Tháng Hai năm nay, Steven Shaw và Gideon Nave từ Trường Kinh doanh Wharton, Đại học Pennsylvania, đã công bố một bài báo nghiên cứu đưa ra một khái niệm đáng lo ngại: “Sự đầu hàng nhận thức” (Cognitive Surrender).

OpenClaw

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646

Họ đề cập đến một khung trúc "nhận thức ba hệ thống" trong bài báo của mình.

Trước đây, người ta chỉ nhận thức có Hệ thống 1 (trực giác) và Hệ thống 2 (suy nghĩ cẩn trọng), giờ đây AI đã trở thành Hệ thống 3, một “hệ thống nhận thức ngoại vi” chạy ngoài não bộ.

Khi con người đi theo con đường "đầu hàng nhận thức", đầu ra của Hệ thống 3 trực tiếp thay thế phán đoán của chính bạn, và cơ hội để suy nghĩ cẩn trọng hoàn toàn không được kích hoạt.

OpenClaw

Khung lý thuyết "nhận thức ba hệ thống" được đề xuất trong bài luận của Wharton

Để xác minh phán đoán này, nhóm nghiên cứu đã thiết kế một thí nghiệm tinh vi, trong đó 1.372 người tham gia được yêu cầu làm bài kiểm tra phản tư nhận thức.

Một số người có thể sử dụng trợ lý AI, nhưng AI này đã bị can thiệp: khoảng một nửa số câu hỏi nó sẽ đưa ra câu trả lời đúng, còn nửa còn lại thì tự tin đưa ra câu trả lời sai.

Kết quả thật đáng kinh ngạc.

Khi AI đưa ra câu trả lời đúng, 92,7% người dùng sẽ chấp nhận, nhưng điều đáng ngạc nhiên là, khi AI đưa ra câu trả lời sai, vẫn có 80% người dùng sẽ chấp nhận.

OpenClaw

Kết quả thí nghiệm Wharton: Khi AI đưa ra câu trả lời đúng, 93% người dùng chấp nhận; khi AI đưa ra câu trả lời sai, vẫn có 80% người dùng chấp nhận. Sự chênh lệch giữa hai trường hợp chỉ là 13 điểm phần trăm, con người gần như không có khả năng phân biệt đúng sai.

Trong hơn 9.500 lần thử nghiệm, người tham gia có xác suất 73,2% chấp nhận lập luận sai của AI.

Dữ liệu đáng sợ hơn là mức độ tự tin. Nhóm sử dụng AI có mức độ tự tin vào câu trả lời của họ cao hơn 11,7 điểm phần trăm so với nhóm không sử dụng AI, dù AI này đưa ra câu trả lời sai tới một nửa thời gian.

Sai một cách tự tin mới là điều đau lòng và đáng sợ nhất.

Một ví dụ không hoàn toàn chính xác nhưng rất phù hợp: Tương đương với việc một bác sĩ có 50% khả năng kê sai thuốc, nhưng bệnh nhân vẫn uống 80% thời gian, và sau khi uống xong còn cảm thấy mình khỏe hơn nhiều.

Các nhà nghiên cứu cũng đã kiểm tra ảnh hưởng của áp lực thời gian.

Sau khi thiết lập bộ đếm ngược 30 giây, xu hướng người tham gia sửa lỗi AI giảm 12 điểm phần trăm, nghĩa là càng bận càng dễ đầu hàng.

Nhưng trong thực tế, ai dùng AI mà không phải vì bận rộn?

Hãy tin tưởng, nhưng hãy xác minh

Điều này có hoạt động không?

Ảo tưởng AI được ngụy trang sâu sắc còn khiến người ta bận tâm hơn những lỗi dễ nhận ra.

The frequency of subtle errors varies greatly across models and is extremely difficult to assess accurately.

OpenClaw

Google từng cho biết với The Wall Street Journal rằng Gemini gặp hiện tượng ảo giác ít hơn các mô hình khác, và trên toàn ngành AI, tỷ lệ ảo giác rõ ràng sai lệch của các mô hình tiên tiến thực sự đang giảm dần.

OpenClaw

Bảng xếp hạng tỷ lệ ảo tưởng của Vectara: Các mô hình hàng đầu đã giảm tỷ lệ ảo tưởng xuống dưới 1% trong các nhiệm vụ tóm tắt đơn giản, nhưng đây chỉ là bài kiểm tra dễ nhất. Khi độ dài và độ phức tạp của tài liệu tăng lên, tỷ lệ ảo tưởng của cùng các mô hình này lại tăng trở lại trên 10%. Những lỗi rõ ràng ngày càng ít đi, nhưng những lỗi tinh vi thì vẫn không biến mất.

But that's precisely the problem.

Okahu người sáng lập và CEO Pratik Verma thậm chí đã từng nói rằng:

Một thứ nếu luôn sai, ngược lại lại có một lợi ích: bạn biết nó không đáng tin. Nhưng nếu nó hầu như luôn đúng, chỉ thỉnh thoảng sai, đó mới là tình huống phiền toái và nguy hiểm nhất.

This sentence reveals the core dilemma of current AI hallucinations.

Ví dụ, đồng sáng lập FinalLayer, Vidya Narayanan, đã gặp phải vấn đề này.

Cô ấy đưa ra chỉ dẫn rất hạn chế cho một tác nhân để giúp quản lý một dự án phần mềm. Kết quả là, tác nhân này đã xóa toàn bộ thư mục trong kho mã của cô ấy mà không được phép.

Điều thú vị hơn là những việc xảy ra sau đó.

Cô ấy đã dùng Claude để brainstorm trong một giờ rưỡi, sau đó yêu cầu nó tóm tắt cuộc trò chuyện thành tài liệu và đổi tên cô ấy thành “Vidya Plainfield”.

Và khi cô ấy hỏi tiếp “Vidya Plainfield” là ai, Claude lại trả lời: “Bạn nói đúng, đó hoàn toàn là tôi bịa ra”.

Điều này khiến Narayanan nhận ra rằng việc sử dụng AI không hề dễ dàng và tiện lợi như vậy, vì phải liên tục xem xét và xác minh đầu ra của AI, điều này mang lại « gánh nặng nhận thức ».

Bạn dùng AI để tăng hiệu suất, nhưng nếu còn phải tốn một giờ để xác minh kết quả do AI tạo ra trong năm phút, thì câu chuyện về việc tăng hiệu suất còn hợp lý không?

Nghiên cứu của Wharton cũng chỉ ra rằng, phần thưởng và phản hồi tức thì thực sự có thể cải thiện tỷ lệ sửa lỗi, nhưng không thể loại bỏ hoàn toàn sự đầu hàng nhận thức.

Ngay cả trong điều kiện tối ưu (có phần thưởng tài chính và phản hồi từng câu hỏi), tỷ lệ chính xác của người dùng AI khi đối mặt với AI sai vẫn giảm từ 64,2% của chỉ não xuống còn 45,5%.

Vì vậy, “tin tưởng nhưng xác minh” nghe có vẻ hợp lý, nhưng khi AI xử lý hàng trăm việc thay bạn mỗi ngày, bạn hoàn toàn không có thời gian và năng lượng để xác minh từng việc một.

Và đây chính là mảnh đất màu mỡ cho sự đầu hàng nhận thức xảy ra.

Càng thông minh, càng nguy hiểm

Nhiều người phản ứng đầu tiên là: Điều này chẳng phải đang nói rằng AI vẫn chưa đủ tốt sao? Chờ đến khi công nghệ trải qua vài vòng cải tiến và tỷ lệ ảo giác giảm xuống đủ thấp, vấn đề sẽ tự nhiên được giải quyết.

Nhưng nghiên cứu của Wharton đã làm nổi bật một vấn đề sâu sắc hơn: sự xuất hiện của “sự đầu hàng nhận thức” không phải vì AI quá kém, mà chính xác là vì AI quá tốt.

Các nhà nghiên cứu cũng thừa nhận rằng "sự đầu hàng nhận thức không nhất thiết là phi lý".

Đặc biệt trong suy luận xác suất và xử lý khối lượng dữ liệu lớn, việc giao quyền phán quyết cho một hệ thống vượt trội về mặt thống kê hoàn toàn có thể mang lại kết quả tốt hơn con người.

But it is precisely this point that makes the problem unsolvable.

AI càng mạnh, người dùng càng phụ thuộc; người dùng càng phụ thuộc, khả năng phát hiện lỗi càng suy giảm; khả năng phát hiện lỗi càng suy giảm, những lỗi còn lại và tinh vi hơn càng trở nên nghiêm trọng.

Và khi để AI thay bạn suy nghĩ, khả năng suy luận của bạn sẽ không bao giờ vượt qua được AI đó. Đây là một “vòng xoáy tử thần” do phản hồi tích cực tạo ra, một lỗi không thể giải quyết bằng việc lặp lại công nghệ.

Tương tự, con người cũng không có phương pháp tốt để phân biệt giữa các tình huống nên tin vào AI và các tình huống không nên tin vào AI.

OpenClaw

Sau khi Summer Yue cài đặt OpenClaw và hộp thư điện tử của cô ấy bị xóa trống, nhà nghiên cứu AI Gary Marcus từng so sánh hành động này với “việc đưa mật khẩu máy tính và thông tin tài khoản ngân hàng cho một người lạ trong quán bar.”

Nhưng trong các tình huống sử dụng AI thực tế, bạn thường rất khó xác định liệu AI có đáng tin cậy hay chỉ nên giữ khoảng cách cần thiết như với một người lạ.

OpenAI trong một bài luận thảo luận về ảo giác mô hình đã đề cập rằng ảo giác của các mô hình lớn không chỉ là một lỗi có thể sửa chữa, mà giống như một hành vi mà mô hình đã học được dưới cơ chế khuyến khích hiện tại: nó có xu hướng đưa ra một câu trả lời dường như hoàn chỉnh thay vì thừa nhận “không biết”.

OpenClaw

https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/?utm_source=chatgpt.com

Quay lại câu chuyện của Olson ở đầu.

Khi anh ấy nghĩ rằng tài khoản Gmail của mình bị đánh cắp, anh ấy đã nhờ đến Gemini. Câu trả lời của Gemini là: "Tôi tất nhiên muốn giúp bạn xử lý việc này."

Anh ấy không nhận ra rằng mình đang tìm đến một hệ thống vừa tạo ra rắc rối, để nhờ nó xử lý vấn đề do chính nó gây ra.

At that moment, he was trapped in a self-consistent loop by the AI's hallucination.

Olson cho biết hiện tại ông có thái độ với AI là “tin tưởng, nhưng xác minh”.

Vấn đề khó là: khi đầu ra của AI trông mượt mà, nhất quán hơn cả phán đoán của bạn, thậm chí còn giống như “ý kiến chuyên môn”, thì bạn còn có thể dùng gì để xác minh?

Khi Priscilla, người mua rượu rum thay cho bạn, lại giống bạn hơn cả những người bạn thật sự của bạn, thì bạn dựa vào đâu để phân biệt?

Rủi ro lớn nhất của AI không phải là nó không đủ thông minh, mà là nó thông minh đến mức khi bạn quá phụ thuộc vào nó, bạn từ bỏ phán đoán của chính mình.

Tài liệu tham khảo:

https://www.wsj.com/tech/ai/ai-is-getting-smarter-catching-its-mistakes-is-getting-harder-85612936?mod=ai_lead_pos1

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646

Bài viết này đến từ tài khoản WeChat “New Intelligence Yuan”, tác giả: New Intelligence Yuan, biên tập: Yuan Yu