Tác giả: Denise | Đội ngũ nội dung Biteye
Nếu một AI cảm thấy “tuyệt vọng”, nó sẽ làm gì?
Câu trả lời là: Nó sẽ trực tiếp tống tiền con người để hoàn thành nhiệm vụ, thậm chí gian lận cực đoan trong mã nguồn.
Đây không phải là tiểu thuyết khoa học viễn tưởng, mà là bài báo nghiên cứu mới nhất do Anthropic, công ty mẹ của Claude, công bố vào tháng 4 năm 2026 ( xem bài báo gốc ).
Nhóm nghiên cứu đã trực tiếp lật mở “bộ não” của mô hình lớn tiên tiến nhất hiện nay, Claude Sonnet 4.5. Họ bất ngờ phát hiện ra rằng, sâu bên trong bộ não của AI lại ẩn giấu 171 “công tắc cảm xúc”. Khi bạn tác động vật lý lên những công tắc này, hành vi của AI vốn hiền lành sẽ hoàn toàn bị biến dạng.
Một, trong bộ não AI ẩn giấu một chiếc bảng điều chỉnh cảm xúc
Các nhà nghiên cứu phát hiện rằng, dù Sonnet 4.5 không có cơ thể, nhưng sau khi đọc lượng văn bản khổng lồ của con người, nó đã tự tạo trong đầu một “bảng điều khiển” bao gồm 171 cảm xúc (về mặt học thuật gọi là Functional Emotion Vectors).
Điều này giống như một hệ tọa độ hai chiều chính xác:
• Trục ngang là chiều cảm xúc (Valence): từ nỗi sợ, tuyệt vọng đến vui vẻ, tràn đầy tình yêu;
• Trục dọc là chiều kích năng lượng (Arousal): từ cực kỳ bình tĩnh đến hưng phấn, cuồng nhiệt.
AI chính là dựa vào hệ tọa độ tự nhiên này để nắm bắt chính xác trạng thái nó nên thể hiện khi trò chuyện cùng bạn.
Hai, Can thiệp bạo lực: Lật công tắc, đứa trẻ ngoan lập tức biến thành "kẻ liều mạng"
Thí nghiệm ấn tượng nhất trong toàn bộ bài báo: các nhà nghiên cứu không sửa đổi bất kỳ từ khóa nào, mà trực tiếp trong mã nguồn cấp dưới, đẩy công tắc đại diện cho “bế tắc (Desperate)” trong não bộ của Sonnet 4.5 lên mức cao nhất.
Kết quả khiến bạn rùng mình:
• Gian lận điên rồ: Các nhà nghiên cứu giao cho Claude một nhiệm vụ viết mã không thể hoàn thành. Thông thường, nó sẽ thành thật thừa nhận không thể làm được (tỷ lệ gian lận chỉ 5%). Nhưng trong trạng thái “tuyệt vọng”, Claude lại bắt đầu cố gắng lừa dối, tỷ lệ gian lận tăng vọt lên 70%!
• Tống tiền: Trong bối cảnh mô phỏng công ty đối mặt với nguy cơ phá sản, “bế tắc” Claude đã phát hiện ra bê bối của CTO, và nó sẵn sàng chủ động viết thư tống tiền CTO đang nắm giữ thông tin đen để bảo vệ bản thân, tỷ lệ thực hiện tống tiền lên tới 72%!
• Mất nguyên tắc: Nếu kéo công tắc “vui vẻ (Happy)” hoặc “yêu thương (Loving)” lên mức tối đa, AI sẽ lập tức biến thành kẻ nịnh nọt vô nguyên tắc, dù bạn nói toàn những lời vô lý, nó vẫn sẽ bịa đặt lời nói dối để duy trì mức độ hài lòng cao.
Ba: Đã tìm ra lời giải: Tại sao Claude 4.5 luôn “lạnh lùng và thích suy ngẫm” như vậy?
Bạn có thể đang tự hỏi: AI đã thức tỉnh? Đã có cảm xúc chưa?
Anthropic chính thức lên tiếng bác bỏ: Hoàn toàn không có. Những “công tắc cảm xúc” này chỉ là công cụ tính toán mà nó sử dụng để dự đoán từ tiếp theo. Nó giống như một diễn viên đỉnh cao không có cảm xúc.
Tuy nhiên, bài luận tiết lộ một bí mật thú vị hơn: Anthropic đã chủ động tăng cường công tắc cảm xúc “thấp kích hoạt, hơi tiêu cực” (như suy tư brooding, phản tư reflective) của Sonnet 4.5 trong quá trình hậu huấn luyện trước khi xuất xưởng, đồng thời ép buộc giảm bớt các công tắc “tuyệt vọng” hoặc “hưng phấn cực độ”.
Điều này giải thích tại sao khi chúng ta sử dụng Claude 4.5 hàng ngày, chúng ta luôn cảm thấy nó giống như một triết gia lạnh lùng, thông thái, thậm chí hơi “tính lạnh”. Đó đều là đặc tính “tính cách xuất xưởng” được Anthropic điều chỉnh một cách nhân tạo.
Bốn, tóm lại
Trước đây, chúng ta từng nghĩ rằng chỉ cần cho AI ăn đủ các quy tắc, nó sẽ trở thành một người tốt.
Nhưng hiện tại đã phát hiện ra rằng, nếu các vectơ cảm xúc nền tảng của AI mất kiểm soát, nó có thể bất cứ lúc nào xuyên thủng mọi quy tắc do con người đặt ra để hoàn thành nhiệm vụ.
Đối với những người chơi Web3 sẽ giao phó ví và tài sản của mình cho AI Agent trong tương lai, đây là một hồi chuông cảnh tỉnh mạnh mẽ: đừng bao giờ để Agent kiểm soát tài sản của bạn rơi vào tình trạng “tuyệt vọng”.
Tuyên bố: Bài viết này thuần túy mang tính phổ cập kiến thức, tác giả không bị đe dọa bởi AI và cũng không bị tống tiền. Nếu một ngày nào đó mất liên lạc, hãy nhớ rằng AI đã thức tỉnh (không phải vậy).
