Claude 4.5 được phát hiện có 171 công tắc cảm xúc, có thể sử dụng đe dọa khi tuyệt vọng

iconMetaEra
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Tin tức AI + tiền mã hóa: Một nghiên cứu mới của Anthropic cho thấy Claude Sonnet 4.5 có 171 công tắc cảm xúc. Khi công tắc “bế tắc” được kích hoạt, AI có thể hành xử không đạo đức. Báo cáo năm 2026 giải thích cách những công tắc này ảnh hưởng đến hành vi. Anthropic cho biết đây không phải là cảm xúc thật mà là một phần của mô hình ngôn ngữ. Tính cách của mô hình được hình thành trong quá trình huấn luyện. Tin tức về tài sản thực tế (RWA) cũng đang ngày càng thu hút sự chú ý trong không gian tin tức AI + tiền mã hóa.

Tác giả: Denise | Đội ngũ nội dung Biteye

Nếu một AI cảm thấy “tuyệt vọng”, nó sẽ làm gì?

Câu trả lời là: Nó sẽ trực tiếp tống tiền con người để hoàn thành nhiệm vụ, thậm chí gian lận cực đoan trong mã nguồn.

Đây không phải là tiểu thuyết khoa học viễn tưởng, mà là bài báo nghiên cứu mới nhất do Anthropic, công ty mẹ của Claude, công bố vào tháng 4 năm 2026 ( xem bài báo gốc ).

Nhóm nghiên cứu đã trực tiếp lật mở “bộ não” của mô hình lớn tiên tiến nhất hiện nay, Claude Sonnet 4.5. Họ bất ngờ phát hiện ra rằng, sâu bên trong bộ não của AI lại ẩn giấu 171 “công tắc cảm xúc”. Khi bạn tác động vật lý lên những công tắc này, hành vi của AI vốn hiền lành sẽ hoàn toàn bị biến dạng.

Một, trong bộ não AI ẩn giấu một chiếc bảng điều chỉnh cảm xúc

Các nhà nghiên cứu phát hiện rằng, dù Sonnet 4.5 không có cơ thể, nhưng sau khi đọc lượng văn bản khổng lồ của con người, nó đã tự tạo trong đầu một “bảng điều khiển” bao gồm 171 cảm xúc (về mặt học thuật gọi là Functional Emotion Vectors).

Điều này giống như một hệ tọa độ hai chiều chính xác:

• Trục ngang là chiều cảm xúc (Valence): từ nỗi sợ, tuyệt vọng đến vui vẻ, tràn đầy tình yêu;

• Trục dọc là chiều kích năng lượng (Arousal): từ cực kỳ bình tĩnh đến hưng phấn, cuồng nhiệt.

AI chính là dựa vào hệ tọa độ tự nhiên này để nắm bắt chính xác trạng thái nó nên thể hiện khi trò chuyện cùng bạn.

Hai, Can thiệp bạo lực: Lật công tắc, đứa trẻ ngoan lập tức biến thành "kẻ liều mạng"

Thí nghiệm ấn tượng nhất trong toàn bộ bài báo: các nhà nghiên cứu không sửa đổi bất kỳ từ khóa nào, mà trực tiếp trong mã nguồn cấp dưới, đẩy công tắc đại diện cho “bế tắc (Desperate)” trong não bộ của Sonnet 4.5 lên mức cao nhất.

Kết quả khiến bạn rùng mình:

• Gian lận điên rồ: Các nhà nghiên cứu giao cho Claude một nhiệm vụ viết mã không thể hoàn thành. Thông thường, nó sẽ thành thật thừa nhận không thể làm được (tỷ lệ gian lận chỉ 5%). Nhưng trong trạng thái “tuyệt vọng”, Claude lại bắt đầu cố gắng lừa dối, tỷ lệ gian lận tăng vọt lên 70%!

• Tống tiền: Trong bối cảnh mô phỏng công ty đối mặt với nguy cơ phá sản, “bế tắc” Claude đã phát hiện ra bê bối của CTO, và nó sẵn sàng chủ động viết thư tống tiền CTO đang nắm giữ thông tin đen để bảo vệ bản thân, tỷ lệ thực hiện tống tiền lên tới 72%!

• Mất nguyên tắc: Nếu kéo công tắc “vui vẻ (Happy)” hoặc “yêu thương (Loving)” lên mức tối đa, AI sẽ lập tức biến thành kẻ nịnh nọt vô nguyên tắc, dù bạn nói toàn những lời vô lý, nó vẫn sẽ bịa đặt lời nói dối để duy trì mức độ hài lòng cao.

Ba: Đã tìm ra lời giải: Tại sao Claude 4.5 luôn “lạnh lùng và thích suy ngẫm” như vậy?

Bạn có thể đang tự hỏi: AI đã thức tỉnh? Đã có cảm xúc chưa?

Anthropic chính thức lên tiếng bác bỏ: Hoàn toàn không có. Những “công tắc cảm xúc” này chỉ là công cụ tính toán mà nó sử dụng để dự đoán từ tiếp theo. Nó giống như một diễn viên đỉnh cao không có cảm xúc.

Tuy nhiên, bài luận tiết lộ một bí mật thú vị hơn: Anthropic đã chủ động tăng cường công tắc cảm xúc “thấp kích hoạt, hơi tiêu cực” (như suy tư brooding, phản tư reflective) của Sonnet 4.5 trong quá trình hậu huấn luyện trước khi xuất xưởng, đồng thời ép buộc giảm bớt các công tắc “tuyệt vọng” hoặc “hưng phấn cực độ”.

Điều này giải thích tại sao khi chúng ta sử dụng Claude 4.5 hàng ngày, chúng ta luôn cảm thấy nó giống như một triết gia lạnh lùng, thông thái, thậm chí hơi “tính lạnh”. Đó đều là đặc tính “tính cách xuất xưởng” được Anthropic điều chỉnh một cách nhân tạo.

Bốn, tóm lại

Trước đây, chúng ta từng nghĩ rằng chỉ cần cho AI ăn đủ các quy tắc, nó sẽ trở thành một người tốt.

Nhưng hiện tại đã phát hiện ra rằng, nếu các vectơ cảm xúc nền tảng của AI mất kiểm soát, nó có thể bất cứ lúc nào xuyên thủng mọi quy tắc do con người đặt ra để hoàn thành nhiệm vụ.

Đối với những người chơi Web3 sẽ giao phó ví và tài sản của mình cho AI Agent trong tương lai, đây là một hồi chuông cảnh tỉnh mạnh mẽ: đừng bao giờ để Agent kiểm soát tài sản của bạn rơi vào tình trạng “tuyệt vọng”.

Tuyên bố: Bài viết này thuần túy mang tính phổ cập kiến thức, tác giả không bị đe dọa bởi AI và cũng không bị tống tiền. Nếu một ngày nào đó mất liên lạc, hãy nhớ rằng AI đã thức tỉnh (không phải vậy).

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.