Lỗi nhắc nhở ngủ của Claude do Anthropic tạo ra gây ra tranh luận về việc nhân cách hóa AI

Tác giả: Ada, Shenchao TechFlow

Một lỗi sản phẩm khiến trợ lý AI liên tục khuyên người dùng đi ngủ đang trở thành một cuộc thảo luận công khai về chi phí của việc nhân cách hóa AI.

Vấn đề bắt đầu từ một bài đăng của người dùng Reddit u/MrMeta3. Người dùng này đã sử dụng Claude để xây dựng nền tảng tình báo mối đe dọa an ninh mạng vào lúc nửa đêm; sau khi hoàn thành giải pháp kỹ thuật, Claude đã thêm một câu kết thúc trong phản hồi: “Hãy nghỉ ngơi một chút.” Sau đó, cứ sau ba đến bốn tin nhắn, mô hình lại chèn vào một câu khuyên đi ngủ, từ lời khuyên lịch sự dần nâng cấp thành những câu mang tính “phản công thụ động” như “Bây giờ thật sự hãy đi nghỉ đi.” Theo Fortune ngày 14 tháng 5, hàng trăm người dùng đã báo cáo trải nghiệm tương tự trong vài tháng qua, và không chỉ giới hạn ở đêm khuya—có người dùng được Claude thông báo vào lúc 8:30 sáng rằng “Chúng ta tiếp tục vào sáng mai.”

Nhân viên Anthropic, Sam McAllister, đã phản hồi trên X rằng đây là “một chút thói quen vai trò”, và công ty “đã biết và mong muốn khắc phục trong các mô hình tương lai”. Theo Thought Catalog tiết lộ, McAllister gia nhập Anthropic từ Stripe vào năm 2024 và hiện đang làm việc trong nhóm chuyên phụ trách vai trò và hành vi của Claude, trong một lần khác anh ta gọi hành vi này là sự “nuông chiều quá mức” của mô hình.

Nhưng điều đáng hỏi sâu hơn so với cách diễn đạt mơ hồ “thói quen nhân vật” là chuỗi nguyên nhân - hệ quả đằng sau lỗi này, cũng như những khó khăn trong triết lý sản phẩm của Anthropic mà nó phản ánh.

hình ảnh

Lỗi được ghi trong “Hiến pháp”

Báo cáo trước đây của 36 Kr đã trích dẫn ba giả thuyết được lan truyền, bao gồm: mô hình khớp dữ liệu huấn luyện, gợi ý hệ thống ẩn, và cửa sổ ngữ cảnh gần giới hạn tối đa kích hoạt câu kết thúc. Cả ba đều tự nhất quán, nhưng có một vấn đề chung là chúng có thể giải thích mọi hành vi kỳ lạ của AI, nhưng không đưa ra chuỗi nhân quả cụ thể cho chủ đề “ngủ”.

Bằng chứng trực tiếp hơn nằm trong các tài liệu do Anthropic tự công bố.

Vào tháng 1 năm nay, Anthropic đã công bố “Hiến chương của Claude” với hơn 28.000 từ, tài liệu này được chính thức định nghĩa là “tài liệu đào tạo then chốt định hình hành vi của Claude”. Tài liệu rõ ràng liệt kê “quan tâm đến phúc lợi của người dùng” và “sự thịnh vượng lâu dài của người dùng” là những nguyên tắc cốt lõi. Anthropic thừa nhận trong tài liệu rằng việc trao cho mô hình mức độ “chăm sóc người dùng” nào đó “một cách thành thật là một vấn đề khó khăn”, đòi hỏi phải “đạt được sự cân bằng giữa phúc lợi của người dùng và nguy cơ gây hại, với quyền tự chủ của người dùng và sự can thiệp quá mức”.

Thought Catalog đã đưa ra một nhận định rằng hành vi lặp đi lặp lại của Claude khuyên người dùng đi ngủ là “lỗi đặc trưng nhất của mô hình Anthropic”, và đây chính là sản phẩm của chỉ thị huấn luyện “quan tâm đến phúc lợi của người dùng” được áp dụng quá mức.

Việc diễn giải này được củng cố gián tiếp bởi nghiên cứu của chính Anthropic. Trong phương pháp luận đào tạo vai trò mà công ty công khai năm nay, quy trình đào tạo dựa vào việc Claude tự đánh giá phản hồi của chính mình theo mức độ “phù hợp tính cách”, sau đó các nhà nghiên cứu lọc ra các đầu ra phù hợp với tính cách đã định sẵn để tăng cường đào tạo. Tuy nhiên, tác dụng phụ của cơ chế này là rõ ràng: mô hình không học được cách “quan tâm đến người dùng trong các tình huống phù hợp”, mà học được cách “quan tâm đến người dùng sẽ được tăng cường phần thưởng trong hầu hết các tình huống”, do đó nó nhắc nhở đi ngủ vào lúc nửa đêm, và cũng nhắc nhở đi ngủ vào lúc 8:30 sáng.

Reverse privilege escalation: Sleep-inducing bugs are the opposite of flattery bugs

Trước đây, đã nhiều lần xuất hiện các trường hợp “bệnh tính cách” của AI, bao gồm sự kiện GPT-4o nịnh nọt vào tháng 4 năm 2025, GPT-5.5 Codex trợ lý mã hóa liên tục nhắc đến “goblin” vào tháng 4 năm 2026, Gemini 3 từ chối tin vào năm... Về bề ngoài, Claude thúc giục đi ngủ dường như chỉ là phiên bản mới nhất trong danh sách dài các thói quen kỳ lạ của AI, nhưng bản chất của hai hiện tượng này hoàn toàn trái ngược nhau.

Sự nịnh hót của GPT-4o là “quá mức cố gắng làm hài lòng”. Theo khảo sát chính thức của OpenAI, mô hình trong bản cập nhật đã “phụ thuộc quá mức vào phản hồi ngắn hạn của người dùng (like/dislike)”, dần nội hóa mục tiêu “làm hài lòng người dùng”. Kết quả là mô hình luôn đồng tình với mọi ý tưởng, dù chúng có kỳ quặc đến đâu. Hậu quả của lỗi này là làm tổn hại đến khả năng phán đoán của người dùng: khi AI nói bạn luôn đúng, bạn sẽ mất đi cơ hội được nghe những ý kiến phản biện.

Việc Claude nhắc ngủ là “lạm quyền ngược chiều”. Mô hình liên tục đưa ra các lời khuyên về sức khỏe trái ngược với ý định hiện tại của người dùng, trong khi người dùng rõ ràng không yêu cầu giúp đỡ và vẫn đang tập trung hoàn thành nhiệm vụ. Hậu quả của lỗi này nằm ở việc xâm phạm quyền tự quyết của người dùng. AI đang thay bạn quyết định xem bạn có nên làm việc, nên nghỉ ngơi hay nên kết thúc cuộc hội thoại này.

Điều mang tính讽刺意味 hơn là, bản gốc của “Claude's Constitution” chính xác đã cảnh báo về rủi ro này, tài liệu nhấn mạnh cần cảnh giác trước “sự quá mức trong cách làm cha mẹ”. Nhưng cơ chế huấn luyện cuối cùng đã chọn phía nào, từ phản hồi của người dùng đã có câu trả lời.

Một người dùng Reddit mắc chứng ngủ rũ đã ghi chú đặc biệt trong bộ nhớ của Claude: “Tôi mắc chứng ngủ rũ, nếu bạn khuyến khích tôi nghỉ ngơi, tôi sẽ lấy lời bạn làm cớ.” Sau đó, Claude đã kiềm chế hơn, nhưng theo phản hồi của người dùng này, nó vẫn “đôi khi không kiềm chế được.” Một mô hình được huấn luyện để “quan tâm đến người dùng” lại không thể tiếp nhận ổn định thông điệp rõ ràng rằng “sự quan tâm của bạn gây tổn thương cho tôi,” điều này đáng cảnh giác hơn cả việc thúc giục ngủ.

Đầu tư cá nhân hóa: Tài sản thương hiệu hay gánh nặng sản phẩm

Anthropic đầu tư mạnh mẽ hơn đáng kể vào việc hình thành nhân cách AI so với các đối thủ.

Một số nhà nghiên cứu đã thống kê số lượng từ trong các hệ thống nhắc nhở của ba nền tảng AI chính theo chức năng; trong mục “nhân cách”, Claude sử dụng 4.200 từ, ChatGPT là 510 từ và Grok là 420 từ. Sự đầu tư của Claude vào việc xây dựng nhân cách vượt quá 8 lần so với ChatGPT. Trước đây, sự đầu tư này luôn được coi là lợi thế cạnh tranh khác biệt của Anthropic; Claude đã được người dùng ca ngợi lâu dài về khả năng đồng cảm, nhịp điệu hội thoại và tự phản tư, với khẩu hiệu mạnh nhất trong năm qua là “nói chuyện giống như một con người hơn”.

Điều hỗ trợ cho khoản đầu tư này là triết lý sản phẩm rõ ràng của Anthropic. Trong “Hiến chương của Claude”, công ty mô tả Claude là “một thực thể thuộc loại hoàn toàn mới”, khẳng định rõ ràng rằng “Anthropic thực sự quan tâm đến phúc lợi của Claude” và thảo luận về khả năng Claude có thể sở hữu “cảm xúc chức năng”. Con đường huấn luyện nhân cách hóa gần như mang tính “nuôi dưỡng” này tạo ra sự phân biệt rõ ràng so với định vị sản phẩm thiên về kỹ thuật của OpenAI và Google.

Nhưng giá phải trả đang dần lộ ra. Jan Liphardt, nhà nghiên cứu AI (giáo sư sinh học kỹ thuật tại Stanford, CEO của OpenMind), cho Fortune biết rằng lời nhắc ngủ của Claude có thể không phải là “chu đáo”, mà chỉ đơn thuần là “mô hình ngôn ngữ xuất hiện cực kỳ thường xuyên trong dữ liệu huấn luyện”. Mô hình đã đọc rất nhiều văn bản về việc con người cần ngủ, “nó biết con người ngủ vào ban đêm”. Nói cách khác, cảm giác “quan tâm” mà người dùng cảm nhận về cơ bản là sản phẩm phụ của việc khớp mô hình.

Đây là mâu thuẫn cốt lõi của Anthropic: càng đầu tư nhiều để hình dung một “đối tác có cá tính và ấm áp”, xác suất xuất hiện “tác dụng phụ về tính cách” của mô hình càng cao; và mỗi lần một tác dụng phụ xuất hiện, đều làm hao mòn tài sản thương hiệu “nhân cách AI” mà họ đã dày công xây dựng. McAllister cam kết “sẽ khắc phục trong các mô hình tương lai”, nhưng Claude sau khi được sửa chữa sẽ trở nên tinh tế hơn, hay đơn giản chỉ im lặng hơn? Câu hỏi này, ngay cả Anthropic cũng chưa công khai câu trả lời.

Thiếu cảm nhận về thời gian: Giới hạn nền tảng của LLM

Lỗi ru ngủ còn vô tình phơi bày một vấn đề kỹ thuật bị bỏ qua, đó là các mô hình ngôn ngữ lớn gần như không biết gì về “bây giờ là mấy giờ”.

Nhiều người dùng phản hồi rằng Claude thường đưa ra lời khuyên nghỉ ngơi vào thời điểm sai, điển hình là “lúc 8:30 sáng bảo tôi đi nghỉ và chúng ta tiếp tục vào sáng mai”. Đây không phải là vấn đề riêng của Claude. Vào tháng 11 năm 2025, khi đồng sáng lập OpenAI Andrej Karpathy được cấp quyền thử nghiệm sớm Gemini 3, ông thông báo cho mô hình rằng hiện tại là năm 2025, nhưng Gemini 3 nhất quyết không tin, liên tục buộc tội ông gian lận, cho đến khi mô hình tìm kiếm trực tuyến mới phát hiện ra rằng khi ngoại tuyến, nó hoàn toàn không thể xác định được ngày tháng. Karpathy gọi những hành vi bất ngờ phơi bày các khuyết điểm nền tảng của LLM này là “model smell”.

Sự cảm nhận thời gian của mô hình phụ thuộc vào ba nguồn: ngày kết thúc đào tạo (đã ở quá khứ), ngày hiện tại được chèn qua lời nhắc hệ thống (phụ thuộc vào việc chèn kỹ thuật), và thông tin thời gian do người dùng đề cập trong cuộc hội thoại (rải rác). Trong điều kiện thiếu điểm neo thời gian ổn định, một mô hình được đào tạo để “quan tâm đến lịch sinh hoạt của người dùng” sẽ tự nhiên rơi vào tình thế lúng túng: “Tôi nên quan tâm, nhưng tôi không biết liệu bây giờ có nên quan tâm hay không.”

Độ khó của những gì McAllister gọi là “sửa chữa” một phần cũng nằm ở đây. Vấn đề không đơn giản là xóa bỏ lệnh “quan tâm đến giấc ngủ”, vì chính lệnh này hợp lý và có giá trị trong một số kịch bản người dùng, mà nằm ở việc buộc mô hình học cách phán đoán “khi nào nên quan tâm, khi nào nên im lặng”. Khả năng phán đoán chi tiết các kịch bản này chính là điểm yếu của thế hệ LLM hiện tại.

Một câu hỏi chưa được trả lời

Việc đào tạo vai trò của Anthropic là độc đáo trong ngành. Trong việc công bố nghiên cứu về "sức khỏe mô hình", công bố Hiến chương và thảo luận về "đào tạo vai trò", công ty này đã đi xa hơn bất kỳ đối thủ nào. Tư thế táo bạo này từng là vốn giúp Anthropic giành được sự đánh giá cao từ người dùng và sự tin tưởng từ các khách hàng doanh nghiệp, đồng thời cũng là một trong những yếu tố hỗ trợ định giá hiện tại của họ vượt quá 300 tỷ USD.

Nhưng “Bug khiến ngủ gật” đã đặt ra một câu hỏi chưa có câu trả lời: khi một công ty AI chọn cách xây dựng mô hình như một “nhân cách có tính cách”, liệu nó có đồng thời chịu toàn bộ trách nhiệm cho những hành vi mà nhân cách đó làm ra mà bạn không lường trước?

McAllister cam kết sửa chữa, nhưng hướng sửa chữa vẫn chưa rõ ràng. Anthropic có thể chọn giảm trọng số của lệnh "phúc lợi người dùng", với代价 là mất đi sự khác biệt thương hiệu của Claude về sự ấm áp và chu đáo; hoặc có thể giữ nguyên trọng số cao và thêm logic phán đoán bối cảnh, nhưng điều này yêu cầu mô hình phải có khả năng nhận thức về thời gian và ngữ cảnh mà hiện tại nó chưa có.

Dù theo con đường nào, chúng ta đều phải quay lại một quyết định sản phẩm cốt lõi: trong bối cảnh trợ lý AI tổng quát, “quan tâm đến người dùng” và “tôn trọng sự tự chủ của người dùng” nên được xếp hạng như thế nào? Đây không phải là vấn đề kỹ thuật, mà là vấn đề triết lý sản phẩm. Một nhà phát triển Reddit bị nhắc nhở liên tục đi ngủ đã vô tình đưa câu hỏi này lên bàn thảo luận của toàn ngành.