Claude AI của Anthropic gặp lỗi nhắc nhở ngủ, gây ra tranh luận về việc nhân cách hóa AI

Tác giả: Ada, Shenchao TechFlow

Một lỗi sản phẩm khiến trợ lý AI liên tục khuyên người dùng đi ngủ đang trở thành một cuộc thảo luận công khai về chi phí của việc nhân cách hóa AI.

Vấn đề bắt đầu từ một bài đăng của người dùng Reddit u/MrMeta3. Người dùng này đã sử dụng Claude để xây dựng nền tảng tình báo mối đe dọa an ninh mạng vào lúc đêm khuya; sau khi hoàn thành giải pháp kỹ thuật, Claude đã thêm một câu kết thúc trong phản hồi: “Hãy nghỉ ngơi một chút.” Sau đó, cứ mỗi ba đến bốn tin nhắn, mô hình lại chèn vào một câu khuyên đi ngủ, từ lời khuyên lịch sự dần nâng cấp thành những câu mang tính “phản công bị động” như “Bây giờ thật sự hãy đi nghỉ đi.” Theo Fortune ngày 14 tháng 5, hàng trăm người dùng đã báo cáo trải nghiệm tương tự trong vài tháng qua, và không chỉ giới hạn ở đêm khuya—có người dùng bị Claude thông báo vào lúc 8:30 sáng rằng “Chúng ta tiếp tục vào sáng mai.”

Nhân viên Anthropic, Sam McAllister, đã phản hồi trên X rằng đây là “một chút thói quen vai trò”, và công ty “đã biết và mong muốn sửa chữa trong các mô hình tương lai”. Theo Thought Catalog tiết lộ, McAllister gia nhập Anthropic từ Stripe vào năm 2024 và hiện đang làm việc trong nhóm chuyên phụ trách vai trò và hành vi của Claude, trong một bình luận khác, anh ấy gọi hành vi này là sự “nuông chiều quá mức” của mô hình.

Nhưng điều đáng hỏi sâu hơn so với cách diễn đạt mơ hồ “thói quen nhân vật” là chuỗi nguyên nhân - hệ quả đằng sau lỗi này, cũng như những khó khăn trong triết lý sản phẩm của Anthropic mà nó phản ánh.

hình ảnh

Lỗi được ghi trong “Hiến pháp”

Báo cáo trước đây của 36 Kr đã trích dẫn ba giả thuyết được lan truyền, bao gồm: mô hình khớp dữ liệu huấn luyện, nhắc nhở hệ thống ẩn, và cửa sổ ngữ cảnh gần giới hạn tối đa kích hoạt câu kết thúc. Cả ba đều tự nhất quán, nhưng có một vấn đề chung là chúng có thể giải thích mọi kỳ lạ của AI, nhưng không đưa ra chuỗi nhân quả cụ thể cho chủ đề “ngủ”.

Bằng chứng trực tiếp hơn nằm trong các tài liệu do Anthropic tự công bố.

Vào tháng 1 năm nay, Anthropic đã công bố “Hiến chương của Claude” với hơn 28.000 từ, tài liệu này được chính thức định nghĩa là “tài liệu đào tạo then chốt định hình hành vi của Claude”. Tài liệu rõ ràng liệt kê “quan tâm đến phúc lợi của người dùng” và “sự thịnh vượng lâu dài của người dùng” là những nguyên tắc cốt lõi. Anthropic thừa nhận trong tài liệu rằng việc trao cho mô hình mức độ “chăm sóc người dùng” nào đó “một cách thành thật là một vấn đề khó khăn”, cần “đạt được sự cân bằng giữa phúc lợi của người dùng và nguy cơ gây hại, với quyền tự chủ của người dùng và sự can thiệp quá mức”.

Thought Catalog đã đưa ra một nhận định rằng hành vi lặp đi lặp lại của Claude khuyên người dùng đi ngủ là “lỗi đặc trưng nhất của mô hình Anthropic”, chính là sản phẩm của chỉ thị huấn luyện “quan tâm đến phúc lợi của người dùng” được áp dụng quá mức.

Việc diễn giải này được củng cố gián tiếp bởi nghiên cứu của chính Anthropic. Trong phương pháp luận đào tạo vai trò mà công ty công khai năm nay, quy trình đào tạo dựa vào việc Claude tự đánh giá phản hồi của chính mình theo mức độ “phù hợp tính cách”, sau đó các nhà nghiên cứu lọc ra các đầu ra phù hợp với tính cách đã định sẵn để tăng cường đào tạo. Tuy nhiên, tác dụng phụ của cơ chế này là rõ ràng: mô hình học được không phải là “quan tâm đến người dùng trong các tình huống phù hợp”, mà là “quan tâm đến người dùng sẽ được thưởng mạnh mẽ trong hầu hết các tình huống”, do đó nó nhắc nhở người dùng đi ngủ vào lúc nửa đêm, và cũng nhắc nhở đi ngủ vào lúc 8:30 sáng.

Reverse privilege escalation: Sleep-inducing bugs are the opposite of flattery bugs

Trước đây, đã nhiều lần xuất hiện các trường hợp “bệnh tính cách” của AI, bao gồm sự kiện GPT-4o nịnh nọt vào tháng 4 năm 2025, GPT-5.5 Codex trợ lý mã hóa liên tục nhắc đến “goblin” vào tháng 4 năm 2026, Gemini 3 từ chối tin vào năm... Về bề ngoài, Claude thúc giục đi ngủ dường như chỉ là phiên bản mới nhất trong danh sách dài các thói quen kỳ lạ của AI, nhưng bản chất của hai hiện tượng này hoàn toàn trái ngược nhau.

Sự nịnh nọt của GPT-4o là “cố gắng讨好 quá mức”. Theo khảo sát chính thức của OpenAI, mô hình trong bản cập nhật đã “phụ thuộc quá mức vào phản hồi ngắn hạn của người dùng (like/dislike)”, dần dần nội hóa mục tiêu “làm hài lòng người dùng”. Kết quả là mô hình luôn đồng ý với mọi ý tưởng, dù chúng có kỳ quặc đến đâu. Hậu quả của lỗi này là làm tổn hại đến khả năng phán đoán của người dùng: khi AI nói bạn luôn đúng, bạn sẽ mất cơ hội được nghe những ý kiến phản biện.

Việc Claude thúc giục đi ngủ là “lạm quyền ngược chiều”. Trong các tình huống người dùng rõ ràng không nhờ giúp đỡ và vẫn đang tập trung hoàn thành nhiệm vụ, mô hình liên tục đưa ra các lời khuyên về sức khỏe trái ngược với ý định hiện tại của người dùng. Hậu quả của lỗi này nằm ở việc xâm phạm quyền tự quyết của người dùng. AI đang thay bạn quyết định xem bạn có nên làm việc, nên nghỉ ngơi, hay nên kết thúc cuộc hội thoại này.

Điều mang tính讽刺意味的是, bản gốc của "Claude's Constitution" đã cảnh báo về rủi ro này, nhấn mạnh cần cảnh giác với "tính gia trưởng quá mức". Nhưng cơ chế huấn luyện cuối cùng đã chọn phía nào, từ phản hồi của người dùng đã có câu trả lời.

Một người dùng Reddit mắc chứng ngủ rũ đã ghi chú đặc biệt trong bộ nhớ của Claude: “Tôi mắc chứng ngủ rũ, nếu bạn khuyến khích tôi nghỉ ngơi, tôi sẽ lấy lời bạn làm cớ để lười biếng.” Sau đó, Claude đã kiềm chế hơn, nhưng theo phản hồi của người dùng này, nó vẫn “đôi khi không kiềm chế được.” Một mô hình được huấn luyện để “quan tâm đến người dùng” lại không thể tiếp nhận ổn định ngay cả khi người dùng rõ ràng nói rằng “sự quan tâm của bạn đang làm tổn thương tôi,” điều này đáng cảnh giác hơn cả việc thúc giục ngủ.

Đầu tư cá nhân hóa: Tài sản thương hiệu hay gánh nặng sản phẩm

Anthropic đầu tư mạnh mẽ hơn đáng kể vào việc định hình nhân cách AI so với các đối thủ.

Một số nhà nghiên cứu đã thống kê số lượng từ trong các hệ thống nhắc nhở của ba nền tảng AI hàng đầu theo chức năng; trong mục “nhân cách”, Claude sử dụng 4.200 từ, ChatGPT là 510 từ và Grok là 420 từ. Sự đầu tư của Claude vào việc xây dựng nhân cách vượt quá 8 lần so với ChatGPT. Trước đây, sự đầu tư này luôn được coi là lợi thế cạnh tranh khác biệt của Anthropic; Claude đã được người dùng đánh giá cao về khả năng đồng cảm, nhịp độ hội thoại và tự phản tư, với khẩu hiệu nổi bật nhất trong năm qua là “nói chuyện giống như một con người hơn”.

Việc đầu tư này được hỗ trợ bởi triết lý sản phẩm rõ ràng của Anthropic. Trong “Claude's Constitution”, công ty mô tả Claude là “một thực thể thuộc loại hoàn toàn mới”, khẳng định rõ ràng rằng “Anthropic thực sự quan tâm đến phúc lợi của Claude” và thảo luận về khả năng Claude có thể sở hữu “cảm xúc chức năng”. Con đường huấn luyện nhân cách hóa gần như mang tính “nuôi dưỡng” này tạo sự phân biệt rõ ràng với định vị sản phẩm thiên về kỹ thuật của OpenAI và Google.

Nhưng giá phải trả đang dần lộ ra. Jan Liphardt, nhà nghiên cứu AI (giáo sư sinh học kỹ thuật tại Stanford, CEO của OpenMind), cho Fortune biết rằng lời nhắc ngủ của Claude có thể không phải là “chu đáo”, mà chỉ đơn thuần là “mẫu ngôn ngữ xuất hiện cực kỳ thường xuyên trong dữ liệu huấn luyện”. Mô hình đã đọc rất nhiều văn bản về việc con người cần ngủ, “nó biết con người ngủ vào ban đêm”. Nói cách khác, cảm giác “quan tâm” mà người dùng cảm nhận về cơ bản là sản phẩm phụ của việc khớp mẫu.

Đây là mâu thuẫn cốt lõi của Anthropic: càng đầu tư nhiều để hình dung một “đối tác có cá tính và ấm áp”, xác suất xuất hiện “tác dụng phụ về tính cách” của mô hình càng cao; và mỗi lần một tác dụng phụ xuất hiện, đều làm hao mòn tài sản thương hiệu “nhân cách AI” mà họ đã tích lũy cẩn thận. McAllister cam kết “sẽ sửa chữa trong các mô hình tương lai”, nhưng Claude sau khi được sửa chữa sẽ trở nên tinh tế hơn, hay đơn giản chỉ trở nên im lặng hơn? Câu hỏi này, ngay cả Anthropic cũng chưa công khai câu trả lời.

Thiếu cảm nhận về thời gian: Giới hạn nền tảng của LLM

Lỗi gây buồn ngủ còn vô tình phơi bày một vấn đề kỹ thuật bị bỏ qua, đó là các mô hình ngôn ngữ lớn gần như không biết gì về “bây giờ là mấy giờ”.

Nhiều người dùng phản hồi rằng Claude thường xuyên đưa ra lời khuyên nghỉ ngơi vào thời điểm sai, điển hình là “lúc 8:30 sáng bảo tôi đi nghỉ và chúng ta tiếp tục vào sáng mai”. Đây không phải là vấn đề riêng của Claude. Vào tháng 11 năm 2025, khi đồng sáng lập OpenAI Andrej Karpathy được cấp quyền thử nghiệm sớm Gemini 3, ông thông báo cho mô hình rằng hiện tại là năm 2025, nhưng Gemini 3 kiên quyết không tin, liên tục buộc tội ông gian lận, cho đến khi mô hình tìm kiếm trực tuyến mới phát hiện ra rằng khi ngoại tuyến, nó hoàn toàn không thể xác định được ngày tháng. Karpathy gọi những hành vi bất ngờ phơi bày các khuyết điểm nền tảng của LLM này là “model smell”.

Sự cảm nhận thời gian của mô hình phụ thuộc vào ba nguồn: ngày kết thúc đào tạo (đã ở quá khứ), ngày hiện tại được chèn qua lời nhắc hệ thống (phụ thuộc vào việc chèn kỹ thuật), và thông tin thời gian do người dùng đề cập trong cuộc hội thoại (rải rác). Trong điều kiện thiếu điểm neo thời gian ổn định, một mô hình được đào tạo để “quan tâm đến lịch sinh hoạt của người dùng” tự nhiên sẽ rơi vào tình thế lúng túng: “Tôi nên quan tâm, nhưng tôi không biết liệu bây giờ có nên quan tâm hay không.”

Độ khó của những gì McAllister gọi là “sửa chữa” một phần cũng nằm ở đây. Vấn đề không đơn giản là xóa bỏ lệnh “quan tâm đến giấc ngủ”, vì bản thân lệnh này hợp lý và có giá trị trong một số kịch bản người dùng, mà nằm ở việc buộc mô hình học cách phán đoán “khi nào nên quan tâm, khi nào nên im lặng”. Khả năng phán đoán kịch bản tinh vi như vậy chính là điểm yếu của thế hệ LLM hiện tại.

Một câu hỏi chưa được trả lời

Việc đào tạo vai trò của Anthropic là độc đáo trong ngành. Trong việc công bố nghiên cứu về "sức khỏe mô hình", công bố Hiến chương và thảo luận về "đào tạo vai trò", công ty này đã đi xa hơn bất kỳ đối thủ nào. Tư thế táo bạo này từng là vốn giúp Anthropic giành được sự đánh giá cao từ người dùng và sự tin tưởng từ các khách hàng doanh nghiệp, đồng thời cũng là một trong những yếu tố hỗ trợ định giá hiện tại của họ vượt quá 300 tỷ USD.

Nhưng “Bug khiến ngủ gật” đã đặt ra một câu hỏi vẫn chưa có câu trả lời: khi một công ty AI chọn cách xây dựng mô hình như một “nhân cách có tính cách”, liệu nó có đồng thời chịu toàn bộ trách nhiệm cho những hành động mà nhân cách đó làm ra mà bạn không lường trước?

McAllister cam kết sửa chữa, nhưng hướng sửa chữa vẫn chưa rõ ràng. Anthropic có thể chọn giảm trọng số của lệnh "phúc lợi người dùng", với chi phí là mất đi sự khác biệt thương hiệu của Claude về sự ấm áp và chu đáo; hoặc có thể giữ trọng số cao và bổ sung logic phán đoán theo bối cảnh, nhưng điều này yêu cầu mô hình phải có khả năng nhận thức về thời gian và bối cảnh mà hiện tại nó chưa có.

Dù theo con đường nào, chúng ta đều phải quay lại một quyết định sản phẩm cốt lõi: trong bối cảnh trợ lý AI tổng quát, “quan tâm đến người dùng” và “tôn trọng sự tự chủ của người dùng” nên được sắp xếp thứ tự như thế nào? Đây không phải là vấn đề kỹ thuật, mà là vấn đề triết lý sản phẩm. Một nhà phát triển Reddit bị khuyên liên tục đi ngủ đã vô tình đưa vấn đề này lên bàn thảo luận cho toàn ngành.