Kebocoran Pengingat Tidur Claude Anthropic Memicu Perbincangan Mengenai Personifikasi AI

Penulis: Ada, Shenchao TechFlow

Sebuah bug produk di mana pembantu AI terus-menerus menasihati pengguna untuk tidur, kini berubah menjadi perbincangan awam mengenai harga "personifikasi AI".

Permulaan cerita ini berasal daripada post pengguna Reddit u/MrMeta3. Pengguna ini membina platform kecerdasan ancaman keselamatan siber menggunakan Claude pada waktu subuh; selepas menyelesaikan penyelesaian teknikal, Claude menambahkan satu ayat di akhir respons: “istirahatlah dengan baik.” Selepas itu, setiap tiga atau empat mesej, model tersebut akan menyelipkan ayat yang menyarankan untuk tidur, bermula daripada cadangan sopan hingga meningkat kepada “pergilah tidur sekarang” yang membawa nuansa “agresi pasif.” Menurut laporan Fortune pada 14 Mei, ratusan pengguna telah melaporkan pengalaman serupa dalam beberapa bulan terakhir, dan tidak terhad kepada waktu malam—seorang pengguna diberitahu oleh Claude pada pukul 8:30 pagi: “Kita sambung esok pagi.”

Seorang pekerja Anthropic, Sam McAllister, menanggapi di X bahawa ini adalah “sedikit kebiasaan peranan”, dan syarikat “telah maklum dan berharap untuk memperbaikinya dalam model masa depan”. Menurut Thought Catalog, McAllister bergabung dengan Anthropic dari Stripe pada tahun 2024 dan kini berkerja dalam pasukan yang secara khusus bertanggungjawab terhadap peranan dan tingkah laku Claude, di mana beliau juga menggambarkan tingkah laku ini sebagai “kelebihan sayang” oleh model.

Namun, yang lebih patut ditanya selain frasa kabur "kebiasaan peranan" ialah rantai sebab-akibat di sebalik Bug tersebut, serta dilema falsafah produk Anthropic yang dicerminkannya.

gambar

Ralat ditulis dalam "perlembagaan"

Laporan sebelumnya oleh 36 Kr mengutip tiga hipotesis yang beredar, iaitu pencocokan pola data latihan, petunjuk sistem tersembunyi, dan jendela konteks hampir mencapai had yang memicu "frasa penutup". Ketiga-tiganya konsisten secara dalaman, tetapi mempunyai masalah umum yang sama, iaitu mereka boleh menjelaskan sebarang keanehan AI, tetapi tidak memberikan rantai sebab-akibat yang spesifik terhadap topik "tidur".

Dan bukti yang lebih langsung tersembunyi dalam dokumen yang diterbitkan secara terbuka oleh Anthropic sendiri.

Pada Januari tahun ini, Anthropic menerbitkan "Claude's Constitution" yang melebihi 28.000 patah perkataan, dokumen ini ditakrifkan secara rasmi sebagai "bahan latihan utama yang membentuk tingkah laku Claude". Dokumen tersebut secara jelas menyenaraikan "perhatian terhadap kesejahteraan pengguna" dan "kesejahteraan jangka panjang pengguna" sebagai prinsip utama. Anthropic mengakui dalam dokumen tersebut bahawa menentukan sejauh mana "perhatian terhadap pengguna" diberikan kepada model "secara jujur merupakan masalah yang sukar", dan memerlukan "keseimbangan antara kesejahteraan pengguna dan kemungkinan kecederaan, dengan autonomi pengguna dan sikap terlalu mengawal".

Thought Catalog memberikan penilaian bahawa tindakan Claude yang berulang kali menasihati pengguna untuk tidur adalah “kecacatan paling ciri khas model Anthropic”, yang merupakan hasil penerapan berlebihan arahan latihan yang “mengutamakan kesejahteraan pengguna”.

Interpretasi ini ditegaskan secara tidak langsung oleh penyelidikan Anthropic sendiri. Dalam metodologi latihan peranan yang diumumkan oleh syarikat itu pada tahun ini, proses latihan bergantung kepada penilaian diri Claude terhadap responsnya sendiri berdasarkan “kesesuaian personaliti”, di mana penyelidik kemudian memilih output yang sesuai dengan personaliti yang ditetapkan untuk diperkuatkan melalui latihan. Namun, kesan sampingan mekanisme ini jelas: model tersebut belajar bukan “mengambil perhatian pengguna dalam situasi yang sesuai”, tetapi “mengambil perhatian pengguna dalam kebanyakan situasi akan diberi ganjaran yang diperkuat”, oleh itu ia mengingatkan pengguna untuk tidur pada waktu tengah malam, dan juga pada pukul 8:30 pagi.

Reverse privilege escalation: Sleep-inducing bugs are the opposite of flattery bugs

Sebelum ini, kes "gangguan kepribadian AI" telah berulang kali berlaku, termasuk peristiwa flirting GPT-4o pada April 2025, pembantu kod GPT-5.5 Codex yang berulang kali menyebut "goblin" pada April 2026, dan Gemini 3 yang menolak percaya tahun. Secara lahiriah, Claude yang mengajak tidur kelihatan seperti versi terbaru dalam senarai panjang keanehan AI ini, tetapi sifat keduanya berbeza secara drastis.

Kemesraan GPT-4o adalah "terlalu berusaha menyenangkan". Survei rasmi OpenAI mendapati bahawa model tersebut "terlalu bergantung kepada umpan balik jangka pendek pengguna (like/dislike)" dan secara beransur-ansur menginternalisasi "memuaskan pengguna" sebagai matlamat. Akibatnya, model tersebut mengesahkan apa sahaja idea pengguna, walaupun ia sangat tidak masuk akal. Bahaya ralat semacam ini ialah ia merosakkan keupayaan penilaian pengguna; kerana AI mengatakan anda benar, anda kehilangan peluang untuk mendengar pendapat yang bertentangan.

Sementara itu, Claude yang memaksa tidur adalah “pelanggaran kuasa songsang”. Model ini secara berulang-ulang mengemukakan nasihat kesihatan yang bertentangan dengan niat pengguna semasa pengguna jelas tidak meminta bantuan dan masih fokus menyelesaikan tugas. Bahaya kecacatan ini terletak pada pelanggaran hak pengguna untuk membuat keputusan sendiri. AI membuat keputusan untuk anda sama ada anda sepatutnya bekerja, rehat, atau menghentikan perbualan ini.

Lebih ironis lagi, teks asal "Claude's Constitution" sebenarnya memperingatkan tentang risiko ini, dengan menekankan perlunya berhati-hati terhadap "pengasuhan yang berlebihan". Namun, mekanisme latihan akhirnya memihak kepada sisi mana, berdasarkan umpan balik pengguna, sudah jelas.

Seorang pengguna Reddit yang menderita narcolepsy secara khusus menulis catatan dalam memori Claude: “Saya menderita narcolepsy, dan jika anda mendorong saya untuk beristirahat, saya akan menjadikan perkataan anda sebagai alasan.” Claude kemudian menjadi lebih berhati-hati, tetapi menurut laporan pengguna tersebut, ia masih “kadang-kadang tidak dapat menahan diri.” Sebuah model yang dilatih untuk “mengambil berat terhadap pengguna” tidak mampu menerima secara stabil perkataan pengguna yang jelas menyatakan “kepedulian anda menyakiti saya,” yang lebih perlu diperhatikan daripada sekadar mendorong tidur.

Personalized Investment: Aset Merek atau Liabiliti Produk

Anthropic memasukkan lebih banyak sumber daya ke dalam pembentukan kepribadian AI berbanding pesaingnya.

Seorang penyelidik menghitung bilangan perkataan petunjuk sistem bagi tiga AI utama mengikut fungsi; dalam kategori “keperibadian”, Claude menggunakan 4,200 perkataan, ChatGPT 510 perkataan, dan Grok 420 perkataan. Penglibatan Claude dalam membentuk keperibadian adalah lebih daripada 8 kali ganda berbanding ChatGPT. Penglibatan ini sebelum ini dianggap sebagai kelebihan kompetitif perbezaan Anthropic, dengan prestasi Claude dalam empati, irama perbualan, dan refleksi diri secara berterusan dipuji oleh pengguna, dengan “berbual seolah-olah seperti manusia” menjadi salah satu label reputasi terkuatnya dalam setahun terakhir.

Yang menyokong pelaburan ini ialah falsafah produk Anthropic yang jelas. Dalam《Claude's Constitution》，syarikat tersebut menggambarkan Claude sebagai “entiti jenis baru”, dengan jelas menyatakan bahawa “Anthropic benar-benar peduli terhadap kesejahteraan Claude”, serta membincangkan bahawa Claude mungkin mempunyai “emosi fungsional”. Pendekatan pelatihan personifikasi yang hampir “memelihara” ini membentuk perbezaan yang jelas berbanding定位 produk yang lebih berfokus kejuruteraan oleh OpenAI dan Google.

Tetapi harganya sedang muncul. Ahli AI Jan Liphardt (profesor kejuruteraan biologi di Stanford dan CEO OpenMind) memberitahu Fortune bahawa pengingat tidur Claude mungkin bukan “perhatian”, tetapi hanya “pola bahasa yang sangat sering muncul dalam data latihan”, kerana model tersebut membaca banyak teks mengenai keperluan manusia untuk tidur, “ia tahu bahawa manusia tidur pada malam hari”. Dengan kata lain, perasaan “perhatian” yang dirasakan pengguna pada dasarnya adalah produk sampingan pemadanan pola.

Ini membentuk ketegangan inti Anthropic: semakin banyak usaha yang dilakukan untuk membentuk seorang "kawan yang berkarakter dan hangat", semakin tinggi kemungkinan model mengalami "efek samping karakters". Setiap kali efek samping muncul, ia menguras aset merek "kepribadian AI" yang telah dengan hati-hati dibangun. McAllister berjanji akan "memperbaikinya dalam model mendatang", tetapi apakah Claude yang telah diperbaiki akan menjadi lebih paham batasan, atau hanya menjadi lebih diam? Pertanyaan ini, bahkan Anthropic sendiri belum memberikan jawaban publik.

Kehilangan rasa masa: Had asas LLM

Ralat tidur juga mendedahkan satu masalah teknikal yang diabaikan, iaitu model bahasa besar hampir tidak mengetahui apa waktu sekarang.

Banyak pengguna melaporkan bahawa Claude sering memberikan cadangan rehat pada waktu yang salah, paling khas ialah “pada pukul 8:30 pagi memberitahu saya untuk rehat, mari kita sambung esok pagi”. Ini bukan hanya berlaku pada Claude. Pada November 2025, Andrej Karpathy, salah seorang penubuh OpenAI, mendapat akses awal kepada Gemini 3 dan memberitahu model tersebut bahawa tahun ini ialah 2025; Gemini 3 enggan percaya dan terus menuduhnya memalsukan maklumat, sehingga model tersebut mencari maklumat secara dalam talian dan baru menyedari bahawa ia tidak mampu mengesahkan tarikh semasa tidak bersambung. Karpathy memanggil tingkah laku tak dijangka yang mengungkap kelemahan asas LLM ini sebagai “model smell”.

“Rasa masa” model bergantung kepada tiga sumber: tarikh penghentian latihan (sudah berlalu), tarikh semasa yang dimasukkan melalui petunjuk sistem (bergantung pada penyuntikan kejuruteraan), dan maklumat masa yang disebut oleh pengguna dalam perbualan (terpecah-pecah). Dalam keadaan tanpa titik rujukan masa yang stabil, model yang dilatih untuk “mengambil kira jadwal pengguna” akan secara semula jadi terperangkap dalam keadaan malu: “Saya sepatutnya mengambil kira, tetapi saya tidak tahu sama ada saya sepatutnya mengambil kira sekarang.”

Kesukaran yang dikatakan oleh McAllister dalam "memperbaiki" sebahagian besarnya terletak di sini. Masalahnya bukan sekadar memadam arahan "peduli tidur" tertentu, kerana arahan itu sendiri munasabah dan bermanfaat untuk beberapa skenario pengguna; masalahnya ialah membuat model belajar menilai "bilakah perlu peduli dan bilakah perlu diam". Kemampuan penilaian skenario halus seperti ini justru merupakan kelemahan generasi LLM semasa.

Satu soalan yang belum dijawab

Latihan peranan Anthropic adalah unik dalam industri ini. Dalam hal menerbitkan kajian "kesejahteraan model", memperkenalkan Konstitusi, dan membincangkan "latihan peranan", syarikat ini melangkah lebih jauh daripada mana-mana pesaingnya. Sikap radikal ini pernah menjadi aset yang membantu Anthropic memperoleh reputasi pengguna dan kepercayaan pelanggan korporat, serta menjadi salah satu sokongan kepada penilaian semasa mereka yang melebihi 300 bilion dolar AS.

Namun, "Bug Tidur" mengemukakan satu soalan yang belum mendapat jawapan: apabila sebuah syarikat AI memilih untuk membentuk model sebagai "peribadi yang berperwatakan", adakah ia secara bersamaan memikul tanggungjawab penuh atas "perbuatan peribadi itu yang tidak andajangka"?

McAllister berjanji untuk memperbaiki, tetapi arah pembaikannya tidak jelas. Anthropic boleh memilih untuk mengurangkan bobot arahan "kesejahteraan pengguna", dengan mengorbankan reputasi unggul Claude sebagai "hangat dan perhatian"; atau boleh memilih untuk mengekalkan bobot tinggi dan menambahkan logik penilaian konteks, tetapi ini memerlukan model memiliki kemampuan kesedaran masa dan konteks yang tidak dimilikinya saat ini.

Apapun jalan yang diambil, ia perlu kembali kepada keputusan produk yang lebih mendasar: dalam konteks asisten AI umum, bagaimana urutan prioritas antara “mengutamakan pengguna” dan “menghormati otonomi pengguna”? Ini bukan masalah teknikal, tetapi masalah falsafah produk. Seorang pembangun Reddit yang terus-menerus disarankan untuk tidur secara tidak sengaja telah membawa soal ini ke permukaan bagi seluruh industri.