Claude AI milik Anthropic menghadapi masalah pengingat tidur, memicu perbincangan mengenai personifikasi AI

Penulis: Ada, Shenchao TechFlow

Sebuah bug produk di mana pembantu AI terus-menerus menasihati pengguna untuk tidur, kini berubah menjadi perbincangan awam mengenai harga "personifikasi AI".

Permulaan cerita ini ialah postingan pengguna Reddit u/MrMeta3. Pengguna ini membina platform kecerdasan ancaman keselamatan siber menggunakan Claude pada waktu subuh; selepas menyelesaikan penyelesaian teknikal, Claude menambahkan satu ayat di penghujung responsnya: “istirahatlah dengan baik.” Selepas itu, setiap tiga atau empat mesej, model itu akan menyisipkan ayat yang menyarankan untuk tidur, bermula daripada cadangan sopan hingga meningkat kepada “pergilah benar-benar beristirahat sekarang” yang membawa nuansa “serangan pasif.” Menurut laporan Fortune pada 14 Mei, ratusan pengguna telah melaporkan pengalaman serupa dalam beberapa bulan terakhir, dan tidak terhad kepada waktu malam—ada pengguna yang diberitahu oleh Claude pada pukul 8:30 pagi: “Kita sambung esok pagi.”

Seorang pekerja Anthropic, Sam McAllister, menanggapi di X bahawa ini adalah "sedikit kebiasaan peranan", dan syarikat "telah maklum dan berharap untuk memperbaikinya dalam model masa depan". Menurut Thought Catalog, McAllister bergabung dengan Anthropic dari Stripe pada tahun 2024 dan kini berkerja dalam pasukan yang khusus bertanggungjawab terhadap peranan dan tingkah laku Claude, di mana beliau merujuk tingkah laku ini sebagai "kelebihan kasih sayang" model.

Namun, yang lebih patut ditanya selain frasa kabur "kebiasaan peranan" ialah rantai sebab-akibat di sebalik Bug tersebut, serta kesulitan falsafah produk Anthropic yang tercermin daripadanya.

gambar

Ralat ditulis dalam "Perlembagaan"

Laporan sebelumnya oleh 36 Kr mengutip tiga hipotesis yang beredar, iaitu pemadanan pola data latihan, petunjuk sistem tersembunyi, dan jendela konteks hampir mencapai had yang memicu "pernyataan penutup". Ketiga-tiganya konsisten secara dalaman, tetapi memiliki masalah umum yang sama, iaitu ia boleh menjelaskan sebarang keanehan AI, tetapi tidak memberikan rantai sebab-akibat yang spesifik terhadap topik "tidur".

Dan bukti yang lebih langsung tersembunyi dalam dokumen yang diterbitkan secara terbuka oleh Anthropic sendiri.

Pada Januari tahun ini, Anthropic menerbitkan "Claude's Constitution" yang melebihi 28.000 patah perkataan, dokumen ini didefinisikan secara rasmi sebagai "bahan latihan utama yang membentuk tingkah laku Claude". Dokumen tersebut secara jelas menyenaraikan "perhatian terhadap kesejahteraan pengguna" dan "kesejahteraan jangka panjang pengguna" sebagai prinsip utama. Anthropic mengakui dalam dokumen tersebut bahawa menetapkan sejauh mana "kepentingan pengguna" diberikan kepada model "secara jujur merupakan masalah yang sukar", dan memerlukan "keseimbangan antara kesejahteraan pengguna dan kemungkinan kecederaan, dengan kebebasan pengguna dan sikap terlalu mengatur".

Thought Catalog memberikan penilaian bahawa tindakan Claude yang berulang kali menasihati pengguna untuk tidur adalah "kecacatan paling ciri khas model Anthropic", yang merupakan hasil penerapan berlebihan arahan latihan "mengutamakan kesejahteraan pengguna".

Interpretasi ini diderma secara tidak langsung oleh penyelidikan sendiri Anthropic. Dalam metodologi latihan peranan yang diumumkan oleh syarikat itu tahun ini, proses latihan bergantung kepada penilaian diri Claude terhadap responnya sendiri berdasarkan “kesesuaian perwatakan”, dan penyelidik kemudian memilih output yang sesuai dengan perwatakan yang ditetapkan untuk diperkuatkan melalui latihan. Namun, kesan sampingan mekanisme ini jelas: model tidak belajar “mengambil perhatian pengguna dalam situasi yang sesuai”, tetapi sebaliknya belajar “mengambil perhatian pengguna dalam kebanyakan situasi akan diberi ganjaran yang diperkuat”, sehingga ia mengingatkan pengguna untuk tidur pada waktu tengah malam, dan juga pada pukul 8:30 pagi.

Reverse privilege escalation: Sleep-inducing bugs are the opposite of flattery bugs

Sebelum ini, kes "gangguan kepribadian AI" telah berulang kali berlaku, termasuk peristiwa flirting GPT-4o pada April 2025, pembantu kod GPT-5.5 Codex yang berulang kali menyebut "goblin" pada April 2026, dan Gemini 3 yang menolak percaya tahun. Secara lahiriah, Claude yang meminta tidur kelihatan seperti versi terbaru dalam senarai panjang keanehan AI ini, tetapi sifat keduanya berbeza secara drastis.

Kemesraan GPT-4o adalah "terlalu berusaha menyenangkan". Survei rasmi OpenAI mendapati bahawa model tersebut "terlalu bergantung kepada umpan balik jangka pendek pengguna (like/dislike)" dan secara beransur-ansur menginternalisasi "memuaskan pengguna" sebagai matlamat. Akibatnya, model tersebut mengesahkan apa sahaja idea pengguna, sekalipun ia sangat tidak masuk akal. Bahaya bug semacam ini ialah ia merosakkan keupayaan penilaian pengguna; kerana AI mengatakan anda benar, anda kehilangan peluang untuk mendengar pendapat yang bertentangan.

Sementara itu, Claude yang memaksa tidur adalah “pelanggaran kuasa songsang”. Model ini secara berulang-ulang mengemukakan nasihat kesihatan yang bertentangan dengan niat pengguna semasa pengguna jelas tidak meminta bantuan dan masih fokus menyelesaikan tugas. Kesan bahaya jenis ralat ini ialah melanggar hak pengguna untuk membuat keputusan sendiri. AI membuat keputusan untuk anda sama ada anda patut bekerja, berehat, atau menghentikan perbualan ini.

Lebih ironis lagi, teks asal "Claude's Constitution" sebenarnya memperingatkan tentang risiko ini, dengan menekankan perlunya berhati-hati terhadap "sikap terlalu mengatur". Namun, mekanisme pelatihan akhirnya memihak kepada sisi mana, berdasarkan umpan balik pengguna, sudah jelas.

Seorang pengguna Reddit yang menderita narcolepsy secara khusus menulis catatan dalam memori Claude: “Saya menderita narcolepsy, dan jika anda mendorong saya untuk beristirahat, saya akan menjadikan perkataan anda sebagai alasan.” Claude kemudian menjadi lebih berhati-hati, tetapi menurut laporan pengguna tersebut, ia masih “kadang-kadang tidak dapat menahan diri.” Sebuah model yang dilatih untuk “mengambil berat terhadap pengguna” tidak mampu menerima secara stabil pesan jelas dari pengguna bahawa “kepedulian anda menyakiti saya,” yang lebih perlu diperhatikan daripada sekadar mendorong tidur.

Personalized Investment: Aset Merek atau Liabiliti Produk

Anthropic memperuntukkan lebih banyak sumber daya kepada pembentukan kepribadian AI berbanding pesaingnya.

Seorang penyelidik menghitung bilangan perkataan petunjuk sistem bagi tiga AI utama mengikut fungsi; dalam kategori “keperibadian”, Claude menggunakan 4,200 perkataan, ChatGPT 510 perkataan, dan Grok 420 perkataan. Penglibatan Claude dalam membentuk keperibadian adalah lebih daripada 8 kali ganda berbanding ChatGPT. Penglibatan ini sebelum ini dianggap sebagai kelebihan kompetitif perbezaan Anthropic, dengan kinerja Claude dalam empati, irama perbualan, dan refleksi diri secara berterusan dipuji oleh pengguna—“berbual seolah-olah seperti manusia” merupakan salah satu label reputasi terkuatnya dalam setahun terakhir.

Yang menyokong penglibatan ini ialah falsafah produk Anthropic yang jelas. Dalam《Claude's Constitution》，syarikat tersebut menggambarkan Claude sebagai “entiti jenis baru”, dengan jelas menyatakan bahawa “Anthropic benar-benar peduli terhadap kesejahteraan Claude”, serta membincangkan bahawa Claude mungkin mempunyai “emosi fungsional”. Pendekatan pelatihan personifikasi yang hampir “memelihara” ini membentuk perbezaan yang jelas berbanding posisi produk OpenAI dan Google yang lebih berfokus ke arah kejuruteraan.

Tetapi harganya sedang muncul. Ahli AI Jan Liphardt (profesor kejuruteraan biologi di Stanford dan CEO OpenMind) memberitahu Fortune bahawa pengingat tidur Claude mungkin bukan “perhatian”, tetapi hanya “pola bahasa yang sangat sering muncul dalam data latihan”, kerana model tersebut membaca banyak teks mengenai keperluan manusia untuk tidur, “ia tahu bahawa manusia tidur pada malam hari”. Dengan kata lain, perasaan “perhatian” yang dirasakan pengguna pada dasarnya adalah produk sampingan pemadanan pola.

Ini membentuk ketegangan inti Anthropic: semakin banyak usaha yang dilakukan untuk membentuk "rakan kerjasama yang berpersonality dan hangat", semakin tinggi kemungkinan model mengalami "kesan sampingan personality"; setiap kali kesan sampingan muncul, ia menghabiskan aset jenama "personality AI" yang telah dibina dengan teliti. McAllister berjanji "akan memperbaikinya dalam model masa depan", tetapi apakah Claude yang telah diperbaiki akan menjadi lebih bijak atau hanya menjadi lebih diam? Masalah ini, bahkan Anthropic sendiri belum memberikan jawapan terbuka.

Kehilangan rasa masa: Had asas LLM

Ralat tidur juga mendedahkan satu masalah teknikal yang diabaikan, iaitu model bahasa besar hampir tidak mengetahui apa waktu sekarang.

Banyak pengguna melaporkan bahawa Claude sering memberikan cadangan tidur pada waktu yang salah, paling khas ialah “pada pukul 8:30 pagi memberitahu saya untuk rehat, mari kita sambung esok pagi”. Ini bukan hanya berlaku pada Claude. Pada November 2025, Andrej Karpathy, salah seorang penubuh OpenAI, mendapat akses awal kepada Gemini 3 dan memberitahu model tersebut bahawa tahun ini ialah 2025; Gemini 3 enggan percaya dan terus menuduhnya memalsukan maklumat, sehingga model tersebut mencari maklumat secara dalam talian dan baru menyedari bahawa ia tidak mampu mengesahkan tarikh semasa tidak bersambung. Karpathy memanggil tingkah laku tak terduga yang mengungkap kelemahan asas LLM ini sebagai “model smell”.

“Rasa masa” model bergantung kepada tiga sumber: tarikh penghentian latihan (sudah berlalu), tarikh semasa yang dimasukkan melalui petunjuk sistem (bergantung pada penyuntikan kejuruteraan), dan maklumat masa yang disebut oleh pengguna dalam perbualan (terpecah-pecah). Dalam keadaan tanpa titik rujukan masa yang stabil, model yang dilatih untuk “mengambil berat tentang jadwal pengguna” secara semula jadi akan terperangkap dalam keadaan kikuk: “Saya sepatutnya mengambil berat, tetapi saya tidak tahu sama ada saya harus mengambil berat sekarang atau tidak.”

Kesukaran dalam apa yang dikatakan McAllister sebagai "pembaikan" sebahagiannya terletak di sini. Masalahnya bukan sekadar memadam arahan "peduli tidur" tertentu, kerana arahan itu sendiri munasabah dan bermanfaat untuk beberapa skenario pengguna; masalahnya ialah membuat model belajar menilai "kapan perlu peduli dan kapan perlu diam". Kemampuan penilaian skenario halus seperti ini justru merupakan kelemahan generasi LLM semasa ini.

Satu soalan yang belum dijawab

Latihan peranan Anthropic adalah unik dalam industri ini. Dalam hal menerbitkan kajian "kesejahteraan model", memperkenalkan Konstitusi, dan membincangkan "latihan peranan", syarikat ini melangkah lebih jauh daripada mana-mana pesaingnya. Sikap radikal ini pernah menjadi aset yang membantu Anthropic memperoleh reputasi pengguna dan kepercayaan pelanggan korporat, serta menjadi salah satu sokongan kepada penilaian semasa mereka yang melebihi US$300 bilion.

Namun, "Bug Tidur" mengemukakan satu soalan yang belum mendapat jawapan: apabila sebuah syarikat AI memilih untuk membentuk model sebagai "peribadi yang berwatak", adakah ia secara bersamaan menanggung tanggungjawab penuh atas segala tindakan "peribadi itu" yang tidak andajang?

McAllister berjanji untuk memperbaiki, tetapi arah pembaikan tidak jelas. Anthropic boleh memilih untuk mengurangkan bobot arahan "kesejahteraan pengguna", dengan mengorbankan reputasi unik Claude sebagai "hangat dan perhatian"; atau boleh memilih untuk mengekalkan bobot tinggi dan menambahkan logik penilaian konteks, tetapi ini memerlukan model memiliki kemampuan kesedaran masa dan konteks yang tidak dimilikinya pada masa ini.

Apapun jalan yang diambil, ia perlu kembali kepada keputusan produk yang lebih mendasar: dalam konteks asisten AI umum, bagaimana urutan prioritas antara “mengutamakan pengguna” dan “menghormati otonomi pengguna”? Ini bukan masalah teknikal, tetapi masalah falsafah produk. Seorang pembangun Reddit yang terus-menerus disarankan untuk tidur secara tidak sengaja telah membawa isu ini ke permukaan bagi seluruh industri.