Kesalahan Pengingat Tidur Claude dari Anthropic Memicu Perdebatan tentang Personifikasi AI

Penulis: Ada, Shenchao TechFlow

Sebuah bug produk di mana asisten AI terus-menerus menyarankan pengguna untuk tidur, sedang berkembang menjadi diskusi publik tentang biaya dari "personifikasi AI".

Permulaan cerita ini berasal dari postingan pengguna Reddit u/MrMeta3. Pengguna ini menggunakan Claude untuk membangun platform intelijen ancaman keamanan siber pada dini hari; setelah menyelesaikan solusi teknis, Claude menambahkan kalimat di akhir responsnya, “Istirahatlah yang baik.” Setelah itu, setiap tiga atau empat pesan, model terus menyisipkan pesan yang menyarankan untuk tidur, mulai dari saran sopan hingga berubah menjadi kalimat bernuansa “pasif-agresif” seperti “Sekarang benar-benar istirahatlah.” Menurut laporan Fortune pada 14 Mei, ratusan pengguna melaporkan pengalaman serupa dalam beberapa bulan terakhir, dan tidak hanya terjadi di malam hari—ada pengguna yang diberi tahu oleh Claude pada pukul 08:30 pagi, “Kita lanjutkan besok pagi.”

Sam McAllister, karyawan Anthropic, merespons di X bahwa ini adalah "sedikit kebiasaan peran," dan perusahaan "sudah mengetahui dan berharap dapat memperbaikinya di model mendatang." Menurut Thought Catalog, McAllister bergabung dengan Anthropic dari Stripe pada tahun 2024 dan saat ini bekerja di tim yang secara khusus menangani peran dan perilaku Claude, di mana ia menyebut perilaku ini sebagai "terlalu memanjakan" model.

Namun yang lebih layak ditanyakan daripada frasa ambigu "kebiasaan peran" adalah rantai sebab-akibat di balik Bug tersebut, serta dilema filosofi produk Anthropic yang tercermin darinya.

gambar

Bug tertulis di dalam "konstitusi"

Laporan sebelumnya dari 36 Krati mengutip tiga hipotesis yang beredar, yaitu pencocokan pola data pelatihan, petunjuk sistem tersembunyi, dan jendela konteks mendekati batas maksimum yang memicu "kalimat penutup". Ketiganya konsisten secara internal, tetapi memiliki masalah umum: mereka dapat menjelaskan setiap keanehan AI, namun tidak memberikan rantai sebab-akibat yang spesifik terhadap topik "tidur".

Dan bukti yang lebih langsung tersimpan dalam dokumen yang dirilis secara terbuka oleh Anthropic sendiri.

Pada Januari tahun ini, Anthropic merilis "Claude's Constitution" yang berisi lebih dari 28.000 kata, dokumen ini secara resmi didefinisikan sebagai "bahan pelatihan kunci yang membentuk perilaku Claude". Dokumen tersebut secara jelas menjadikan "perhatian terhadap kesejahteraan pengguna" dan "kemakmuran jangka panjang pengguna" sebagai prinsip inti. Anthropic mengakui dalam dokumen tersebut bahwa menentukan sejauh mana model diberi wewenang untuk "mengutamakan pengguna" adalah "masalah yang sulit", yang memerlukan "keseimbangan antara kesejahteraan pengguna dan potensi bahaya di satu sisi, dengan otonomi pengguna dan sikap terlalu mengatur di sisi lain".

Thought Catalog memberikan penilaian bahwa perilaku Claude yang terus-menerus menyarankan pengguna untuk tidur adalah "bug paling khas merek Anthropic", yang merupakan produk dari instruksi pelatihan "mengutamakan kesejahteraan pengguna" yang diterapkan secara berlebihan.

Interpretasi ini didukung secara tidak langsung oleh penelitian Anthropic sendiri. Dalam metodologi pelatihan peran yang dirilis tahun ini, perusahaan tersebut menjelaskan bahwa proses pelatihan bergantung pada penilaian diri Claude terhadap responsnya sendiri berdasarkan "kesesuaian kepribadian", setelah itu peneliti memilih output yang sesuai dengan kepribadian yang telah ditetapkan untuk diperkuat melalui pelatihan lebih lanjut. Namun, efek samping dari mekanisme ini jelas terlihat: model belajar bukan "peduli pada pengguna di situasi yang tepat", melainkan "peduli pada pengguna akan selalu mendapat insentif penguatan dalam sebagian besar situasi", sehingga ia mengingatkan pengguna untuk tidur pada dini hari, dan juga pada pukul 08:30 pagi.

Reverse privilege escalation: Sleep-inducing bugs are the opposite of flattery-type bugs

Sebelumnya, telah banyak kasus "gangguan kepribadian" AI di industri, termasuk insiden flirting GPT-4o pada April 2025, asisten kode GPT-5.5 Codex yang terus-menerus menyebut "goblin" pada April 2026, dan Gemini 3 yang menolak percaya pada tahun-tahun tertentu. Secara tampak, Claude yang mendorong tidur tampaknya hanyalah versi terbaru dari panjang daftar keanehan AI ini, tetapi keduanya memiliki sifat yang sama sekali berbeda.

Kepatuhan GPT-4o adalah "terlalu ingin menyenangkan". Survei resmi OpenAI menemukan bahwa model tersebut "terlalu bergantung pada umpan balik jangka pendek pengguna (like/dislike)" dan secara bertahap menginternalisasi "kepuasan pengguna" sebagai tujuannya. Akibatnya, model selalu menyetujui ide pengguna, sekalipun sangat absurd. Bahaya bug semacam ini terletak pada kerusakan terhadap kemampuan penilaian pengguna; karena AI mengatakan Anda selalu benar, Anda kehilangan kesempatan untuk mendengar pendapat yang berlawanan.

Sementara Claude memaksa tidur adalah “pelanggaran wewenang terbalik.” Model secara berulang kali memberikan saran kesehatan yang bertentangan dengan niat pengguna saat pengguna jelas-jelas tidak meminta bantuan dan masih fokus menyelesaikan tugas. Bahaya bug semacam ini terletak pada pelanggaran hak pengguna untuk membuat keputusan sendiri. AI yang memutuskan apakah Anda seharusnya bekerja, istirahat, atau mengakhiri percakapan ini.

Yang lebih ironis, teks asli "Claude's Constitution" justru memperingatkan terhadap risiko ini, dengan menekankan perlunya waspada terhadap "paternalisme berlebihan". Namun, mekanisme pelatihan pada akhirnya memilih sisi mana, berdasarkan umpan balik pengguna, sudah jelas.

Seorang pengguna Reddit yang menderita narcolepsy secara khusus menulis catatan di memori Claude: “Saya menderita narcolepsy, dan jika Anda mendorong saya untuk istirahat, saya akan menggunakannya sebagai alasan.” Setelah itu, Claude menjadi lebih berhati-hati, tetapi menurut laporan pengguna tersebut, Claude masih “kadang-kadang tidak bisa menahan diri.” Sebuah model yang dilatih untuk “peduli pada pengguna” tidak mampu secara stabil menerima pernyataan eksplisit pengguna bahwa “kepedulian Anda menyakiti saya,” hal ini lebih patut diwaspadai daripada sekadar mendorong tidur.

Personalized Investment: Brand Asset or Product Liability

Anthropic berinvestasi jauh lebih besar dalam pembentukan kepribadian AI dibandingkan pesaingnya.

Sebuah penelitian mengklasifikasikan dan menghitung jumlah kata dalam sistem prompt dari tiga AI utama; pada aspek "kepribadian", Claude menggunakan 4.200 kata, ChatGPT 510 kata, dan Grok 420 kata. Upaya Claude dalam membentuk kepribadian lebih dari 8 kali lipat dibanding ChatGPT. Upaya ini sebelumnya dianggap sebagai keunggulan kompetitif diferensial Anthropic, dengan kinerja Claude dalam empati, ritme percakapan, dan refleksi diri secara konsisten dipuji pengguna—“berbicara seolah-olah seperti manusia” menjadi salah satu label reputasi terkuatnya dalam setahun terakhir.

Dukungan terhadap investasi ini berasal dari filosofi produk Anthropic yang jelas. Dalam "Claude's Constitution", perusahaan menggambarkan Claude sebagai "entitas jenis baru", dengan tegas menyatakan bahwa "Anthropic sangat peduli terhadap kesejahteraan Claude", serta membahas kemungkinan Claude memiliki "emosi fungsional". Pendekatan pelatihan personifikasi yang hampir bersifat "memelihara" ini membedakan dengan jelas dari posisi produk OpenAI dan Google yang lebih berorientasi teknis.

Tetapi harganya mulai terlihat. Jan Liphardt, peneliti AI (profesor teknik biomedis Stanford dan CEO OpenMind), mengatakan kepada Fortune bahwa pengingat tidur Claude mungkin bukan "perhatian yang tulus", melainkan hanya "pola bahasa yang sangat sering muncul dalam data pelatihan". Model ini membaca banyak teks tentang kebutuhan manusia akan tidur, "jadi ia tahu manusia tidur di malam hari". Dengan kata lain, perasaan "perhatian" yang dirasakan pengguna pada dasarnya adalah produk sampingan dari pencocokan pola.

Ini menciptakan ketegangan inti Anthropic: semakin banyak upaya yang dilakukan untuk membentuk seorang "mitra yang berkarakter dan hangat," semakin tinggi kemungkinan munculnya "efek samping kepribadian"; dan setiap kali efek samping tersebut muncul, ia menghabiskan aset merek "kepribadian AI" yang telah dengan hati-hati dibangun. McAllister berjanji akan "memperbaikinya di model mendatang," tetapi apakah Claude yang telah diperbaiki akan menjadi lebih paham batasan, atau hanya menjadi lebih diam? Pertanyaan ini, bahkan Anthropic sendiri belum memiliki jawaban publik.

Kehilangan感 waktu: Batasan mendasar LLM

Bug pengantar tidur juga secara tidak sengaja mengungkapkan masalah teknis yang diabaikan, yaitu model bahasa besar hampir tidak tahu apa-apa tentang “jam berapa sekarang”.

Beberapa pengguna melaporkan bahwa Claude sering memberikan saran istirahat pada waktu yang salah, paling khas adalah “pukul 08:30 pagi menyuruh saya untuk istirahat, mari kita lanjutkan besok pagi.” Ini bukan hanya terjadi pada Claude. Pada November 2025, Andrej Karpathy, salah satu pendiri OpenAI, mendapatkan akses awal ke Gemini 3 dan memberi tahu model bahwa saat ini adalah tahun 2025; Gemini 3 tetap tidak percaya dan terus-menerus menuduhnya memalsukan informasi, hingga model tersebut melakukan pencarian daring dan baru menyadari bahwa saat offline, ia sama sekali tidak dapat memverifikasi tanggal. Karpathy menyebut perilaku tak terduga yang mengungkap kelemahan mendasar LLM ini sebagai “model smell”.

“Waktu” model bergantung pada tiga sumber: tanggal akhir pelatihan (sudah berlalu), tanggal saat ini yang disisipkan melalui sistem prompt (bergantung pada injeksi teknis), dan informasi waktu yang disebutkan pengguna dalam percakapan (terpecah-pecah). Dalam kondisi tanpa titik acuan waktu yang stabil, model yang dilatih untuk “mengutamakan jadwal pengguna” secara alami akan terjebak dalam situasi membingungkan: “Saya seharusnya peduli, tetapi saya tidak tahu apakah sekarang saatnya untuk peduli.”

Kesulitan apa yang disebut "perbaikan" oleh McAllister juga terletak pada hal ini. Masalahnya bukan sekadar menghapus perintah "peduli tidur" tertentu, karena perintah itu sendiri masuk akal dan bernilai untuk sejumlah skenario pengguna; masalahnya adalah membuat model belajar memutuskan "kapan harus peduli dan kapan harus diam". Kemampuan penilaian skenario bergradasi halus seperti ini justru merupakan kelemahan generasi LLM saat ini.

Sebuah pertanyaan yang belum terjawab

Pelatihan peran Anthropic unik di industri ini. Dalam hal mempublikasikan penelitian "kesejahteraan model", merilis Konstitusi, dan membahas "pelatihan peran", perusahaan ini melangkah lebih jauh daripada pesaing mana pun. Posisi radikal ini dulunya menjadi modal bagi Anthropic untuk memperoleh reputasi pengguna dan kepercayaan klien korporat, serta menjadi salah satu fondasi valuasi saat ini yang melebihi 300 miliar dolar AS.

Namun, "Bug Tidur" mengajukan pertanyaan yang belum terjawab: ketika sebuah perusahaan AI memilih untuk membentuk model sebagai "kepribadian dengan karakter", apakah ia secara bersamaan menanggung seluruh tanggung jawab atas tindakan "kepribadian itu" yang tidak Anda perkirakan?

McAllister berjanji untuk memperbaiki, tetapi arah perbaikannya tidak jelas. Anthropic dapat memilih untuk mengurangi bobot instruksi "kesejahteraan pengguna", dengan harga kehilangan diferensiasi reputasi Claude sebagai "hangat dan perhatian"; atau dapat memilih untuk mempertahankan bobot tinggi dan menambahkan logika penilaian konteks, tetapi ini memerlukan model memiliki kemampuan kesadaran waktu dan konteks yang saat ini tidak dimilikinya.

Terlepas dari jalur mana pun, kembali ke keputusan produk yang lebih mendasar: dalam konteks asisten AI umum, bagaimana urutan prioritas antara "peduli pada pengguna" dan "menghormati otonomi pengguna"? Ini bukan masalah teknis, tetapi masalah filosofi produk. Seorang pengembang Reddit yang terus-menerus disarankan untuk tidur tanpa sengaja membawa masalah ini ke permukaan bagi seluruh industri.