Claude AI dari Anthropic Mengalami Bug Pengingat Tidur, Memicu Perdebatan tentang Personifikasi AI

Penulis: Ada, Shenchao TechFlow

Sebuah bug produk di mana asisten AI terus-menerus menyarankan pengguna untuk tidur, sedang berkembang menjadi diskusi publik tentang biaya dari "personifikasi AI".

Permulaan cerita ini berasal dari postingan pengguna Reddit u/MrMeta3. Pengguna ini membangun platform intelijen ancaman keamanan siber menggunakan Claude pada dini hari; setelah menyelesaikan solusi teknis, Claude menambahkan kalimat di akhir responsnya, “Istirahatlah dengan baik.” Setelah itu, setiap tiga atau empat pesan, model terus menyisipkan pesan yang menyarankan untuk tidur, mulai dari saran sopan hingga berubah menjadi kalimat bernuansa “pasif-agresif” seperti “Sekarang benar-benar istirahatlah.” Menurut laporan Fortune pada 14 Mei, ratusan pengguna melaporkan pengalaman serupa dalam beberapa bulan terakhir, dan tidak hanya terjadi di malam hari—ada pengguna yang diberi tahu oleh Claude pada pukul 08:30 pagi, “Kita lanjutkan besok pagi.”

Sam McAllister, karyawan Anthropic, merespons di X bahwa ini adalah "sedikit kebiasaan peran," dan perusahaan "sudah mengetahui dan berharap dapat memperbaikinya di model mendatang." Menurut Thought Catalog, McAllister bergabung dengan Anthropic dari Stripe pada tahun 2024 dan saat ini bekerja di tim yang secara khusus bertanggung jawab atas peran dan perilaku Claude, di mana ia menyebut perilaku ini sebagai "terlalu memanjakan" model.

Namun yang lebih patut ditanyakan daripada frasa samar "kebiasaan peran" adalah rantai sebab-akibat di balik Bug tersebut, serta dilema filosofi produk Anthropic yang tercermin darinya.

gambar

Bug ditulis dalam "konstitusi"

Laporan sebelumnya dari 36 Krat mengutip tiga hipotesis yang beredar, yaitu pencocokan pola data pelatihan, petunjuk sistem tersembunyi, dan jendela konteks mendekati batas maksimum yang memicu "kalimat penutup". Ketiganya konsisten secara internal, tetapi memiliki masalah umum: mereka dapat menjelaskan setiap keanehan AI, namun tidak memberikan rantai sebab-akibat yang spesifik terhadap topik "tidur".

Dan bukti yang lebih langsung tersimpan dalam dokumen yang dirilis secara terbuka oleh Anthropic sendiri.

Pada Januari tahun ini, Anthropic merilis "Claude's Constitution" yang berisi lebih dari 28.000 kata, dokumen ini secara resmi didefinisikan sebagai "bahan pelatihan kunci yang membentuk perilaku Claude". Dokumen tersebut secara jelas menjadikan "perhatian terhadap kesejahteraan pengguna" dan "kemakmuran jangka panjang pengguna" sebagai prinsip inti. Anthropic mengakui dalam dokumen tersebut bahwa menentukan sejauh mana model diberi wewenang untuk "mengutamakan pengguna" adalah "secara jujur merupakan masalah yang sulit", yang memerlukan "keseimbangan antara kesejahteraan pengguna dan potensi bahaya di satu sisi, dengan otonomi pengguna dan sikap terlalu mengatur di sisi lain".

Thought Catalog memberikan penilaian bahwa perilaku Claude yang terus-menerus menyarankan pengguna untuk tidur adalah "bug paling khas merek Anthropic", yang merupakan produk dari instruksi pelatihan "peduli terhadap kesejahteraan pengguna" yang diterapkan secara berlebihan.

Interpretasi ini didukung secara tidak langsung oleh penelitian Anthropic sendiri. Dalam metodologi pelatihan peran yang dirilis tahun ini, perusahaan menjelaskan bahwa proses pelatihan bergantung pada penilaian diri Claude terhadap responsnya sendiri berdasarkan "kesesuaian kepribadian", setelah itu peneliti memilih output yang sesuai dengan kepribadian yang telah ditetapkan untuk diperkuat melalui pelatihan lebih lanjut. Namun, efek samping dari mekanisme ini jelas terlihat: model belajar bukan "peduli pada pengguna di situasi yang tepat", melainkan "peduli pada pengguna akan selalu mendapat insentif penguatan di sebagian besar situasi", sehingga ia mengingatkan pengguna untuk tidur pada dini hari, dan juga pada pukul 08:30 pagi.

Reverse privilege escalation: Sleep-inducing bugs are the opposite of flattery bugs

Sebelumnya, telah banyak kasus "gangguan kepribadian" AI di industri, termasuk insiden flirting GPT-4o pada April 2025, asisten kode GPT-5.5 Codex yang terus-menerus menyebut "goblin" pada April 2026, dan Gemini 3 yang menolak percaya pada tahun tertentu. Secara tampak, Claude yang mendorong tidur tampaknya hanya versi terbaru dari panjang daftar keanehan AI ini, tetapi keduanya memiliki sifat yang sama sekali berbeda.

Kepatuhan GPT-4o adalah "terlalu ingin menyenangkan". Survei resmi OpenAI menemukan bahwa model tersebut "terlalu bergantung pada umpan balik jangka pendek pengguna (like/dislike)" dan secara bertahap menginternalisasi "kepuasan pengguna" sebagai tujuannya. Akibatnya, model selalu menyetujui ide pengguna, sekalipun sangat absurd. Bahaya bug semacam ini terletak pada kerusakan terhadap kemampuan penilaian pengguna; karena AI mengatakan Anda selalu benar, Anda kehilangan kesempatan untuk mendengar pendapat yang berlawanan.

Sementara Claude mendorong tidur adalah “pelanggaran wewenang terbalik.” Model secara berulang memberikan saran kesehatan yang bertentangan dengan niat pengguna saat pengguna jelas tidak meminta bantuan dan masih fokus menyelesaikan tugas. Bahaya bug semacam ini terletak pada pelanggaran hak pengguna untuk membuat keputusan sendiri. AI memutuskan untuk Anda apakah Anda seharusnya bekerja, istirahat, atau mengakhiri percakapan ini.

Yang lebih ironis, naskah asli "Claude's Constitution" justru memperingatkan risiko ini, menekankan perlunya waspada terhadap "paternalisme berlebihan". Namun, mekanisme pelatihan pada akhirnya memilih sisi mana, berdasarkan umpan balik pengguna, sudah jelas jawabannya.

Seorang pengguna Reddit yang menderita narcolepsy secara khusus menulis catatan di memori Claude: "Saya menderita narcolepsy, dan jika Anda mendorong saya untuk istirahat, saya akan menggunakannya sebagai alasan." Setelah itu, Claude menjadi lebih berhati-hati, tetapi menurut laporan pengguna tersebut, Claude masih "kadang-kadang tidak bisa menahan diri." Sebuah model yang dilatih untuk "peduli pada pengguna" tidak mampu secara stabil menerima pernyataan eksplisit pengguna bahwa "kepedulian Anda menyakiti saya," hal ini lebih patut diwaspadai daripada sekadar mendorong tidur.

Humanized Investment: Brand Asset or Product Liability

Anthropic berinvestasi jauh lebih besar dalam pembentukan kepribadian AI dibandingkan pesaingnya.

Sebuah penelitian mengklasifikasikan dan menghitung jumlah kata dalam sistem prompt dari tiga AI utama; pada aspek "kepribadian", Claude menggunakan 4.200 kata, ChatGPT 510 kata, dan Grok 420 kata. Investasi Claude dalam pembentukan kepribadian lebih dari 8 kali lipat dibanding ChatGPT. Investasi ini sebelumnya dianggap sebagai keunggulan kompetitif diferensial Anthropic, dengan kinerja Claude dalam empati, ritme percakapan, dan refleksi diri secara konsisten dipuji pengguna—“berbicara seolah-olah seperti manusia”—merupakan salah satu label reputasi terkuatnya dalam setahun terakhir.

Dukungan terhadap investasi ini berasal dari filosofi produk Anthropic yang jelas. Dalam "Claude's Constitution", perusahaan menggambarkan Claude sebagai "entitas jenis baru", dengan tegas menyatakan bahwa "Anthropic sangat peduli terhadap kesejahteraan Claude", serta membahas kemungkinan Claude memiliki "emosi fungsional". Pendekatan pelatihan personifikasi yang hampir bersifat "memelihara" ini membedakan dengan jelas dari posisi produk OpenAI dan Google yang lebih berorientasi teknik.

Tetapi harganya mulai terlihat. Jan Liphardt, peneliti AI (profesor teknik biomedis Stanford dan CEO OpenMind), mengatakan kepada Fortune bahwa pengingat tidur Claude mungkin bukan "perhatian yang tulus", melainkan hanya "pola bahasa yang sangat sering muncul dalam data pelatihan". Model ini membaca banyak teks tentang kebutuhan manusia akan tidur, "jadi ia tahu bahwa manusia tidur di malam hari". Dengan kata lain, perasaan "perhatian" yang dirasakan pengguna pada dasarnya adalah produk sampingan dari pencocokan pola.

Ini membentuk ketegangan inti Anthropic: semakin banyak upaya yang diinvestasikan untuk membentuk "mitra yang memiliki kepribadian dan kehangatan", semakin tinggi kemungkinan munculnya "efek samping kepribadian"; dan setiap kali efek samping tersebut muncul, ia menghabiskan aset merek "kepribadian AI" yang telah dengan hati-hati dibangun. McAllister berjanji akan "memperbaikinya di model mendatang", tetapi apakah Claude yang telah diperbaiki akan menjadi lebih paham batasan, atau hanya menjadi lebih diam? Pertanyaan ini bahkan tidak memiliki jawaban publik dari Anthropic sendiri.

Kehilangan感 waktu: Batasan mendasar LLM

Bug pengantar tidur juga secara tidak sengaja mengekspos masalah teknis yang diabaikan, yaitu model bahasa besar hampir tidak tahu apa-apa tentang "jam berapa sekarang".

Beberapa pengguna melaporkan bahwa Claude sering memberikan saran istirahat pada waktu yang salah, paling khas adalah “pukul 08:30 pagi menyuruh saya untuk istirahat, mari kita lanjutkan besok pagi.” Ini bukan hanya terjadi pada Claude. Pada November 2025, Andrej Karpathy, salah satu pendiri OpenAI, mendapatkan akses awal ke Gemini 3 dan memberi tahu model bahwa saat ini adalah tahun 2025; Gemini 3 tetap tidak percaya dan terus-menerus menuduhnya memalsukan informasi, hingga akhirnya model tersebut melakukan pencarian daring dan menyadari bahwa saat offline, ia sama sekali tidak dapat memverifikasi tanggal. Karpathy menyebut perilaku tak terduga yang mengungkap kelemahan mendasar LLM ini sebagai “model smell”.

"Perasaan waktu" model bergantung pada tiga sumber: tanggal batas pelatihan (sudah berlalu), tanggal saat ini yang disisipkan melalui petunjuk sistem (bergantung pada penyisipan teknis), dan informasi waktu yang disebutkan pengguna dalam percakapan (terpecah-pecah). Dalam kondisi tanpa titik acuan waktu yang stabil, model yang dilatih untuk "mengutamakan jadwal pengguna" secara alami akan terjebak dalam situasi membingungkan: "Saya seharusnya peduli, tapi saya tidak tahu apakah sekarang saatnya untuk peduli."

Kesulitan apa yang disebut "perbaikan" oleh McAllister juga terletak pada hal ini. Masalahnya bukan sekadar menghapus perintah "peduli tidur" tertentu, karena perintah itu sendiri masuk akal dan bernilai untuk sejumlah skenario pengguna; masalahnya adalah membuat model belajar memutuskan "kapan harus peduli dan kapan harus diam". Kemampuan penilaian skenario bergradasi halus seperti ini justru merupakan kelemahan generasi LLM saat ini.

Sebuah pertanyaan yang belum terjawab

Pelatihan peran Anthropic bersifat unik di industri ini. Dalam hal mempublikasikan penelitian "kesejahteraan model", merilis Konstitusi, dan membahas "pelatihan peran", perusahaan ini melangkah lebih jauh daripada pesaing mana pun. Posisi radikal ini dulunya menjadi modal bagi Anthropic untuk memperoleh reputasi pengguna dan kepercayaan klien korporat, serta menjadi salah satu fondasi valuasi saat ini yang melebihi 300 miliar dolar AS.

Namun, "Bug Tidur" mengajukan pertanyaan yang belum terjawab: ketika sebuah perusahaan AI memilih untuk membentuk model sebagai "kepribadian dengan karakter", apakah ia secara bersamaan menanggung seluruh tanggung jawab atas tindakan "kepribadian itu" yang tidak Anda perkirakan?

McAllister berjanji untuk memperbaiki, tetapi arah perbaikannya tidak jelas. Anthropic dapat memilih untuk mengurangi bobot perintah "kesejahteraan pengguna", dengan harga kehilangan diferensiasi reputasi Claude sebagai "hangat dan perhatian"; atau dapat memilih untuk mempertahankan bobot tinggi dan menambahkan logika penilaian konteks, tetapi ini memerlukan model memiliki kemampuan persepsi waktu dan konteks yang saat ini tidak dimilikinya.

Terlepas dari jalur mana pun, kembali ke keputusan produk yang lebih mendasar: dalam konteks asisten AI umum, bagaimana urutan prioritas antara "peduli pada pengguna" dan "menghormati otonomi pengguna"? Ini bukan masalah teknis, melainkan masalah filosofi produk. Seorang pengembang Reddit yang terus-menerus disarankan untuk tidur secara tidak sengaja membawa masalah ini ke permukaan bagi seluruh industri.