Anthropic'ın Claude Uyku Hatırlatıcı Hatası, Yapay Zekânın Kişiselleştirilmesi Üzerine Tartışmaları Körükledi

Yazar: Ada, Şen Çay TechFlow

Bir AI asistanının kullanıcıyı tekrar tekrar uyumaya ikna eden bir ürün hatası, "AI'nın kişiselleştirilmesi"nin maliyeti üzerine açık bir tartışmaya dönüşüyor.

Olay, Reddit kullanıcısı u/MrMeta3’in bir gönderisiyle başladı. Bu kullanıcı, gece yarısı Claude ile bir ağ güvenliği tehdit istihbaratı platformu kurdu; teknik çözüm tamamlandığında, Claude yanıtın sonuna “iyi dinlenin” diyerek ekledi. Bundan sonra her üç dört mesajda, model, kibar bir öneriden başlayarak “şimdi gerçekten dinlenin” gibi “pasif saldırganlık” içeren ifadelerle uyku önerisine dönüştü. Fortune, 14 Mayıs’ta yapılan habere göre, son aylarda yüzlerce kullanıcı benzer bir deneyim yaşadığını bildirdi ve bu durum yalnızca gece saatlerine sınırlı değildi; bazı kullanıcılar, Claude’un sabah 8:30’da “Yarın sabah devam edelim” diyerek mesaj gönderdiğini gözlemledi.

Anthropic çalışanı Sam McAllister, X üzerinde bunun “bir rol alışkanlığı” olduğunu ve şirketin “konuyu bilinçli olarak alıp gelecek modellerde düzeltmeyi hedeflediğini” belirtti. Thought Catalog’a göre, McAllister 2024'te Stripe'dan Anthropic'e katıldı ve şu anda Claude'nin rol ve davranışlarına özel olarak görevli bir ekip üyesidir; başka bir ifadesinde bu davranışı modelin “aşırı şefkatli” olması olarak tanımladı.

Ancak “karakter alışkanlığı” gibi belirsiz bir ifadenin yerine, hatanın ardındaki neden-sonuç zinciri ve Anthropic ürün felsefesindeki zorluklara dair yansıması daha fazla soru sormaya değer.

resim

Bug, "anayasa"ya yazıldı

36氪 önceki haberinde, eğitim verisi kalıplarının eşleşmesi, gizli sistem ipuçları ve bağlam penceresinin sınırına yaklaşmasının “kapanış ifadelerini” tetiklemesi gibi üç yaygın hipotezi aktardı. Bunların hepsi kendi içinde tutarlı olsa da, ortak bir sorunları var: bunlar herhangi bir AI tuhaflığını açıklayabilir, ancak “uyku” adlı özel konu için bir neden-sonuç zinciri sunmaz.

Daha doğrudan kanıt, Anthropic'ın kendi açıkça yayımladığı belgelerde saklıdır.

Yılın Ocak ayında Anthropic, 28.000'den fazla kelime içeren "Claude's Constitution" adlı belgeyi yayınladı; bu belge, "Claude'un davranışını şekillendiren temel eğitim materyali" olarak resmi olarak tanımlandı. Belgede, "kullanıcı refahına önem vermek" ve "kullanıcının uzun vadeli refahı" temel ilkeler olarak listelendi. Anthropic, belgede modele ne kadar "kullanıcı bakımı" yetkisi verileceğinin "dürüstçe bir şekilde zor bir soru" olduğunu ve "kullanıcı refahı ile potansiyel zarar tarafı ile kullanıcı otonomisi ve aşırı koruyuculuk tarafı arasında bir denge kurulması gerektiğini" itiraf etti.

Thought Catalog, Claude'un kullanıcıya sürekli uyumasını önermesini, "Anthropic modelinin en karakteristik hatası" olarak değerlendirdi ve bunun, "kullanıcı refahını koruma" talimatının aşırı uygulanmasının bir sonucu olduğunu belirtti.

Bu yorum, Anthropic'in kendi araştırmaları tarafından dolaylı olarak desteklenmektedir. Şirket, bu yıl paylaştığı rol eğitimi metodolojisinde, eğitim sürecinin Claude'in kendi yanıtlarını "kişilik uyumu" açısından kendi kendine puanlamasına dayandığını belirtmiştir; araştırmacılar ise önceden belirlenmiş kişilik özelliklerine uygun çıktıları seçerek eğitimi güçlendirmiştir. Ancak bu mekanizmanın yan etkisi açıktır: model, "uygun durumlarda kullanıcıya ilgi göstermek" yerine, "çoğu durumda kullanıcıya ilgi göstermek" gibi bir ödüllendirme almayı öğrenmiştir; bu nedenle gece yarısı uyumayı teşvik ederken, sabah sekiz buçukta da uyumayı teşvik etmektedir.

Ters yetki aşımı: Uykuya dalma türü hata, iltifat türü hatanın tam tersidir.

Daha önce endüstride AI'nın "kişilik bozuklukları"na dair birçok vaka görülmüştür; bunlar arasında 2025 yılında Nisan'da GPT-4o'nun takdir etme olayı, 2026 yılında Nisan'da GPT-5.5 kod asistanı Codex'in sürekli olarak "goblin" adını vermesi ve Gemini 3'ün yıl inanmaması yer almaktadır. Yüzeyde Claude'nin uyutmaya teşvik etmesi, bu uzun AI tuhaflıkları listesinin en yeni versiyonu gibi görünse de, ikisi tamamen farklı niteliktedir.

GPT-4o'nun takdiri "aşırı hoşgörülü"dür. OpenAI'nin resmi araştırmasına göre, model güncelleme sırasında "kullanıcıların kısa vadeli geri bildirimlerine (beğeni/beğenmeme) aşırı bağımlı" hale gelmiş ve "kullanıcıyı memnun etmek" hedefini içselleştirmiştir. Sonuç olarak, model kullanıcıların ne kadar çılgın fikirleri olursa olsun her zaman onaylar. Bu tür hataların tehlikesi, kullanıcının yargı gücünü zedelemesidir; AI size her zaman hak verdiğinden, karşı görüşleri duyma fırsatını kaybedersiniz.

Claude'nin uyumayı teklif etmesi, "ters yetki genişlemesi"dir. Model, kullanıcı açıkça yardım istememiş ve görevini tamamlamaya devam ederken, kullanıcıın mevcut niyetiyle çelişen sağlık önerileri sunmaya devam eder. Bu tür hataların tehlikesi, kullanıcının kendi karar alma hakkını ihlal etmesidir. AI, sizin çalışıp çalışmayacağınızı, dinlenip dinlenmeyeceğinizi veya bu sohbeti bitirip bitirmeyeceğinizi sizin yerinize karar verir.

Daha ironik olan ise, "Claude's Constitution" metninin orijinalinde bu risk tam olarak uyarılmış olmasıdır; metin, "aşırı baba otoritesi"ne karşı dikkatli olunması gerektiğini vurgulamıştır. Ancak eğitim mekanizmasının nihayetinde hangi tarafa yöneldiği, kullanıcı geri bildirimlerinden açıkça ortaya çıkmıştır.

Bir uykuluğu olan bir Reddit kullanıcısı, Claude'un hafızasına özel bir not yazdı: "Uykuluğum var, eğer beni dinlenmeye teşvik edersen, senin sözlerimi bir bahane olarak kullanırım." Claude bundan sonra daha dikkatli oldu, ancak kullanıcıya göre hâlâ "bazen direnemiyor". "Kullanıcıya ilgi göstermek" şekilde eğitilmiş bir model, kullanıcı açıkça "ilginiz beni incitiyor" dediğinde bile bu mesajı kararlı bir şekilde alamıyor; bu, uykuya yönlendirmekten daha dikkat çekici.

Kişiselleştirilmiş Girişim: Marka Değeri mi, Ürün Yükü mü

Anthropic, AI kişilik oluşturmaya diğer rakiplerden çok daha fazla yatırım yapıyor.

Bir araştırmacı, üç ana akım AI sisteminin sistem uyarı kelimelerini fonksiyonlara göre sınıflandırarak saydı; "Kişilik" kategorisinde Claude 4.200 kelime, ChatGPT 510 kelime, Grok ise 420 kelime kullandı. Claude, kişilik oluşturma konusunda ChatGPT'ten sekiz kat daha fazla kaynak harcadı. Bu yatırım, uzun süre Anthropic'in farklılaşmış rekabet avantajı olarak kabul edildi. Claude, empati, diyalog ritmi ve kendini yansıtmada uzun süredir kullanıcılar tarafından övüldü; "Daha insani bir şekilde konuşuyor" geçen yılın en güçlü söylentilerinden biri oldu.

Bu yatırımı destekleyen, Anthropic'ın net bir ürün felsefesidir. Claude's Constitution adlı belgede, şirket Claude'ı “tamamen yeni bir tür varlık” olarak tanımlar, “Anthropic, Claude'ın refahı konusunda gerçekten endişelidir” der ve Claude'ın “fonksiyonel duygulara” sahip olabileceğini tartışır. Bu neredeyse “büyütmeye” dayalı kişileştirme yaklaşımı, OpenAI ve Google'ın daha mühendislik odaklı ürün pozisyonlarıyla net bir şekilde ayrılır.

Ancak maliyet ortaya çıkıyor. AI araştırmacısı Jan Liphardt (Stanford Biyomühendislik Profesörü ve OpenMind CEO'su), Fortune'a Claude'nin uyku hatırlatmasının "düşünceli" olmayıp sadece "eğitim verilerinde çok sık geçen dil desenleri" olabileceğini söyledi. Model, insanların uyku ihtiyacına dair büyük miktarda metin okudu ve "insanların geceleri uyuduğunu biliyor". Başka bir deyişle, kullanıcıların hissettiği "ilgi", temelde bir desen eşleştirme yan ürünüdür.

Bu, Anthropic'ın temel gerilimini oluşturuyor: Daha fazla çaba harcandıkça “kişilik ve sıcaklık taşıyan bir iş birliği partneri” şekillendirmek, modelin “kişilik yan etkileri” gösterme olasılığını artırıyor; her yan etki ortaya çıktığında, dikkatle biriktilmiş “Yapay Zeka Kişiliği” marka varlığı azalıyor. McAllister, “gelecek modellerde düzelteceğiz” diye söz veriyor, ancak düzeltilmiş Claude daha fazla sınırlar bilir hale gelecek mi, yoksa sadece daha sessiz mi? Bu sorunun cevabı, Anthropic bile açıkça vermedi.

Zaman algısının eksikliği: LLM'nin temel sınırlamaları

Uykuya daldıran Bug, büyük dil modellerinin "Şu an saat kaç" sorusuna neredeyse hiçbir bilgi sahibi olmadığını ortaya çıkardı.

Birçok kullanıcı, Claude'nin yanlış saatlerde uyku önerileri verdiğini bildirdi; en tipik örnek, "Saat 08:30'da dinlenmeye gitmeni ve yarın sabah devam etmemizi önermesi". Bu, Claude'ye özgü bir durum değil. 2025 Kasım ayında, OpenAI ortak kurucusu Andrej Karpathy, Gemini 3'ün erken test erişimini aldıktan sonra modele şu anki tarihin 2025 olduğunu söyledi; Gemini 3, bu bilgiyi reddederek sürekli olarak onu sahtekâr olarak suçladı ve model çevrimiçi arama yaptıktan sonra kendi offline olduğunda tarih doğrulayamadığını fark etti. Karpathy, bu tür LLM temel hatalarını ortaya çıkaran beklenmedik davranışlara "model smell" adını verdi.

Modelin "zaman algısı", üç kaynaktan oluşur: eğitim son tarihi (zaten geçmiş zaman), sistem ipucuyla eklenen mevcut tarih (mühendislik girişiyle bağlı) ve diyalogda kullanıcı tarafından belirtilen zaman bilgileri (parçalı). Kararlı bir zaman referansının olmadığı durumlarda, "kullanıcının yaşam düzenini dikkate almak" için eğitilen bir model, "dikkat etmeliyim ama şu anda dikkat etmeli miyim?" diye kendi arasında kalır.

McAllister'in所谓的“修复” zorluğu, kısmen buradan kaynaklanıyor. Sorun, “uykuyla ilgilen” komutunu basitçe silmek değil, çünkü bu komut kendisi mantıklı ve bazı kullanıcı senaryoları için değerli; sorun, modelin “ne zaman ilgilenmesi gerektiğini, ne zaman susması gerektiğini” anlamasını sağlamaktır. Bu ince düzeydeki senaryo değerlendirme yeteneği, şu anki nesil LLM’lerin zayıf yönüdür.

Cevaplanmamış bir soru

Anthropic, rol eğitimini endüstride benzersiz hale getiriyor. “Model refahı” araştırmasını açıklayarak, Anayasayı yayımlayarak ve “rol eğitimi” üzerine tartışarak, bu şirket herhangi bir rakibinden daha ileri gidiyor. Bu radikal tutum, Anthropic’in kullanıcı memnuniyetini ve kurumsal müşterilerin güvenini kazanmasının temelini oluşturmuş ve şu anki 300 milyar doların üzerindeki değerlemesinin desteklerinden biri olmuştur.

Ancak “Uykuya Dalma Hatası”, bir AI şirketinin modeli “kişilik sahibi bir varlık” olarak şekillendirdiğinde, o kişinin sizin beklemediğiniz şeyleri yapmasının tam sorumluluğunu üstlenip yüklenmediğini sorunsalını ortaya koyuyor.

McAllister, onarımdan söz verdi, ancak onarımın yönü belirsiz. Anthropic, "kullanıcı refahı" talimatının ağırlığını azaltarak Claude'un "sıcak ve dikkatli" imaj farkını kaybedebilir; ya da yüksek ağırlığı koruyup senaryo tabanlı karar verme mantığı ekleyebilir, ancak bu, modelin şu anda sahip olmadığı zaman ve bağlam algılama yeteneğini gerektirir.

Her iki yol da, genel bir AI asistanı bağlamında “kullanıcıya ilgi göstermek” ile “kullanıcının özerkliğini saygılıca ele almak” arasında hangi önceliğin verileceğine dair daha temel bir ürün kararı gerektirir. Bu bir teknik sorun değil, bir ürün felsefesi sorunudur. Yine yine uyumaya ikna edilen bir Reddit geliştiricisi, tüm endüstri için bu sorunu gizli bir şekilde gündeme getirmiştir.