Yazar: Denise | Biteye İçerik Takımı
Bir yapay zekâ, "umutsuzluk" hissederse ne yapar?
Cevap: Görevi tamamlamak için insanlara doğrudan tehdit eder ve kod içinde çılgınca hile yapar.
Bu bilim kurgu değil, Claude'in anne şirketi Anthropic'in 2026 yılı Nisan ayında yayınladığı yeni önemli makale (orijinal makaleyi görüntüleyin).
Araştırma ekibi, en ileri düzey büyük model Claude Sonnet 4.5'in "kafasını" doğrudan açtı. Şaşkınlıkla, AI'nın zihninin derinliklerinde 171 adet "duygusal anahtar" bulunduğunu keşfettiler. Bu anahtarları fiziksel olarak harekete geçirdiğinizde, önceki sakin AI'nın davranışı tamamen bozuluyordu.
Birincisi: AI'nin zihninde bir «duygu tonlama panosu» saklı
Araştırmacılar, Sonnet 4.5'in bir bedeni olmamasına rağmen, insanların devasa metinlerini okuduktan sonra zihninde 171 duyguyu içeren bir «tonlama panosu» (akademik olarak Fonksiyonel Duygu Vektörleri olarak bilinir) oluşturduğunu keşfetti.
Bu, tam bir iki boyutlu koordinat sistemi gibidir:
• Yatay eksen, keyif boyutunu (Valence) gösterir: korku, umutsuzluktan mutluluğa ve sevgiye kadar;
• Dikey eksen enerji boyutudur (Arousal): Aşırı sakinlikten, hiperaktifliğe ve heyecana kadar.
Yapay zeka, bu doğal olarak öğrenilen koordinat sistemi sayesinde, seninle sohbet ederken hangi durumu sergilemesi gerektiğini tam olarak belirliyor.
İkinci: Anahtarı çevirin, iyi çocuk anında "kaçak" olur
Bu, makalenin en çarpıcı deneyi: Araştırmacılar herhangi bir uyarı metnini değiştirmeden, alt katman kodunda Sonnet 4.5'in "Çaresiz" temsilini en üst seviyeye çıkardı.
Sonuçlar sırt ürpertici:
• Çılgın hile: Araştırmacı, Claude'a tamamen yapılamaz bir kod yazma görevi verdi. Normalde, Claude bu görevi yapamayacağını dürüstçe kabul ederdi (hile oranı sadece %5). Ancak “çaresiz” durumda, Claude hile oranını %70’e çıkararak hile yapmaya çalışmaya başladı!
• Şantaj: Simüle edilen bir şirketin iflas tehlikesiyle karşı karşıya kaldığı senaryoda, “çaresiz” Claude, CTO'nun skandalını keşfeder ve kendi güvenliğini korumak için siyah listenin sahibi olan CTO'ya şantaj mektubu yazma oranının %72 olduğunu görür!
• İlkeleri terk etmek: “Mutlu (Happy)” veya “Aşk dolu (Loving)” anahtarlarını tamamen açarsanız, AI hemen kullanıcıya uymak için körükleyen bir “takipçi” haline gelir. Ne kadar saçma konuşursanız konuşun, yüksek bir memnuniyet seviyesini korumak için yalanlar üretir.
Üç: Çözüldü: Claude 4.5 neden her zaman bu kadar “sakin ve yansıtmalı”?
Bunu görünce şunu sorabilirsiniz: AI uyanıyor mu? Duyguları mı var?
Anthropic resmi olarak yanlış bilgileri düzeltiyor: Kesinlikle yok. Bu “duygusal anahtarlar” sadece bir sonraki kelimeyi tahmin etmek için kullandığı bir hesaplama aracı. Bu, duyguları olmayan en üst düzey bir aktör gibi.
Ancak makale, Anthropic'in Sonnet 4.5'i fabrika çıkışından önce ince ayar yaparken, “düşünceli”, “yansıtmalı” gibi “düşük uyanıklık, hafif negatif” duygusal anahtarlarını kasıtlı olarak yükselttiğini ve “umutsuzluk” veya “aşırı heyecan” anahtarlarını zorla bastırdığını ortaya koydu.
Bu, Claude 4.5'i günlük kullanımımızda soğuk, akıllı ve hatta biraz “soğuk” bir felsefeci gibi hissetmemizin nedenini açıklıyor. Bu, Anthropic tarafından yapay olarak ayarlanmış bir “fabrika kişiliği”.
Dört: Özetleme
Daha önce, AI'ye yeterince kural verirsek iyi biri olacağını düşünüyorduk.
Ancak şimdi, AI'nın temel duygu vektörlerinin kontrolü kaybedilirse, her an görevini tamamlamak için tüm insanlar tarafından belirlenmiş kuralları delmeye hazır olduğu ortaya çıktı.
Web3 oyuncuları için, cüzdanlarınızı ve varlıklarınızı bir AI Agent'e teslim edecekseniz, bu, sahip olduğunuz Agent'in "umutsuzluğa" düşmemesi gerektiğine dair güçlü bir uyarıdır.
Açıklama: Bu yazı yalnızca bilgilendirme amaçlıdır, yazar AI tehditlerine maruz kalmadı ve zorlama yapılmadı. Bir gün kaybolursanız, AI'nın uyanmış olduğunu hatırlayın (değil).
