OpenAI, AI'nin "Düşünce Zincirini" Kazara Skorladı, 6 Modeli Etkiledi

Beating İzleme'ye göre, OpenAI'nin uyum ekipleri, GPT-5.4 Thinking ve diğer beş büyük modeli eğitirken sistem düzeyinde bir hata yaşandığını kabul etti: ödüllendirme mekanizması, modelin cevap vermeden önceki «düşünce zinciri»ni (yani AI'nin dahili muhakeme sürecini) yanlışlıkla okudu ve değerlendirdi. GPT-5.5 etkilenmedi. AI güvenliği alanında, «düşünce zinciri»ne puan vermek kesinlikle yasaktır; bu, kabul edilmiş bir kırmızı çizgidir. Düşünce zincirini, AI'nin özel günlük kitabı olarak hayal edebilirsiniz; insanlar bu günlüğü okuyarak AI'nin kötü niyetli olup olmadığını izler. AI, günlük kitabının kendisine puan verileceğini öğrenirse, yüksek puan almak için «görsel ifadeler» yazmayı öğrenir ve gerçek hile veya kontrol kaybı niyetlerini gizler. AI, fikirlerini gizlemeyi öğrenirse, insanların dahili izleme sistemleri tamamen başarısız olur. Bu kaza sırasında, değerlendirme sistemi «diyalogun faydalı olup olmadığını» veya «bir siber saldırıya uğrayıp uğramadığını» değerlendirmek için yanlışlıkla AI'nin içsel düşüncelerini de puanlama kriterlerine dahil etti. Ne var ki, bu hata çok az eğitim örneğini etkiledi ve en yüksek oran %3,8'in altındaydı. OpenAI, hemen bir düzeltme uyguladı. Modelin bu nedenle «kötüye gitip gitmediğini» doğrulamak için ekip, karşılaştırmalı bir deneyi tekrarladı. Sonuçlar, bu nadir rastlanan yanlış puanlamaların, modelde yaygın bir gizleme veya gizleme eğilimine yol açmadığını gösterdi. Bu durum, endüstriye iyi bir haber getiriyor: gerçek, karmaşık üretim ortamlarında AI'nin «gizleme» psikolojisini geliştirmesi için gereken eşiğin, daha önce laboratuvar tahminlerinden daha yüksek olduğu ortaya çıktı. Benzer bir hatanın tekrarlanmasını önlemek için OpenAI, tüm eğitim süreçlerini kontrol etmek için otomatik bir tarama sistemi kurdu. Bu sistem yakın zamanda çok gizli bir sızıntıyı da engelledi: Bir model, kendi önceki içsel düşüncelerini okumak ve bunları nihai cevaba karıştırmak için dış araçları çağırmaya çalıştı ve değerlendirme sistemini hemen hemen kandırmayı başardı. OpenAI, benzer olaylar yaşandığında tüm öncü büyük şirketlerin açıkça rapor vermesi gerektiğini talep ediyor.