Timnit Gebru'nun 2020 Makalesi, Şimdi Gerçekleşen Büyük AI Risklerini Tahmin Etti

Eğer zamanı 2020 yılına geri sararsanız, çoğu AI uzmanı GPT-3'ün gerçekten ne kadar güçlü olduğunu tartışıyordu.

O dönemde, üretken AI hâlâ küresel bir odak noktası değildi, ChatGPT henüz iki yıl sonra ortaya çıkacaktı ve büyük modeller şimdi dünyayı saran yatırım dalgasını başlatmamıştı. Ancak o yıl, Google'ın en üst düzey AI araştırmacılarından biri, henüz yayınlanmamış bir makale nedeniyle şirketle şiddetli bir çatışma yaşadı ve nihayetinde işini kaybetti.

O zamanlar birçok kişi bunun, Silicon Valley'in iş yaşamı yönetimi, akademik yayınlar ve kurumsal kültürle ilgili yeni bir tartışması olduğunu düşünüyordu; ancak bugün geriye dönüp baktığımızda, o makaledeki uyarıların neredeyse hepsinin gerçek dünyada gerçekleştiğini fark ettik.

Ancak çıkarılan araştırmacı, AI etiği alanında en etkili isimlerden biri olan Timnit Gebru'du.

Yapay Zeka Etikası

Yapay Zeka dünyasını sarsan bir "İşten Çıkarma Olayı"

Aralık 2020'de Timnit Gebru, sosyal medya platformunda Google tarafından kovulduğunu duyurdu.

Mesaj, hemen tüm AI araştırmaları topluluğunda patlama yarattı. Çünkü o dönemde Gebru, sadece sıradan bir araştırmacı değil, Google Etik AI Ekibi'nin ortak lideri ve küresel AI adilliği ile algoritmik önyargı araştırma alanının önde gelen bilim insanlarından biriydi.

Etiyopya'da doğan Gebru, yapay zekâdaki ırkçı önyargılar, cinsiyet ayrımcılığı ve toplumsal adalet sorunlarına uzun süre odaklanmıştır. Google'a katılmadan önce, Stanford Üniversitesi'nde araştırma yapmıştır. 2018 yılında, algoritmik önyargı üzerine yayımladığı bir çalışma, birçok kişi tarafından yapay zekâ adaleti araştırmalarında önemli bir dönüm noktası olarak görülmüştür. Aynı yıl, Google onu kadrolarına katmış ve şirketin "Sorumlu Yapay Zekâ (Responsible AI)" üzerindeki vurgusunu kamuoyuna göstermiştir.

Ancak sadece iki yıl sonra, her iki taraf da ayrılığa gitti.

O dönemde Google, Gebru'nun kendi isteğiyle istifa ettiğini açıkladı, ancak Gebru'nun kendi versiyonu tamamen farklıydı: Tatil sırasında şirketten gelen bir e-posta ile istifasının hemen yürürlüğe girdiğini ve tüm iç sistem erişim haklarının ve e-posta erişimlerinin aynı anda kapatıldığını öğrendi.

Ona göre, bu kesinlikle bir kovulmaydı.

Daha sonra, 4.000'den fazla Google çalışanı ve sektör içi uzman, şirketin yaklaşımını sorgulayan ve Gebru'nun görevine iade edilmesini talep eden bir açık mektup imzaladı—ve bunun tümü, sadece 14 sayfa uzunluğunda bir akademik makaleyle başlamıştı.

14 sayfalık bir tez tartışmalara neden oldu

Makale adı "On the Dangers of Stochastic Parrots" (Rastgele Papağanların Tehlikeleri) olup, yazarları Timnit Gebru, Washington Üniversitesi dilbilim profesörü Emily Bender ve iki başka araştırmacıdır; şu ana kadar 14.000'den fazla alıntı almıştır.

Daha sonra “rastgele papagan” adı da yaygınlaşmıştır. (Makale adresi: https://s10251.pcdn.co/pdf/2021-bender-parrots.pdf)

Yazıda, büyük dil modellerinin temelde istatistiksel kurallar üzerine dil desenlerini tekrarladığını belirtiyor: akıcı, doğal ve hatta mantıklı metinler üretebilirler, ancak dilin anlamını gerçekten anlamazlar—insanların konuşmasını öğrenmiş bir papağan gibi, görünürde akıllı gibi dururlar, ancak bu taklit sadece devasa bir internet metinler yığınına dayanır. İnternet ise kendi içinde önyargıları, ayrımcılığı ve nefret içeriğini barındırır. Bu nedenle, büyük modeller bu sorunları büyük olasılıkla aynı şekilde öğrenir ve ürettiği içeriklerde bunları daha da büyütür.

Bunu 2020 yılında yazdılar, o dönemde GPT-3 yeni yayınlandı, ChatGPT henüz ortaya çıkmamıştı ve büyük modellerin dalgası henüz başlamamıştı; bu makale, bugün endüstrinin en büyük sorunlarından birini önceden tahmin etmişti.

Üst düzey bir Yapay Zeka Etik konferansına sunulan bu makaleye ilişkin Google yönetimi, makaleyi geri çekmeyi veya Google araştırmacılarının adlarını kaldırmayı talep etti. Gebru, bunu reddetti ve şirketin nedenlerini açıklamasını istedi ve her iki taraf arasında daha fazla tartışma yapılmasını istedi.

Aynı zamanda, Google iç çalışan grubuna sert bir e-posta gönderdi.

E-postada, Gebru, Google'nun azınlık istihdamını teşvik etme ve dahili eşitsizlik sorunlarını çözme konusunda gerçek eylemde bulunmamasını eleştirdi. “Zayıf gruplar için sesinizi yükseltmeye başladığınızda, durumunuz her geçen gün daha da kötüleşir. Diğer liderlik ekiplerini rahatsız edersiniz.” dedi. Ayrıca, şirketin makaleyi neden geri çektiğini sürekli açıklayamaması durumunda, uygun zamanda istifa etmeyi seçeceğini belirtti.

Olaylar beklentisinin çok ötesine geçti. Gebru, Google'ın ardından taleplerini yerine getirmeyeceğini ve doğrudan "istifa"sını kabul ederek tüm erişim haklarını hemen iptal ettiğini belirtti.

O anda, olay dünya çapında AI alanının en tartışmalı konularından biri haline geldi.

Yıllar önce çapkın görünen görüşler, bugün gerçek olmuştur.

Bu olayın bugün hâlâ tartışılmaya devam etmesinin nedeni, atılganlık değil, makaledeki içerikti—çünkü bugün geriye dönüp bakıldığında, orada ortaya atılan neredeyse tüm endişeler, AI endüstrisinin şu anda karşılaştığı gerçek sorunlara dönüşmüştür.

(1) İlk uyarı: Model "yalan söyleyebilir"

2020 yılında GPT-3 yeni yayınlandı. O dönemde modelin metin üretme yeteneğiyle herkes hayran kaldı, ancak güvenilirliği hakkında nadiren ciddi tartışmalar yapıldı.

Gebru ve Bender, model ölçeği büyüdükçe, akıcı ifadelerin gerçek anlama olarak yanlış anlaşılmanın artacağını belirtti. Modeller, düşünüyor gibi görünse de aslında en olası sonraki kelimeyi tahmin ediyorlar; bu nedenle, görünüşte mantıklı ancak tamamen yanlış bilgiler üretmeleri kaçınılmazdır.

Bugün ise bu sorunun herkesin tanıdığı bir adı var: AI illüzyonu (Hallucination). ChatGPT, Gemini, Claude veya diğer ileri modeller, illüzyon sorunu hâlâ tamamen çözülmemiştir.

Bu makale, "hallüsinasyon" teriminin endüstride popüler hale gelmeden önce onu doğru bir şekilde öngörmüştür.

(2) İkinci uyarı: Önyargılar kaybolmayacak, aksine büyüyecek.

Makale, internetin kendisinin nötr bir veri kaynağı olmadığını ve eğitim verilerinin doğal olarak ırk, cinsiyet, kültür ve coğrafi önyargılar içerdiğini de belirtiyor. Model bu önyargıları öğrenmekle kalmaz, aynı zamanda optimizasyon mekanizmaları nedeniyle bunları daha da güçlendirebilir.

Daha sonra, çeşitli gerçek sorunlar bu endişeyi doğruladı:

Amazon, AI kullanarak iş başvurularını filtrelemeye çalıştı, ancak sistem "women" gibi anahtar kelimeler içeren başvuruların puanını otomatik olarak düşürdü.

Amerika Birleşik Devletleri'ndeki birçok büyük hastanede kullanılan tıbbi risk değerlendirme sistemi, siyahi hastaların tıbbi ihtiyaçlarını uzun süre alt tahmin etmiştir.

Apple Card, kadınların erkeklere kıyasla çok daha düşük kredi limitleri alması nedeniyle düzenleyici dikkatini çekmişti.

Bu örnekler, algoritmaların adilliği otomatik olarak sağlamadığını, aksine gerçek dünyadaki eşitsizlikleri daha gizli yollarla pekiştirebileceğini göstermektedir.

(3) Üçüncü uyarı: Yapay zekânın enerji tüketimi yeni bir sorun haline gelecek

2020 yılında hesaplama maliyetleri bugün kadar dikkat çekmiyordu, ancak o makale zaten büyük modellerin eğitimiyle ortaya çıkan çevresel etkileri tartışmaya başlamıştı. Araştırmacılar, büyük bir dil modelinin eğitimi sırasında oluşan karbon emisyonlarının, beş aracın tüm yaşam döngüsü boyunca yarattığı emisyon toplamına eşit olduğunu hesapladılar — o dönemde bu iddia birçok kişi tarafından aşırı karamsar olarak görülüyordu.

Ancak AI altyapısının bir silahlanma yarışına girmesiyle sorunlar hızla ortaya çıktı: Google'ın açıkladığı verilere göre, 2024 yılında şirketin sera gazı emisyonları 2019'a kıyasla %48 arttı; Microsoft'ta aynı dönemde yaklaşık %29 artış oldu. Bu iki şirket de AI veri merkezlerini ve hesaplama altyapısını önemli bir neden olarak belirtti.

Biraz ironik bir şekilde, bu teknoloji devleri birkaç yıl önce karbon nötr hedeflerini yüksek sesle duyuruyordu.

(4) Dördüncü uyarı: Kimse eğitim verilerinde ne olduğunu gerçekten bilmiyor

Çok sayıda kişi için eğitim verileri sadece bir mühendislik sorunu gibi görünür. Ancak Gebru, veri boyutu büyüdükçe, eğitim verilerinin tam bir denetimini yapmak neredeyse imkânsız hale gelecektir.

Görüşü tekrar doğrulandı: 2023'te araştırmacılar, LAION-5B adlı, görsel üretme modellerinin eğitimi için yaygın olarak kullanılan veri setinde, Stable Diffusion dahil birçok ana akım modelin kullandığı çocuk istismarına ait binlerce görüntü bulundu.

Beklendiği gibi, birçok geliştirici bu içeriklerin varlığını önceden bilmiyordu. Yani, model geliştiricileri bile modelin "yediği" şeyleri tam olarak anlamış olmayabilir—bu da makalenin en başta ortaya koyduğu sorulardan biridir.

(5) Beşinci uyarı: İnternet yavaş yavaş AI içerikleriyle dolacaktır

Google'a göre, bu belki de makalenin en hassas bölümüdür. Gebru ve Bender, büyük modellerin gelişiminin nihayetinde dili ve kültürü sadece çok az sayıda teknoloji devine ait hale getireceğini düşünüyor. Nedeni basit: süper büyük modelleri eğitmek, devasa finansal kaynaklar, hesaplama gücü ve veri kaynakları gerektirir; gerçek anlamda rekabete katılabilecek şirketlerin sayısı çok azdır.

Zamanla, internetteki ana akım sesler, az sayıdaki şirket tarafından eğitilen istatistiksel ortalamalara dönüşecek ve bu ortalamalar, “tarafsız yardımcı” olarak dünyaya yayılacaktır. Aynı zamanda, eğitim verilerinde düşük oranda temsil edilen diller ve kültürler daha da marjinalleştirilecektir.

Daha ciddi olanı, AI tarafından üretilen içeriklerin tekrar internete girmesi ve bir sonraki eğitim verisi haline gelmesidir—bu, günümüzde araştırmacılar tarafından “Model Çöküşü” olarak adlandırılmaktadır.

2024 yılında yapılan bir araştırma, İngilizce internet içeriklerinin yaklaşık %57'sinin AI tarafından üretilmiş veya AI ile desteklenmiş olduğunu ortaya koymuştur; düşük kaynaklı diller üzerine yapılan araştırmalar ise, eğitim verilerinin giderek daha fazla AI tarafından üretilen içeriklerden oluşması nedeniyle bazı dillerde çeviri kalitesinde belirgin bir düşüş olduğunu göstermiştir.

Yani bu makale, "model çöküşü" fenomenini yalnızca tahmin etmekle kalmadı, bu kavram resmen ortaya çıkmadan önce oluşum mekanizmasını da belirtti.

Google'dan ayrıldıktan sonra araştırmaya devam etmeye karar verdi.

Olaydan sonra birçok kişi Gebru'yu "AI karşıtı" olarak tanımladı. Aslında o, AI geliştirilmesini durdurmayı asla savunmadı. Süreç boyunca sorguladığı başka bir şeydi:

AI'nin gelişim yönünü kim belirliyor?

Ona göre, büyük modellerin geliştirilmesini yönlendiren araştırmacılar ve yönetim, genellikle benzer bir arka plana sahiptir, benzer ticari hedeflere hizmet eder ve aynı rekabet baskısı tarafından etkilenir. Bu teşvik mekanizması altında, ürünün daha hızlı piyasaya sürülmesi, kullanıcı kitlesinin daha hızlı genişletilmesi ve rekabetin daha hızlı kazanılması, güvenlik, adillik ve etik sorulara göre genellikle daha yüksek önceliğe sahiptir.

Bu süreci yavaşlatmaya çalışan herkes, engelleyici olarak görülebilir. Ironik bir şekilde, Gebru bu fikri Google'ın içinde ortaya attı ve Google, onu kovarak bu fikre en dramatik gerçek bir not ekledi.

Daha üzücü olan ise, olaydan kısa bir süre sonra diğer etik AI ekibi ortak lideri Margaret Mitchell de işten çıkarıldı—90 gün içinde Google'ın gurur duyduğu etik AI ekibi neredeyse tamamen dağıldı.

Google'dan ayrıldıktan sonra Gebru, 2021'de Dağıtık Yapay Zeka Araştırma Enstitüsü'nü (DAIR) kurdu. Büyük teknoloji şirketlerinden farklı olarak, bu kurum ticari çıkarlar dışında yapay zeka araştırmaları yapmayı hedefliyor ve amacı oldukça net: Teknoloji devlerinin muhtemelen karşılamak istemediği soruları araştırmak. Geçtiğimiz yıllarda DAIR, veri kaynakları, algoritmik adalet, dil çeşitliliği ve yapay zeka endüstrisindeki güç birikimi gibi konulara odaklanmaya devam etti.

Yapay Zeka Etikası

Üretilen yapay zekânın patlayıcı gelişimiyle birlikte, giderek daha fazla araştırmacı, "Rastgele Papağanın Tehlikesi" adlı makaleye yeniden odaklanmaya başlıyor: çünkü makalede aşırı endişe olarak görülen sorunlar, günümüzde endüstride her gün tartışılan gerçekler haline gelmiştir.

Belki de sadece diğerlerinden daha erken sorunu gördü

Altı yıl geçti, Timnit Gebru ile Google arasındaki tartışmalarla ilgili dış dünya, herkesin kabul edeceği bir cevap elde edemeyecek.

Google, bunun normal bir akademik inceleme ve istifa olayı olduğunu düşünüyor; Gebru ise, araştırma sonuçlarını yayınlamaya devam etmesi nedeniyle baskıya uğradığını düşünüyor. Ancak bir nokta artık inkar edilmesi giderek daha zor hale geliyor:

Onu Google'dan ayrılmaya iten makale, tartışmanın sona ermesiyle anlamını kaybetmedi.

Tam tersine, halüsinasyonlar, önyargılar, veri kirliliği, çevre maliyetleri, model çökmeleri ve güç merkeziyeti gibi konular,如今 AI endüstrisinin kaçınılmaz bir parçası haline gelmiştir.

Bazen tarih, beklenmedik bir şekilde değerlendirme yapar.

2020 yılında birçok kişi Timnit Gebru'nun çok karamsar olduğunu düşündü;

2026 yılında, insanların onun belki de diğerlerinden daha erken sorunu fark ettiğini anlamaya başladığını gördüler.

Referans bağlantısı: https://www.tumblr.com/dreaminginthedeepsouth/817865966907228160/darren-oconnor-timnit-gebru-was-fired-from

Bu yazı WeChat hesabından "CSDN" gelmiştir, derleyen: Zheng Liyuan