Anthropic, Öncü Yapay Zeka Modelleri İçin Düzenleyici Çerçeve Öneriyor

CoinDesk tarafından rapor edildi:

Anthropic, öncü AI modelleri için bir politika paketi yayınladı. Şirket, mevcut şeffaflık kurallarının model kapasitesindeki ilerlemeye ayak uyduramadığını ve yüksek riskli sistemlerin halka açık piyasaya girmesinden önce önlem alabilmek için hükümetlerin daha net müdahale yetkilerine ihtiyaç duyduğunu belirtti.

Düzenleyici hedefler, hesaplama gücü ve gelire göre belirlenir.

Bu plan iki bölümden oluşuyor: biri en güçlü modelin teknik ve düzenleyici gereksinimlerine odaklanıyor, diğeri otomasyonun ekonomik dağılım üzerindeki etkilerini tartışıyor. Şimdilik açıklanan bilgilere göre, ilk kısım daha tamamlanmış görünüyor.

Anthropic, tüm sektörü kapsamak yerine, düzenlemeleri yalnızca birkaç büyük geliştiriciye odaklamaktadır. Şirket, 10²⁵'den fazla kayan nokta işlemi eğitilen modellerin çerçeveye dahil edilmesini önermektedir; ayrıca yıllık AI ile ilgili geliri 500 milyon doları veya AI araştırma ve geliştirme harcamaları 1 milyar doları aşan şirketler de ilgili gerekliliklerden etkilenmelidir.

Bu tasarım, kaynakları en çok ve en yetenekli modellere odaklanmayı amaçlar; küçük ve orta ölçekli geliştiricileri ve araştırma kurumlarını aynı düzeyde düzenleyici yük altına almaz.

Hükümetin yüksek riskli listelemeleri engelleyebilmesi savunuluyor

Şirket, en temel değişikliğin, hükümetin yüksek riskli modellerin dağıtımını engelleme veya kontrol etme yasal yetkisine sahip olmasından oluştuğunu belirtti. Şu anda ABD, modellerin genel publice sunulmadan önce实质性 engelleme yapacak tam bir mekanizmaya sahip değil.

Ön plan model geliştiricileri, yayınlamadan önce testleri tamamlamalı ve modelin davranışını ve risk kontrol yöntemlerini açıklayan test özetini, güvenlik çerçevesini ve sistem kartını kamuoyu ile paylaşmalıdır. Kurumlar ayrıca düzenli olarak risk raporları sunmalı ve genel risk durumunu ile güvenlik çalışmalarının ilerlemesini açıklamalıdır.

Anthropic, şirketlerin kendi gerçekleştirdiği testleri gözden geçirmek ve model riski sonuçlarını ayrı olarak yayınlamak için bağımsız değerlendirme kurumları getirilmesini öne sürüyor. Bu sayede düzenleyici kurumlar ve kamuoyu, şirketlerin kendi açıklamalarına yalnızca bağımlı olmayacak.

Ceza ve güvenlik gereklilikleri aynı anda artırılıyor

İlgili tasarım kapsamında, Anthropic, sabit cezalar yerine sivil cezaların şirketlerin küresel yıllık gelirleriyle ilişkilendirilmesini öneriyor. Şirketler, yalnızca bu şekilde cezaların büyük AI şirketleri için gerçek bir kısıt oluşturacağını düşünüyor. Tekrarlayan ihlallerde ceza miktarı daha da artırılmalıdır.

Test ve açıklamaların dışında, program, şirketlerin model ağırlıklarını ve eğitim sistemlerini dış saldırlardan ve içsel kötüye kullanımından korumak için daha güçlü bir güvenlik sistemi kurmasını gerektirir. Şirketler, güvenlik planının genel yapısını açıklayabilir; daha detaylı bilgiler ise hükümet kurumlarının talebi üzerine sağlanacaktır.

Anthropic, hükümetlerin ve endüstrinin bağımsız değerlendiriciler için standartlar belirlemesini ve bu değerlendiricilere yeterli finansman ile gerekli erişim haklarının sağlanmasını önerdi. Öncü modeller genellikle şirketlerin en hassas varlıkları olduğundan, kimin değerlendireceği ve nasıl erişim sağlanacağı, uygulamadaki zorluklardan biri olacaktır.

Dört ana riski belirleyin

Anthropic, dosyada dört ana risk kategorisini listeliyor: biyolojik risk, siber güvenlik riski, kontrol kaybı riski ve AI'nın kendi geliştirme sürecini otomatik olarak hızlandırma riski. Şirket, bu risklerin birbirinden bağımsız olmadığını ve birbirini kuvvetlendirebileceğini düşünüyor.

Örneğin, büyük ölçekli yazılım hatalarını keşfetme yeteneğine sahip modeller, hastaneler ve enerji ağları gibi kritik altyapılara doğrudan etki edebilir; yeterli kısıtlamalar olmadan bu yetenekler biyolojik risklerle birleşebilir.

İlgili önlemler kapsamında, Anthropic, internet ve kritik altyapı korumasını güçlendirmeyi, kritik hizmetlerin eski sistemlerle değiştirilmesini ve önde gelen AI'nın ağ yeteneklerindeki değişiklikleri sürekli olarak izleyen özel bir hükümet fonksiyonu kurmayı öneriyor. Kontrol kaybı ve otomasyonlu araştırma geliştirme riskleri konusunda şirket, ilgili yönetim araçlarının henüz olgunlaşmadığını ve güvensiz sistemlerin tespit edilmesi, izole edilmesi ve kapatılması yeteneklerinin geliştirilmeye devam edilmesi gerektiğini kabul ediyor.

Ek bilgi: Anthropic, belgede mevcut Kaliforniya ve New York gibi bölgelerdeki şeffaflık kurallarının bir etkisi olduğunu, ancak ileri modellerin hızlı yinelemesiyle gelen riskleri yalnızca açıklayıcı açıklamalarla yeterince kapsayamayacağını belirtti.