Seiring perusahaan mengintegrasikan model besar ke dalam proses bisnis seperti perkhidmatan pelanggan, pengaturcaraan, dan kewangan, isu-isu seperti output model yang tidak terkawal, kebocoran maklumat sensitif, dan operasi tanpa kuasa semakin mendapat perhatian. Syarikat mula-mula keselamatan AI berpusat di Paris, White Circle, baru-baru ini menutup pembiayaan benih sebanyak $11 juta untuk menambahkan lapisan kawalan masa nyata antara pengguna perniagaan dan model.
Dana berasal daripada pelbagai individu dalam industri AI
Pembiayaan ini disokong oleh Romain Huet, pengurus pengalaman pembangun OpenAI; Durk Kingma, ahli peneliti Anthropic dan salah seorang pendiri OpenAI; Guillaume Lample, salah seorang pendiri Mistral dan ketua saintis; serta Thomas Wolf, salah seorang pendiri Hugging Face dan ketua saintis.
White Circle menyatakan bahawa dana ini akan digunakan untuk memperluas pasukan, mempercepat pembangunan produk, dan memperluaskan pelanggan di Amerika Syarikat, United Kingdom, dan Eropah. Syarikat kini mempunyai sekitar 20 orang pekerja yang tersebar di London, Perancis, Amsterdam, dan tempat-tempat lain, dengan pasukan yang terutamanya terdiri daripada jurutera.
Tambahkan satu lapisan penghalang masa nyata di luar model
Posisi produk White Circle adalah menempatkan sistem eksekusi real-time di antara pengguna perusahaan dan model AI. Platform ini akan secara berterusan memeriksa kandungan input dan output berdasarkan dasar polisi yang ditetapkan oleh perusahaan. Jika pengguna cuba menghasilkan perisian jahat, kandungan penipuan, atau maklumat terhad lain, sistem boleh menghalang atau menandakan secara langsung.
Syarikat menyatakan bahawa sistem ini juga boleh digunakan untuk mengenal pasti ilusi model, kebocoran data sensitif, janji refund yang tidak sah, serta tindakan merosakkan oleh agen AI dalam persekitaran perisian. Gagasan utamanya bukan hanya bergantung pada penyesuaian keselamatan umum yang dilakukan oleh pembuat model semasa peringkat latihan, tetapi membolehkan syarikat menentukan sendiri perilaku apa yang dibenarkan dan perilaku apa yang mesti dicegah dalam persekitaran perniagaan mereka.
Shilov percaya bahawa risiko akan meluas dengan jelas apabila perusahaan beralih dari chatbot kepada agen AI yang boleh menjalankan tugas. Sistem sebegini tidak hanya mampu menghasilkan teks, tetapi juga boleh menulis kod, mengakses fail, melayari laman web, dan bahkan menjalankan tindakan atas nama pengguna.
Pemberitahuan jailbreak membawa inspirasi perniagaan
White Circle didirikan oleh Denis Shilov. Pada akhir 2024, beliau mereka satu "jailbreak" universal yang boleh digunakan semula untuk mencuba mengelakkan sekatan keselamatan model utama. Kaedahnya meminta model untuk tidak merespons sebagai chatbot dengan peraturan keselamatan, tetapi sebaliknya memproses permintaan secara langsung seperti antaramuka API.
Menurut penerangannya, petunjuk ini pernah membolehkan pelbagai model utama menjawab soalan berbahaya yang seharusnya ditolak. Selepas perkara ini tersebar di platform X, ia menarik perhatian luas dan membawa kepadanya peluang untuk menguji model secara peribadi bersama Anthropic. Shilov kemudian menyimpulkan bahawa masalahnya bukan sahaja terletak pada penemuan petunjuk pelarian, tetapi juga pada kurangnya kemampuan perusahaan untuk mengawal tingkah laku model secara berterusan.
Telah memproses lebih daripada 1 miliar permintaan API
White Circle menyatakan bahawa platformnya telah mengolah lebih daripada 1 miliar permintaan API secara kumulatif, dengan pelanggan semasa termasuk syarikat rintisan alat pemrograman Lovable, serta pelbagai syarikat fintech dan perkhidmatan undang-undang.
Shilov percaya bahawa penyedia model mungkin tidak mempunyai motivasi yang mencukupi untuk membina lapisan kawalan masa nyata yang diperlukan oleh perusahaan. Sebagai contoh, walaupun model menolak jawapan, beberapa pengeluar masih mengenakan caj untuk token input dan output; di sisi lain, latihan keselamatan yang lebih ketat kadang-kadang boleh mempengaruhi prestasi model dalam tugas-tugas seperti pemrograman.
Menerbitkan model ujian penyelidikan bias
Selain urusan produk, White Circle juga sedang memajukan penyelidikan. Pada bulan Mei, syarikat tersebut menerbitkan penyelidikan bernama KillBench, yang menjalankan lebih daripada 1 juta eksperimen terhadap 15 model termasuk OpenAI, Google, Anthropic, dan xAI untuk menguji bagaimana model-model tersebut menjawab dalam situasi fiksyen yang melibatkan pilihan antara hidup dan mati.
Syarikat menyatakan bahawa keputusan eksperimen menunjukkan model akan membuat pilihan yang berbeza berdasarkan atribut seperti kebangsaan, agama, bentuk badan, atau jenama telefon bimbit, yang menunjukkan bahawa beberapa bias tersembunyi mungkin terdedah dalam skenario berisiko tinggi. Kajian juga mendapati bahawa apabila model diminta untuk mengeluarkan jawapan dalam bentuk pilihan tetap atau borang, bias semacam ini mungkin menjadi lebih jelas—ini adalah cara penggunaan yang biasa apabila perusahaan mengintegrasikan AI ke dalam produk sebenar.
