Seiring perusahaan mengintegrasikan model besar ke dalam proses bisnis seperti layanan pelanggan, pemrograman, dan keuangan, masalah seperti keluaran model yang tidak terkendali, kebocoran informasi sensitif, dan operasi berlebihan semakin mendapat perhatian. Perusahaan rintisan keamanan AI berbasis di Paris, White Circle, baru saja menyelesaikan pendanaan seri seed senilai $11 juta untuk menambahkan lapisan sistem kontrol real-time di antara pengguna perusahaan dan model.
Dana berasal dari berbagai pihak di industri AI
Investor dalam putaran pendanaan ini meliputi Romain Huet, Head of Developer Experience di OpenAI; Durk Kingma, co-founder OpenAI dan peneliti saat ini di Anthropic; Guillaume Lample, co-founder dan Chief Scientist di Mistral; serta Thomas Wolf, co-founder dan Chief Scientific Officer di Hugging Face.
White Circle menyatakan bahwa dana ini akan digunakan untuk memperluas tim, mempercepat pengembangan produk, dan memperluas pelanggan di Amerika Serikat, Inggris, dan Eropa. Saat ini, perusahaan memiliki sekitar 20 karyawan yang tersebar di London, Prancis, Amsterdam, dan lokasi lainnya, dengan tim yang sebagian besar terdiri dari insinyur.
Tambahkan lapisan pemblokiran real-time di luar model
Pemosisian produk White Circle adalah menempatkan sistem eksekusi real-time di antara pengguna perusahaan dan model AI. Platform ini secara terus-menerus memeriksa konten input dan output berdasarkan kebijakan yang ditentukan perusahaan. Jika pengguna mencoba menghasilkan perangkat lunak berbahaya, konten penipuan, atau informasi terbatas lainnya, sistem dapat langsung menghalangi atau menandai.
Perusahaan menyatakan bahwa sistem ini juga dapat digunakan untuk mengidentifikasi ilusi model, kebocoran data sensitif, janji pengembalian dana yang tidak sah, serta operasi merusak yang dilakukan agen AI di lingkungan perangkat lunak. Gagasan intinya bukan hanya mengandalkan penyesuaian keamanan umum yang dilakukan pabrikan model selama tahap pelatihan, tetapi memungkinkan perusahaan untuk menentukan sendiri perilaku apa yang diizinkan dan perilaku apa yang harus dicegah di lingkungan bisnis mereka.
Shilov percaya bahwa risiko akan membesar secara signifikan seiring perusahaan beralih dari chatbot ke agen AI yang dapat menjalankan tugas. Sistem semacam ini tidak hanya mampu menghasilkan teks, tetapi juga dapat menulis kode, mengakses file, menjelajahi web, bahkan melakukan tindakan atas nama pengguna.
Pemberitahuan jailbreak membawa inspirasi kewirausahaan
White Circle didirikan oleh Denis Shilov. Pada akhir 2024, ia merancang sebuah "jailbreak" generik yang dapat digunakan kembali untuk mencoba menghindari batasan keamanan model utama. Metodenya meminta model untuk tidak merespons sebagai chatbot dengan aturan keamanan, tetapi sebaliknya menangani permintaan secara langsung seperti antarmuka API.
Menurut deskripsinya, prompt ini pernah memungkinkan berbagai model utama menjawab pertanyaan berbahaya yang seharusnya ditolak. Konten terkait menyebar di platform X, memicu perhatian luas, dan membawanya mendapatkan kesempatan untuk menguji model secara pribadi bersama Anthropic. Shilov kemudian menyimpulkan bahwa masalahnya bukan hanya pada penemuan prompt jailbreak, tetapi pada kurangnya kemampuan perusahaan untuk mengendalikan perilaku model secara berkelanjutan.
Telah menangani lebih dari 1 miliar permintaan API
White Circle menyatakan bahwa platformnya telah menangani lebih dari 1 miliar permintaan API secara kumulatif, dengan klien saat ini meliputi perusahaan rintisan alat pemrograman Lovable, serta sejumlah perusahaan fintech dan jasa hukum.
Shilov percaya bahwa penyedia model belum tentu memiliki dorongan yang cukup untuk membangun lapisan kontrol real-time yang dibutuhkan perusahaan. Di satu sisi, bahkan jika model menolak menjawab, beberapa produsen tetap akan membebankan biaya untuk token input dan output; di sisi lain, pelatihan keamanan yang lebih ketat terkadang dapat memengaruhi kinerja model dalam tugas-tugas seperti pemrograman.
Rilis model pengujian penelitian bias
Selain bisnis produk, White Circle juga sedang mendorong penelitian. Pada bulan Mei, perusahaan merilis penelitian bernama KillBench, yang melakukan lebih dari satu juta eksperimen terhadap 15 model, termasuk OpenAI, Google, Anthropic, dan xAI, untuk menguji bagaimana model-model tersebut menjawab dalam skenario fiksi yang melibatkan pilihan hidup atau mati.
Perusahaan menyatakan bahwa hasil eksperimen menunjukkan bahwa model akan membuat pilihan berbeda berdasarkan atribut seperti kewarganegaraan, agama, tubuh, atau merek ponsel, yang menunjukkan bahwa beberapa bias tersembunyi mungkin terungkap dalam skenario berisiko tinggi. Penelitian juga menemukan bahwa ketika model diminta menghasilkan jawaban dalam bentuk opsi tetap atau formulir, bias semacam ini mungkin menjadi lebih jelas—ini adalah cara umum yang digunakan perusahaan saat mengintegrasikan AI ke dalam produk nyata.
