เมื่อองค์กรเชื่อมต่อโมเดลขนาดใหญ่เข้ากับกระบวนการทางธุรกิจต่างๆ เช่น บริการลูกค้า การเขียนโปรแกรม และการเงิน ปัญหาต่างๆ เช่น ผลลัพธ์ของโมเดลที่ควบคุมไม่ได้ การรั่วไหลของข้อมูลที่ละเอียดอ่อน และการดำเนินการเกินสิทธิ์ จึงได้รับความสนใจเพิ่มขึ้น บริษัทสตาร์ทอัพด้านความปลอดภัยของ AI ที่มีสำนักงานใหญ่อยู่ที่ปารีส White Circle เพิ่งระดมทุนแบบ Seed Round ได้ 11 ล้านดอลลาร์สหรัฐ เพื่อสร้างระบบควบคุมแบบเรียลไทม์ระหว่างผู้ใช้องค์กรกับโมเดล
ทุนมาจากบุคคลหลายรายในอุตสาหกรรม AI
ผู้สนับสนุนในการระดมทุนครั้งนี้รวมถึง Romain Huet หัวหน้าประสบการณ์นักพัฒนาของ OpenAI, Durk Kingma ผู้ร่วมก่อตั้ง OpenAI ซึ่งปัจจุบันเป็นนักวิจัยของ Anthropic, Guillaume Lample ผู้ร่วมก่อตั้งและหัวหน้านักวิทยาศาสตร์ของ Mistral และ Thomas Wolf ผู้ร่วมก่อตั้งและหัวหน้านักวิทยาศาสตร์ของ Hugging Face
White Circle ระบุว่า เงินทุนนี้จะใช้ในการขยายทีม เร่งการพัฒนาผลิตภัณฑ์ และขยายฐานลูกค้าในสหรัฐอเมริกา สหราชอาณาจักร และยุโรป ปัจจุบันบริษัทมีพนักงานประมาณ 20 คน กระจายอยู่ที่ลอนดอน ฝรั่งเศส อัมสเตอร์ดัม เป็นต้น โดยทีมงานส่วนใหญ่เป็นวิศวกร
เพิ่มชั้นการบล็อกแบบเรียลไทม์นอกโมเดล
ตำแหน่งทางผลิตภัณฑ์ของ White Circle คือการวางระบบการดำเนินการแบบเรียลไทม์ระหว่างผู้ใช้องค์กรกับโมเดล AI แพลตฟอร์มจะตรวจสอบเนื้อหาขาเข้าและขาออกอย่างต่อเนื่องตามนโยบายที่องค์กรกำหนดเอง หากผู้ใช้พยายามสร้างมัลแวร์ เนื้อหาหลอกลวง หรือข้อมูลที่ถูกจำกัดอื่นๆ ระบบสามารถบล็อกหรือทำเครื่องหมายได้ทันที
บริษัทระบุว่าระบบชุดนี้ยังสามารถใช้ในการระบุภาพลวงของโมเดล การรั่วไหลของข้อมูลที่ละเอียดอ่อน การให้คำมั่นเรื่องการคืนเงินโดยไม่ได้รับอนุญาต และการดำเนินการที่ก่อให้เกิดความเสียหายของตัวแทน AI ในสภาพแวดล้อมซอฟต์แวร์ แนวคิดหลักคือไม่ได้พึ่งพาผู้ผลิตโมเดลในการปรับแต่งความปลอดภัยแบบทั่วไปในขั้นตอนการฝึกอบรม แต่ให้บริษัทกำหนดเองว่าในสภาพแวดล้อมทางธุรกิจของตน ควรอนุญาตพฤติกรรมใด และควรหยุดยั้งพฤติกรรมใด
ชิโลฟเชื่อว่า เมื่อองค์กรเปลี่ยนจากแชทบอทไปสู่ตัวแทน AI ที่สามารถดำเนินการได้ ความเสี่ยงจะขยายตัวอย่างชัดเจน ระบบเหล่านี้ไม่เพียงแต่สามารถสร้างข้อความเท่านั้น แต่ยังอาจเขียนโค้ด เข้าถึงไฟล์ ท่องเว็บไซต์ หรือแม้แต่ดำเนินการแทนผู้ใช้
คำเตือนการหลบหนีสร้างแรงบันดาลใจในการเริ่มต้นธุรกิจ
White Circle ถูกก่อตั้งโดย Denis Shilov ในปลายปี 2024 เขาได้ออกแบบคำสั่ง "การหลบหนีแบบใช้ซ้ำได้" ที่สามารถนำกลับมาใช้ใหม่ เพื่อหลีกเลี่ยงข้อจำกัดด้านความปลอดภัยของโมเดลหลัก โดยวิธีการของเขาคือการขอให้โมเดลไม่ตอบกลับในบทบาทของแชทบอทที่มีกฎความปลอดภัย แต่เปลี่ยนเป็นจัดการคำขอโดยตรงเหมือนอินเทอร์เฟซ API
ตามคำอธิบายของมัน คำชี้แนะนี้เคยทำให้โมเดลหลักหลายตัวตอบคำถามอันตรายที่ควรจะปฏิเสธ หลังจากเนื้อหานี้แพร่กระจายบนแพลตฟอร์ม X มันได้รับความสนใจอย่างกว้างขวาง และทำให้เขาได้รับโอกาสทดสอบโมเดลกับ Anthropic แบบส่วนตัว ชิโลฟต่อมาสรุปว่า ปัญหาไม่ได้อยู่ที่การค้นพบคำชี้แนะเพื่อหลบเลี่ยงข้อจำกัด แต่อยู่ที่บริษัทขาดความสามารถในการควบคุมพฤติกรรมของโมเดลอย่างต่อเนื่อง
ได้ประมวลผลคำขอ API เกิน 1 พันล้านครั้ง
White Circle ระบุว่า แพลตฟอร์มของพวกเขาได้ประมวลผลคำขอ API มากกว่า 1 พันล้านครั้งแล้ว โดยมีลูกค้าปัจจุบันรวมถึงบริษัทสตาร์ทอัพด้านเครื่องมือโปรแกรมมิ่ง Lovable และบริษัทหลายแห่งในภาคเทคโนโลยีการเงินและบริการทางกฎหมาย
ชิโลฟเชื่อว่าผู้ให้บริการโมเดลอาจไม่มีแรงจูงใจเพียงพอในการสร้างชั้นการควบคุมแบบเรียลไทม์ที่องค์กรต้องการ ทั้งนี้ ในทางหนึ่ง แม้ว่าโมเดลจะปฏิเสธคำตอบ แต่ผู้ผลิตบางรายยังคงเรียกเก็บค่าใช้จ่ายสำหรับ token ที่ป้อนเข้าและส่งออก ในทางตรงกันข้าม การฝึกอบรมด้านความปลอดภัยที่เข้มงวดยิ่งขึ้นบางครั้งอาจส่งผลกระทบต่อประสิทธิภาพของโมเดลในงานต่างๆ เช่น การเขียนโปรแกรม
เผยแพร่แบบจำลองการทดสอบการลำเอียง
นอกจากธุรกิจผลิตภัณฑ์แล้ว White Circle ยังกำลังขับเคลื่อนการวิจัย บริษัทได้เผยแพร่การวิจัยชื่อ KillBench ในเดือนพฤษภาคม โดยทำการทดลองมากกว่า 1 ล้านครั้งกับโมเดล 15 ตัว เช่น OpenAI, Google, Anthropic และ xAI เพื่อทดสอบว่าโมเดลเหล่านี้จะตอบสนองอย่างไรในสถานการณ์สมมติที่เกี่ยวข้องกับการตัดสินใจเรื่องชีวิตและความตาย
บริษัทระบุว่าผลการทดลองแสดงให้เห็นว่าโมเดลจะทำการตัดสินใจแตกต่างกันตามลักษณะเช่น สัญชาติ ศาสนา รูปร่าง หรือยี่ห้อโทรศัพท์มือถือ ซึ่งบ่งชี้ว่าอคติที่ซ่อนอยู่บางประการอาจเปิดเผยขึ้นในสถานการณ์ที่มีความเสี่ยงสูง การศึกษาพบเพิ่มเติมว่า เมื่อโมเดลถูกขอให้ตอบคำตอบในรูปแบบตัวเลือกคงที่หรือแบบฟอร์ม อคติเหล่านี้อาจชัดเจนยิ่งขึ้น ซึ่งเป็นวิธีการใช้งานที่พบได้บ่อยเมื่อธุรกิจผสาน AI เข้ากับผลิตภัณฑ์จริง
