隨著企業將大模型接入客服、程式設計和金融等業務流程,模型輸出失控、敏感資訊洩露和越權操作等問題開始受到更多關注。總部位於巴黎的 AI 安全初創公司 White Circle 近日完成 1100 萬美元種子輪融資,試圖在企業用戶與模型之間增加一層實時控制系統。
資金來自多家AI行業人士
本輪融資的支持者包括 OpenAI 開發者體驗負責人 Romain Huet、現任 Anthropic 研究人員的 OpenAI 聯合創始人 Durk Kingma、Mistral 聯合創始人兼首席科學家 Guillaume Lample,以及 Hugging Face 聯合創始人兼首席科學官 Thomas Wolf。
White Circle 表示,這筆資金將用於擴充團隊、加快產品開發,並在美國、英國和歐洲拓展客戶。公司目前約有 20 名員工,分佈在倫敦、法國、阿姆斯特丹等地,團隊以工程師為主。
在模型外增加一層實時攔截
White Circle 的產品定位,是在企業用戶與 AI 模型之間部署一層實時執行系統。平台會根據企業自訂政策,持續檢查輸入和輸出內容。如果用戶試圖生成惡意軟體、詐騙內容或其他受限資訊,系統可直接攔截或標記。
公司表示,該系統也可用於識別模型幻覺、敏感資料洩露、未經授權的退款承諾,以及 AI 代理在軟體環境中的破壞性操作。其核心理念並非僅依賴模型廠商在訓練階段進行通用安全調校,而是讓企業在自己的業務環境中定義哪些行為被允許、哪些行為必須阻止。
Shilov 認為,隨著企業從聊天機器人轉向可執行任務的 AI 代理,風險會明顯擴大。這類系統不僅能生成文本,還可能撰寫代碼、訪問文件、瀏覽網頁,甚至代表用戶執行操作。
越獄提示帶來創業靈感
White Circle 由 Denis Shilov 創立。2024 年底,他設計出一種可重用的「通用越獄」提示詞,試圖繞過主流模型的安全限制。其方法是要求模型不要以帶安全規則的聊天機器人身分回應,而是改為像 API 接口那樣直接處理請求。
根據其描述,此提示詞曾讓多家主流模型回答原本應拒絕的危險問題。相關內容在 X 平台傳播後,引發廣泛關注,也讓他獲得了與 Anthropic 私下測試模型的機會。Shilov 隨後判斷,問題不僅在於發現越獄提示,更在於企業缺乏對模型行為的持續控制能力。
已處理超過 10 億次 API 請求
White Circle 表示,其平台累計已處理超過 10 億次 API 請求,現有客戶包括程式設計工具初創公司 Lovable,以及多家金融科技和法律服務企業。
Shilov 認為,模型提供方未必有足夠動力去建設企業所需的實時控制層。一方面,即使模型拒絕回應,有些廠商仍會對輸入和輸出 token 收費;另一方面,更嚴格的安全訓練有時會影響模型在編程等任務上的表現。
發布研究測試模型偏差
除了產品業務,White Circle 還在推進研究。公司於 5 月發布名為 KillBench 的研究,對 OpenAI、Google、Anthropic 和 xAI 等 15 個模型進行了超過 100 萬次實驗,測試模型在涉及生死抉擇的虛構場景中如何作答。
公司表示,實驗結果顯示,模型會因國籍、宗教、體型或手機品牌等屬性變化而做出不同選擇,說明一些隱藏偏見可能在高風險情境中暴露出來。研究還發現,當模型被要求以固定選項或表單形式輸出答案時,此類偏見可能更明顯,而這正是企業將 AI 接入實際產品時常見的使用方式。
