企業が大規模モデルをカスタマーサポート、プログラミング、金融などの業務プロセスに統合するにつれ、モデル出力の制御不能、機密情報の漏洩、権限を超えた操作などの問題がより注目されるようになっている。パリに本社を置くAIセキュリティスタートアップのWhite Circleは、企業ユーザーとモデルの間にリアルタイム制御システムを追加することを目的として、このたび1100万ドルのシードラウンドを達成した。
資金は複数のAI業界関係者から提供されています。
本ラウンドの支援者は、OpenAIの開発者エクスペリエンス責任者であるRomain Huet、現Anthropicの研究者でOpenAIの共同創設者であるDurk Kingma、Mistralの共同創設者兼チーフサイエンティストであるGuillaume Lample、およびHugging Faceの共同創設者兼チーフサイエンティストのThomas Wolfを含みます。
White Circleは、この資金をチームの拡充、製品開発の加速、および米国、英国、ヨーロッパでの顧客拡大に使用すると示しています。同社は現在、ロンドン、フランス、アムステルダムなどに拠点を置く約20名の従業員を抱えており、チームは主にエンジニアで構成されています。
モデルの外にリアルタイムブロッキング層を追加する
White Circle の製品は、企業ユーザーとAIモデルの間にリアルタイム実行システムを配置することを目的としています。プラットフォームは、企業が定義したポリシーに基づいて入力と出力の内容を継続的にチェックします。ユーザーがマルウェア、詐欺コンテンツ、その他の制限情報の生成を試みた場合、システムは直接ブロックまたはマークすることができます。
同社は、このシステムがモデルの幻覚、機密データの漏洩、無許可の返金約束、およびAIエージェントによるソフトウェア環境での破壊的動作の検出にも使用できることを述べています。その核心的なアイデアは、モデルベンダーがトレーニング段階で一般的なセキュリティ調整を行うことにのみ依存するのではなく、企業が自社のビジネス環境でどの行動を許可し、どの行動を阻止すべきかを定義することです。
シロフは、企業がチャットボットからタスクを実行できるAIエージェントに移行するにつれて、リスクが明確に拡大すると考えている。このようなシステムは、テキストを生成するだけでなく、コードを書いたり、ファイルにアクセスしたり、ウェブを閲覧したり、ユーザーに代わって操作を実行したりすることも可能である。
脱獄のヒントが起業のインスピレーションをもたらす
White CircleはDenis Shilovによって設立された。2024年末、彼は再利用可能な「汎用脱獄」プロンプトを設計し、主要モデルのセキュリティ制限を回避しようとした。その方法は、モデルにセキュリティルールを持つチャットボットとしてではなく、APIインターフェースのようにリクエストを直接処理するよう要求することであった。
その説明によると、このプロンプトはかつて複数の主要モデルが本来拒否すべき危険な質問に回答するように仕向けた。関連情報がXプラットフォームで拡散された後、広範な注目を集め、彼はAnthropicとモデルの非公開テストを行う機会を得た。Shilovはその後、問題はジャンププロンプトの発見にとどまらず、企業がモデルの行動を継続的に制御する能力を欠いていることにあると判断した。
10億回以上のAPIリクエストを処理済み
White Circleは、同プラットフォームで累計10億回以上のAPIリクエストを処理してきたことを示しており、現在の顧客にはプログラミングツールのスタートアップであるLovableや、複数のフィンテックおよび法律サービス企業が含まれます。
シロフは、モデル提供者が企業に必要なリアルタイム制御層を構築する十分な動機を持っていないと考えている。一方で、モデルが回答を拒否しても、一部のベンダーは入力および出力トークンに対して依然として料金を課金している。他方で、より厳格なセキュリティトレーニングは、プログラミングなどのタスクにおけるモデルのパフォーマンスに影響を与えることがある。
研究テストモデルのバイアスを公開
製品業務に加えて、White Circleは研究も推進しています。同社は5月に「KillBench」という研究を発表し、OpenAI、Google、Anthropic、xAIなど15のモデルに対して100万回以上の実験を実施し、生死を左右する仮想シナリオにおけるモデルの回答行動をテストしました。
同社は、実験結果により、モデルが国籍、宗教、体型、携帯電話ブランドなどの属性の変化に応じて異なる選択をすることを示し、一部の隠れたバイアスが高リスクのシナリオで顕在化する可能性があると述べています。また、モデルに固定された選択肢やフォーム形式で回答を求める場合、このようなバイアスがより明確になることが判明しました。これは、企業がAIを実際の製品に統合する際に一般的な使用方法です。
