Alors que les entreprises intègrent des modèles de grande taille dans des processus métier tels que le service client, la programmation et la finance, des problèmes tels que la perte de contrôle des sorties du modèle, les fuites d'informations sensibles et les opérations non autorisées suscitent une attention croissante. La startup française de sécurité IA White Circle, basée à Paris, vient de lever 11 millions de dollars en financement de série semence afin d'ajouter une couche de contrôle en temps réel entre les utilisateurs professionnels et les modèles.
Les fonds proviennent de plusieurs acteurs du secteur de l'IA.
Les investisseurs de ce tour de financement incluent Romain Huet, responsable de l'expérience développeur chez OpenAI, Durk Kingma, cofondateur d'OpenAI et chercheur actuel chez Anthropic, Guillaume Lample, cofondateur et scientifique en chef de Mistral, ainsi que Thomas Wolf, cofondateur et directeur scientifique de Hugging Face.
White Circle indique que ces fonds seront utilisés pour élargir l'équipe, accélérer le développement produit et étendre la clientèle aux États-Unis, au Royaume-Uni et en Europe. L'entreprise compte actuellement environ 20 employés répartis à Londres, en France, à Amsterdam, etc., avec une équipe principalement composée d'ingénieurs.
Ajouter une couche de blocage en temps réel en dehors du modèle
La position produit de White Circle consiste à déployer un système d'exécution en temps réel entre les utilisateurs professionnels et les modèles d'IA. La plateforme vérifie en continu le contenu d'entrée et de sortie selon les politiques personnalisées de l'entreprise. Si un utilisateur tente de générer des logiciels malveillants, du contenu frauduleux ou d'autres informations restreintes, le système peut bloquer ou marquer directement ces contenus.
L'entreprise affirme que ce système peut également être utilisé pour détecter les hallucinations du modèle, les fuites de données sensibles, les engagements de remboursement non autorisés et les opérations destructrices des agents IA dans les environnements logiciels. L'idée centrale n'est pas de compter uniquement sur les fabricants de modèles pour effectuer des ajustements de sécurité généraux lors de la formation, mais plutôt de permettre aux entreprises de définir, dans leur propre environnement métier, quelles actions sont autorisées et quelles actions doivent être bloquées.
Shilov estime que le risque s'élargit considérablement à mesure que les entreprises passent des chatbots aux agents AI capables d'exécuter des tâches. Ces systèmes peuvent non seulement générer du texte, mais aussi écrire du code, accéder à des fichiers, naviguer sur le web, voire effectuer des actions au nom des utilisateurs.
L'alerte de jailbreak inspire une idée d'entreprise
White Circle a été créé par Denis Shilov. À la fin de l'année 2024, il a conçu un « jailbreak » réutilisable, visant à contourner les restrictions de sécurité des modèles dominants. Sa méthode consiste à demander au modèle de ne pas répondre en tant que chatbot soumis à des règles de sécurité, mais plutôt de traiter les requêtes directement comme une interface API.
Selon sa description, cette instruction a un moment permis à plusieurs modèles principaux de répondre à des questions dangereuses qu'ils devraient normalement refuser. Après que ces informations se soient répandues sur la plateforme X, elles ont suscité une large attention et lui ont valu l'opportunité de tester en privé des modèles auprès d'Anthropic. Shilov a ensuite conclu que le problème ne se limitait pas à la découverte d'instructions de contournement, mais résidait dans le manque de contrôle continu des entreprises sur le comportement des modèles.
Plus de 1 milliard de requêtes API traitées
White Circle indique que sa plateforme a traité plus d'un milliard de requêtes API au total, avec pour clients actuels l'entreprise start-up d'outils de programmation Lovable, ainsi que plusieurs entreprises de technologie financière et de services juridiques.
Shilov estime que les fournisseurs de modèles n'ont pas nécessairement suffisamment d'incitations pour construire la couche de contrôle en temps réel requise par les entreprises. D'une part, même si le modèle refuse de répondre, certains fabricants continuent de facturer les tokens d'entrée et de sortie ; d'autre part, une formation sécurisée plus stricte peut parfois nuire aux performances du modèle sur des tâches telles que la programmation.
Publier les biais du modèle de test de recherche
En plus de ses activités produit, White Circle mène également des recherches. En mai, l'entreprise a publié une étude intitulée KillBench, réalisant plus d'un million d'expériences sur 15 modèles, dont OpenAI, Google, Anthropic et xAI, pour tester la manière dont ces modèles répondent dans des scénarios fictifs impliquant des choix de vie ou de mort.
L'entreprise affirme que les résultats de l'expérience montrent que le modèle fait des choix différents en fonction de caractéristiques telles que la nationalité, la religion, la corpulence ou la marque de téléphone, ce qui indique que certains biais cachés pourraient se manifester dans des scénarios à haut risque. L'étude révèle également que ces biais sont plus prononcés lorsque le modèle est invité à fournir des réponses sous forme d'options fixes ou de formulaires, ce qui correspond à une utilisation courante lors de l'intégration de l'IA dans des produits réels.
