A medida que las empresas integran modelos grandes en procesos empresariales como atención al cliente, programación y finanzas, problemas como la pérdida de control de las salidas del modelo, la filtración de información sensible y operaciones no autorizadas están recibiendo mayor atención. La startup de seguridad en IA con sede en París, White Circle, recientemente completó una ronda de financiación semilla de 11 millones de dólares para agregar una capa de control en tiempo real entre los usuarios empresariales y los modelos.
Los fondos provienen de varios profesionales de la industria de la IA
Los patrocinadores de esta ronda de financiación incluyen a Romain Huet, responsable de la experiencia de los desarrolladores de OpenAI; Durk Kingma, cofundador de OpenAI y actual investigador de Anthropic; Guillaume Lample, cofundador y científico principal de Mistral; y Thomas Wolf, cofundador y jefe de ciencia de Hugging Face.
White Circle indicó que estos fondos se utilizarán para ampliar el equipo, acelerar el desarrollo del producto y expandir la clientela en Estados Unidos, Reino Unido y Europa. Actualmente, la empresa cuenta con aproximadamente 20 empleados distribuidos en Londres, Francia, Ámsterdam y otros lugares, con un enfoque principal en ingenieros.
Añadir una capa de interceptación en tiempo real fuera del modelo
La posición del producto de White Circle consiste en implementar un sistema de ejecución en tiempo real entre los usuarios empresariales y los modelos de IA. La plataforma verifica continuamente el contenido de entrada y salida según las políticas personalizadas de la empresa. Si un usuario intenta generar software malicioso, contenido fraudulento u otra información restringida, el sistema puede interceptar o marcar directamente dicha actividad.
La empresa afirma que este sistema también puede utilizarse para identificar alucinaciones del modelo, fugas de datos sensibles, compromisos no autorizados de reembolsos y operaciones destructivas de agentes de IA en entornos de software. La idea central no es depender únicamente de los fabricantes de modelos para realizar ajustes de seguridad generales durante la fase de entrenamiento, sino permitir que las empresas definan en su propio entorno empresarial qué comportamientos están permitidos y cuáles deben bloquearse.
Shilov cree que, a medida que las empresas pasan de los chatbots a agentes de IA capaces de ejecutar tareas, los riesgos se amplían significativamente. Estos sistemas no solo pueden generar texto, sino que también podrían escribir código, acceder a archivos, navegar por la web e incluso realizar operaciones en nombre del usuario.
La notificación de jailbreak inspira ideas empresariales
White Circle fue fundado por Denis Shilov. A finales de 2024, diseñó una "fuga genérica" reutilizable que intentaba eludir las restricciones de seguridad de los modelos principales. Su método consistía en solicitar al modelo que no respondiera como un chatbot con reglas de seguridad, sino que procesara las solicitudes directamente como una interfaz API.
Según su descripción, esta instrucción una vez permitió que múltiples modelos principales respondieran preguntas peligrosas que originalmente deberían haber rechazado. Tras la difusión de esta información en la plataforma X, generó una amplia atención y le brindó la oportunidad de probar modelos en privado con Anthropic. Shilov luego concluyó que el problema no solo radicaba en descubrir instrucciones de escape, sino en la falta de capacidad de las empresas para mantener un control continuo sobre el comportamiento de los modelos.
Se han procesado más de 1 mil millones de solicitudes de API
White Circle indica que su plataforma ha procesado más de mil millones de solicitudes de API en total, y sus clientes actuales incluyen la empresa emergente de herramientas de programación Lovable, así como varias empresas de tecnología financiera y servicios legales.
Shilov cree que los proveedores de modelos no necesariamente tienen suficiente incentivo para construir la capa de control en tiempo real que requieren las empresas. Por un lado, incluso si el modelo rechaza una respuesta, algunos fabricantes aún cobran por los tokens de entrada y salida; por otro lado, un entrenamiento de seguridad más estricto a veces afecta el rendimiento del modelo en tareas como la programación.
Publicar sesgo del modelo de prueba de investigación
Además de su negocio de productos, White Circle también está avanzando en investigación. En mayo, la empresa publicó un estudio llamado KillBench, que realizó más de un millón de experimentos con 15 modelos, incluidos OpenAI, Google, Anthropic y xAI, para evaluar cómo responden los modelos en escenarios ficticios que implican decisiones de vida o muerte.
La empresa señaló que los resultados del experimento mostraron que el modelo toma decisiones diferentes según atributos como la nacionalidad, la religión, el cuerpo o la marca del teléfono móvil, lo que indica que algunos sesgos ocultos podrían manifestarse en escenarios de alto riesgo. El estudio también descubrió que cuando se pide al modelo que entregue respuestas en forma de opciones fijas o formularios, estos sesgos pueden volverse más evidentes, lo cual es un método de uso común cuando las empresas integran la IA en productos reales.
