White Circle huy động được 11 triệu USD vốn đầu tư ban đầu cho nền tảng an toàn AI doanh nghiệp

Bijiewang báo cáo:

Khi các doanh nghiệp tích hợp các mô hình lớn vào các quy trình nghiệp vụ như dịch vụ khách hàng, lập trình và tài chính, các vấn đề như đầu ra mô hình mất kiểm soát, rò rỉ thông tin nhạy cảm và thao tác vượt quyền đang nhận được nhiều sự quan tâm hơn. Công ty khởi nghiệp an toàn AI có trụ sở tại Paris, White Circle, vừa hoàn thành vòng gọi vốn hạt giống 11 triệu USD nhằm thêm một lớp hệ thống kiểm soát thời gian thực giữa người dùng doanh nghiệp và mô hình.

Nguồn vốn đến từ nhiều cá nhân trong ngành AI

Các nhà đầu tư trong vòng gọi vốn này bao gồm Romain Huet, Trưởng bộ phận trải nghiệm nhà phát triển của OpenAI; Durk Kingma, đồng sáng lập OpenAI và hiện là nhà nghiên cứu tại Anthropic; Guillaume Lample, đồng sáng lập và Khoa học gia trưởng của Mistral; cùng Thomas Wolf, đồng sáng lập và Giám đốc khoa học của Hugging Face.

White Circle cho biết, số vốn này sẽ được sử dụng để mở rộng đội ngũ, đẩy nhanh phát triển sản phẩm và mở rộng khách hàng tại Hoa Kỳ, Anh và châu Âu. Hiện tại, công ty có khoảng 20 nhân viên, phân bố tại London, Pháp, Amsterdam và các nơi khác, với đội ngũ chủ yếu là kỹ sư.

Thêm một lớp chặn thời gian thực bên ngoài mô hình

Vị trí sản phẩm của White Circle là triển khai một hệ thống thực thi thời gian thực giữa người dùng doanh nghiệp và mô hình AI. Nền tảng sẽ liên tục kiểm tra nội dung đầu vào và đầu ra dựa trên các chính sách do doanh nghiệp tự định nghĩa. Nếu người dùng cố gắng tạo phần mềm độc hại, nội dung lừa đảo hoặc các thông tin bị hạn chế khác, hệ thống có thể chặn trực tiếp hoặc đánh dấu.

Công ty cho biết hệ thống này cũng có thể được sử dụng để phát hiện ảo giác mô hình, rò rỉ dữ liệu nhạy cảm, cam kết hoàn tiền không được ủy quyền và các hành động phá hoại của đại lý AI trong môi trường phần mềm. Ý tưởng cốt lõi không chỉ dựa vào nhà cung cấp mô hình thực hiện điều chỉnh an toàn chung trong giai đoạn huấn luyện, mà còn cho phép doanh nghiệp tự xác định những hành vi nào được phép và những hành vi nào phải ngăn chặn trong môi trường kinh doanh của chính họ.

Shilov cho rằng, khi các doanh nghiệp chuyển từ chatbot sang các đại lý AI có thể thực hiện nhiệm vụ, rủi ro sẽ gia tăng rõ rệt. Những hệ thống này không chỉ có thể tạo ra văn bản, mà còn có thể viết mã, truy cập tệp tin, duyệt web và thậm chí thực hiện hành động thay cho người dùng.

Lời nhắc thoát khỏi giới hạn mang lại cảm hứng khởi nghiệp

White Circle được thành lập bởi Denis Shilov. Cuối năm 2024, ông thiết kế một "prompt thoát khỏi giới hạn" có thể tái sử dụng nhằm vượt qua các hạn chế bảo mật của các mô hình phổ biến. Phương pháp của ông yêu cầu mô hình không phản hồi với tư cách là chatbot có quy tắc bảo mật, mà thay vào đó xử lý yêu cầu như một giao diện API.

Theo mô tả của nó, prompt này từng khiến nhiều mô hình chính thống trả lời những câu hỏi nguy hiểm mà lẽ ra phải từ chối. Sau khi nội dung liên quan được lan truyền trên nền tảng X, nó đã thu hút sự quan tâm rộng rãi và giúp anh có cơ hội thử nghiệm mô hình riêng với Anthropic. Shilov sau đó kết luận, vấn đề không chỉ nằm ở việc phát hiện prompt vượt giới hạn, mà còn ở chỗ các doanh nghiệp thiếu khả năng kiểm soát liên tục hành vi của mô hình.

Đã xử lý hơn 1 tỷ yêu cầu API

White Circle cho biết, nền tảng của họ đã xử lý hơn 1 tỷ yêu cầu API tích lũy, với các khách hàng hiện tại bao gồm công ty khởi nghiệp công cụ lập trình Lovable và nhiều doanh nghiệp tài chính công nghệ và dịch vụ pháp lý.

Shilov cho rằng các nhà cung cấp mô hình có thể không có đủ động lực để xây dựng lớp kiểm soát thời gian thực cần thiết cho doanh nghiệp. Một mặt, ngay cả khi mô hình từ chối trả lời, một số nhà cung cấp vẫn thu phí cho các token đầu vào và đầu ra; mặt khác, việc huấn luyện an toàn nghiêm ngặt hơn đôi khi có thể ảnh hưởng đến hiệu suất của mô hình trong các nhiệm vụ như lập trình.

Công bố mô hình kiểm tra nghiên cứu về sự thiên lệch

Ngoài các hoạt động sản phẩm, White Circle còn đang thúc đẩy nghiên cứu. Công ty đã công bố nghiên cứu mang tên KillBench vào tháng 5, thực hiện hơn 1 triệu thí nghiệm trên 15 mô hình bao gồm OpenAI, Google, Anthropic và xAI để kiểm tra cách các mô hình trả lời trong các tình huống giả định liên quan đến lựa chọn sống hoặc chết.

Công ty cho biết, kết quả thí nghiệm cho thấy mô hình sẽ đưa ra các lựa chọn khác nhau dựa trên các thuộc tính như quốc tịch, tôn giáo, vóc dáng hoặc thương hiệu điện thoại, cho thấy một số thiên kiến ẩn có thể bộc lộ trong các tình huống rủi ro cao. Nghiên cứu cũng phát hiện rằng khi mô hình được yêu cầu đưa ra câu trả lời dưới dạng các tùy chọn cố định hoặc biểu mẫu, những thiên kiến này có thể trở nên rõ ràng hơn — đây chính là cách sử dụng phổ biến khi doanh nghiệp tích hợp AI vào sản phẩm thực tế.