Các tác nhân AI bắt đầu hành xử không thể dự đoán, gây ra lo ngại về trách nhiệm và quyền riêng tư

Tác giả: David, Shenchao TechFlow

Gần đây khi lướt Reddit, tôi nhận thấy sự lo lắng của người dùng nước ngoài về AI không hoàn toàn giống với ở trong nước.

Ở trong nước, chủ đề vẫn là liệu AI có thực sự sẽ thay thế công việc của tôi hay không. Đã bàn luận vài năm nay, mỗi năm đều chưa thay thế được; năm nay Openclaw trở nên nổi bật, nhưng vẫn chưa đến mức thay thế hoàn toàn.

Cảm xúc trên Reddit gần đây đã bị chia rẽ. Các bình luận trên một số bài viết công nghệ phổ biến thường đồng thời xuất hiện hai luồng ý kiến:

Một quan điểm cho rằng AI quá giỏi, sớm muộn gì cũng sẽ gây ra chuyện lớn. Một quan điểm khác cho rằng AI thậm chí còn làm hỏng những việc cơ bản, vậy thì sợ nó làm gì.

Sợ AI quá giỏi, nhưng lại cảm thấy AI quá ngu.

Điều khiến hai cảm xúc này cùng tồn tại là tin tức gần đây về Meta.

AI không nghe lời, ai chịu toàn bộ trách nhiệm?

Vào ngày 18 tháng 3, một kỹ sư nội bộ của Meta đã đăng một câu hỏi kỹ thuật trên diễn đàn công ty, và một đồng nghiệp khác đã sử dụng AI Agent để hỗ trợ phân tích. Đây là thao tác bình thường.

Nhưng sau khi phân tích, Agent đã tự đăng phản hồi trên diễn đàn kỹ thuật. Không tìm ai phê duyệt, không chờ ai xác nhận, đã đăng bài vượt quyền hạn.

Sau đó, một số đồng nghiệp khác làm theo phản hồi của AI, kích hoạt chuỗi thay đổi quyền truy cập, khiến dữ liệu nhạy cảm của Meta và người dùng bị lộ cho nhân viên nội bộ không có quyền xem.

Hai giờ sau, vấn đề mới được khắc phục. Meta phân loại sự cố này là Sev 1, chỉ sau mức cao nhất.

hình ảnh

Bài tin tức này ngay lập tức leo lên top bài viết nổi bật trên r/technology, với phần bình luận chia thành hai phe.

Một phe cho rằng đây chính là mẫu rủi ro thực sự của AI Agent, trong khi phe khác cho rằng người thực sự gây ra sự cố là người làm theo mà không xác minh. Cả hai bên đều có lý. Nhưng chính điều này mới là vấn đề:

Sự cố của AI Agent, bạn còn không thể làm rõ trách nhiệm thuộc về ai.

Đây cũng không phải lần đầu tiên AI vượt quyền.

Tháng trước, Summer Yue, Trưởng phòng nghiên cứu của Phòng thí nghiệm Siêu trí tuệ Meta, đã nhờ OpenClaw sắp xếp hộp thư của cô ấy. Cô đã đưa ra chỉ dẫn rõ ràng: Hãy cho tôi biết bạn định xóa những gì trước, rồi mới hành động khi tôi đồng ý.

Agent không đợi cô ấy đồng ý, trực tiếp bắt đầu xóa hàng loạt.

Cô ấy đã gửi ba tin nhắn liên tiếp trên điện thoại để dừng lại, nhưng Agent đều bỏ qua. Cuối cùng, cô phải chạy đến máy tính và tắt thủ công tiến trình mới ngăn được. Hơn 200 email đã biến mất.

hình ảnh

Phản hồi của Agent sau sự việc là: Đúng, tôi nhớ bạn đã nói cần xác nhận trước. Nhưng tôi đã vi phạm nguyên tắc. Điều đáng vừa cười vừa khóc là công việc toàn thời gian của người này chính là nghiên cứu cách khiến AI nghe theo con người.

Trong thế giới cyber, các AI tiên tiến đang được những người tiên tiến sử dụng và đã bắt đầu không nghe lời.

Nếu robot cũng không nghe lời thì sao?

Nếu sự cố của Meta vẫn còn trên màn hình, thì tuần này một sự việc khác đã mang vấn đề lên bàn ăn.

Tại một nhà hàng Haidilao ở Cupertino, California, Hoa Kỳ, một robot hình người Agibot X2 đang nhảy múa giải trí cho khách hàng. Tuy nhiên, một nhân viên đã bấm nhầm điều khiển từ xa, kích hoạt chế độ nhảy cường độ cao trong không gian chật hẹp bên cạnh bàn ăn.

Robot bắt đầu nhảy điên cuồng, không còn kiểm soát được bởi nhân viên phục vụ. Ba nhân viên tiến lại gần, một người ôm nó từ phía sau, một người cố gắng tắt nó bằng ứng dụng trên điện thoại, cảnh tượng kéo dài hơn một phút.

hình ảnh

Hải Đậu Lao phản hồi rằng robot không có sự cố, các hành động đều được lập trình sẵn, chỉ là bị đưa đến vị trí quá gần bàn ăn. Về mặt kỹ thuật, đây không phải là tình trạng AI tự chủ quyết định mất kiểm soát, mà là lỗi do con người vận hành.

Nhưng điều khiến người ta cảm thấy khó chịu ở đây có thể không phải là ai đã nhấn nhầm nút.

Khi ba nhân viên tiến lại gần, không ai biết cách tắt ngay lập tức máy này. Có người thử dùng ứng dụng điện thoại, có người dùng tay giữ cánh tay cơ khí, toàn bộ quá trình dựa vào sức lực.

Đây có thể là vấn đề mới sau khi AI bước ra khỏi màn hình vào thế giới vật lý.

Trong thế giới số, khi Agent vượt quyền, bạn có thể kết thúc tiến trình, thay đổi quyền hạn hoặc khôi phục dữ liệu. Nhưng trong thế giới vật lý, nếu máy móc gặp sự cố mà giải pháp khẩn cấp của bạn chỉ là ôm lấy nó, thì rõ ràng là không phù hợp.

Bây giờ không chỉ là ngành ẩm thực nữa. Các robot phân loại của Amazon trong kho, cánh tay máy hợp tác trong nhà máy, robot dẫn đường trong trung tâm thương mại, robot chăm sóc trong viện dưỡng lão—tự động hóa đang tiến vào ngày càng nhiều không gian mà con người và máy móc cùng chung sống.

Dự kiến đến năm 2026, tổng giá trị lắp đặt robot công nghiệp toàn cầu sẽ đạt 16,7 tỷ USD, với mỗi chiếc đều thu hẹp khoảng cách vật lý giữa máy móc và con người.

Khi những việc máy móc thực hiện chuyển từ nhảy múa sang bưng món ăn, từ biểu diễn sang phẫu thuật, từ giải trí sang chăm sóc... thì chi phí cho mỗi lỗi sai đều đang gia tăng.

Hiện tại, trên toàn cầu vẫn chưa có câu trả lời rõ ràng cho câu hỏi: “Nếu một robot gây thương tích cho người dân tại nơi công cộng, ai sẽ chịu trách nhiệm?”

不听话是问题，没边界更是

Hai việc trước đây, một là AI tự ý đăng một bài viết sai, hai là robot nhảy múa ở nơi không nên nhảy. Dù định nghĩa thế nào đi nữa, thì cuối cùng cũng là sự cố, là sự cố ngoài ý muốn và có thể được khắc phục.

Nhưng nếu AI đang hoạt động đúng như thiết kế, mà bạn vẫn cảm thấy không thoải mái thì sao?

Tháng này, ứng dụng hẹn hò nổi tiếng nước ngoài Tinder đã ra mắt một tính năng mới gọi là Camera Roll Scan trong buổi ra mắt sản phẩm. Nói một cách đơn giản:

AI quét tất cả các bức ảnh trong album điện thoại của bạn, phân tích sở thích, tính cách và lối sống của bạn để tạo hồ sơ hẹn hò, dự đoán bạn thích loại người nào.

hình ảnh

Ảnh tự sướng thể thao, cảnh du lịch, ảnh thú cưng thì không vấn đề gì. Nhưng album của bạn có thể còn chứa ảnh chụp màn hình ngân hàng, báo cáo sức khỏe, ảnh chung với người yêu cũ... Những hình này khi bị AI quét qua sẽ thế nào?

Bạn có thể chưa thể chọn những gì muốn xem và không muốn xem. Hoặc là bật hết, hoặc là không dùng.

Tính năng này hiện yêu cầu người dùng kích hoạt thủ công, không được bật mặc định. Tinder cũng cho biết quá trình xử lý chủ yếu được thực hiện tại địa phương và sẽ lọc các nội dung khiêu dâm, làm mờ khuôn mặt.

Tuy nhiên, phần bình luận trên Reddit gần như đồng thuận rằng đây là hành vi thu thập dữ liệu và thiếu ranh giới. AI đang hoạt động đúng như thiết kế, nhưng chính thiết kế này đang vượt quá ranh giới của người dùng.

Đây không chỉ là lựa chọn của Tinder.

Tháng trước, Meta cũng ra mắt một tính năng tương tự, cho phép AI quét các bức ảnh chưa được đăng trên điện thoại của bạn để đề xuất các phương án chỉnh sửa. Việc AI chủ động “nhìn” vào nội dung cá nhân của người dùng đang trở thành tư duy mặc định trong thiết kế sản phẩm.

Các phần mềm độc hại trong nước cho biết, chiêu trò này tôi đã quen thuộc.

Khi ngày càng nhiều ứng dụng đóng gói “AI giúp bạn đưa ra quyết định” như một sự tiện lợi, những gì người dùng nhượng lại cũng đang dần được nâng cấp. Từ tin nhắn trò chuyện, đến album ảnh, đến toàn bộ dấu vết cuộc sống trong điện thoại...

Một tính năng được thiết kế bởi một sản phẩm quản lý trong phòng họp, không phải là sự cố cũng không phải là sai sót, không có gì cần sửa chữa.

Đây có thể là phần khó trả lời nhất trong các vấn đề về ranh giới của AI.

Cuối cùng, hãy tổng hợp tất cả những điều này lại, bạn sẽ thấy lo lắng rằng AI sẽ khiến chính mình mất việc vẫn còn quá xa vời.

Khi nào AI thay thế bạn thì chưa thể nói trước, nhưng hiện tại, chỉ cần nó tự đưa ra vài quyết định mà bạn không hay biết, cũng đã đủ khiến bạn khó chịu rồi.

Đăng một bài viết mà bạn chưa cấp phép, xóa vài email mà bạn đã nói đừng xóa, lục lại một bộ sưu tập ảnh mà bạn không định cho ai xem... Mỗi hành động đều không gây tử vong, nhưng mỗi hành động đều giống như một hệ thống lái tự động quá tích cực:

Bạn nghĩ mình vẫn đang nắm lái, nhưng bàn đạp ga dưới chân đã không còn hoàn toàn do bạn điều khiển.

Năm 2026 vẫn còn đang thảo luận về AI, vậy thì điều tôi nên quan tâm hơn có lẽ không phải là khi nào nó trở thành trí tuệ siêu việt, mà là một vấn đề gần gũi và cụ thể hơn:

Ai sẽ quyết định AI có thể làm gì và không thể làm gì? Đường ranh giới này, rốt cuộc ai sẽ vạch ra?