Hàng ngàn người trên toàn cầu bán dữ liệu cá nhân để huấn luyện AI giữa các rủi ro về quyền riêng tư

Tác giả: The Guardian

Biên dịch: Deep潮 TechFlow

Dẫn nhập của Shenchao: Bài điều tra này phơi bày một ngành công nghiệp màu xám đang phát triển nhanh chóng: hàng ngàn người trên toàn cầu kiếm tiền từ việc bán giọng nói, khuôn mặt, hồ sơ cuộc gọi và video hàng ngày của họ để huấn luyện AI.

Đây không phải là cuộc thảo luận chung chung về tranh cãi quyền riêng tư, mà là một cuộc điều tra có nhân vật thật, số tiền thật và hậu quả thật – một diễn viên đã bán khuôn mặt mình, sau đó nhìn thấy “chính mình” trên Instagram quảng bá cho một sản phẩm y tế không rõ nguồn gốc, và trong phần bình luận có người đánh giá về “ngoại hình” của anh ta.

Khi sự khát dữ liệu của các công ty AI kết hợp với khoảng cách kinh tế toàn cầu, đang tạo ra một giao dịch bất bình đẳng.

Toàn văn như sau:

Một buổi sáng năm ngoái, Jacobus Louw, một cư dân ở Cape Town, Nam Phi, như thường lệ ra ngoài đi dạo và cho hải âu ăn. Nhưng lần này, anh ấy đã quay vài đoạn video — ghi lại bước chân và khung cảnh khi anh đi trên vỉa hè. Đoạn video này giúp anh kiếm được 14 USD, khoảng 10 lần mức lương tối thiểu của đất nước này, tương đương với chi phí thực phẩm của người trẻ 27 tuổi này trong nửa tuần.

Đây là một nhiệm vụ "điều hướng thành phố" mà Louw đã hoàn thành trên Kled AI. Kled AI là một ứng dụng trả tiền cho người dùng khi họ tải lên dữ liệu như ảnh, video để huấn luyện các mô hình AI. Trong vài tuần ngắn ngủi, Louw đã kiếm được 50 USD bằng cách tải lên các bức ảnh và video trong cuộc sống hàng ngày.

Hàng ngàn dặm xa xôi, tại Ranchi, Ấn Độ, sinh viên 22 tuổi Sahil Tigga thường xuyên kiếm tiền từ Silencio—một ứng dụng thu thập dữ liệu âm thanh từ cộng đồng để huấn luyện AI, truy cập vào micro điện thoại của anh để ghi lại tiếng ồn môi trường trong nhà hàng hoặc tại các ngã tư đông đúc. Anh ấy cũng tải lên các bản ghi âm giọng nói của mình. Sahil đặc biệt đi đến những cảnh độc đáo, chẳng hạn như sảnh khách sạn chưa được ghi lại trên bản đồ Silencio. Anh ấy kiếm được hơn 100 USD mỗi tháng từ việc này, đủ để chi trả toàn bộ chi phí ăn uống.

Tại Chicago, Ramelio Hill, một học徒 hàn 18 tuổi, đã bán các cuộc trò chuyện điện thoại cá nhân với bạn bè và gia đình cho Neon Mobile—một nền tảng huấn luyện AI đối thoại—với mức trả 0,50 USD mỗi phút, kiếm được vài trăm đô la. Đối với Hill, điều này rất đơn giản: anh cho rằng các công ty công nghệ đã thu thập lượng lớn dữ liệu cá nhân của anh, vậy nên anh muốn tự mình hưởng lợi từ nó.

Những “công việc tạm thời huấn luyện AI” này — tải lên cảnh xung quanh, ảnh, video và âm thanh cá nhân — đang đứng ở tiền tuyến của một cuộc đào vàng dữ liệu toàn cầu mới. Khi tham vọng của Thung lũng Silicon đối với dữ liệu con người chất lượng cao vượt quá khả năng thu thập từ internet mở, một ngành công nghiệp thị trường dữ liệu đang phát triển mạnh mẽ đã ra đời để lấp đầy khoảng trống này. Từ Cape Town đến Chicago, hàng ngàn người đang cấp quyền sử dụng vi mô danh tính sinh trắc học và dữ liệu riêng tư của họ cho AI thế hệ tiếp theo.

Nhưng nền kinh tế lao động tạm thời mới này đi kèm với chi phí. Đằng sau những đồng đô la vài đô, những người đào tạo này đang cung cấp nhiên liệu cho một ngành công nghiệp có thể cuối cùng khiến kỹ năng của họ trở nên lỗi thời, đồng thời khiến bản thân họ phải đối mặt với những rủi ro trong tương lai như deepfake, trộm cắp danh tính và bóc lột kỹ thuật số—mà họ mới chỉ bắt đầu nhận thức được.

Để các bánh răng AI tiếp tục quay

Các mô hình ngôn ngữ AI như ChatGPT và Gemini cần lượng tài liệu học tập khổng lồ để liên tục cải tiến, nhưng chúng đang đối mặt với tình trạng khan hiếm dữ liệu. Các nguồn dữ liệu huấn luyện phổ biến nhất—C4, RefinedWeb và Dolma—chiếm một phần tư các bộ dữ liệu chất lượng cao nhất trên web, hiện đang hạn chế các công ty AI sử dụng dữ liệu này để huấn luyện mô hình. Các nhà nghiên cứu ước tính các công ty AI sẽ cạn kiệt văn bản mới và chất lượng cao có sẵn sớm nhất vào năm 2026. Mặc dù một số phòng thí nghiệm đã bắt đầu sử dụng dữ liệu tổng hợp do chính AI tạo ra để huấn luyện ngược lại, nhưng quy trình đệ quy này dẫn đến việc mô hình tạo ra đầy rẫy lỗi và "rác", gây ra sự sụp đổ.

hình ảnh

Các ứng dụng như Kled AI và Silencio chính là những nền tảng xuất hiện tại đây. Trong các thị trường dữ liệu này, hàng triệu người đang bán dữ liệu nhận dạng của chính họ để nuôi dưỡng và huấn luyện AI. Ngoài Kled AI, Silencio và Neon Mobile, các nhà huấn luyện AI còn có nhiều lựa chọn khác: Luel AI được quỹ ươm tạo nổi tiếng Y-Combinator hỗ trợ, cung cấp dữ liệu hội thoại đa ngôn ngữ với mức giá khoảng 0,15 USD mỗi phút; ElevenLabs cho phép bạn tạo bản sao kỹ thuật số giọng nói của mình và cho người khác sử dụng với mức phí cơ bản 0,02 USD mỗi phút.

Giáo sư kinh tế tại Đại học King's College London, Bouke Klein Teeselink, cho biết công việc lao động tạm thời để huấn luyện AI là một danh mục công việc mới nổi và sẽ tăng trưởng mạnh mẽ.

Teeselink cho biết, các công ty AI hiểu rằng việc trả phí cấp phép dữ liệu cho con người giúp tránh các tranh chấp bản quyền có thể phát sinh từ việc phụ thuộc hoàn toàn vào việc thu thập nội dung qua web crawling. Nhà nghiên cứu AI Veniamin Veselovsky cho biết các công ty này còn cần dữ liệu chất lượng cao để mô hình hóa các hành vi mới và được cải tiến. “Hiện tại, dữ liệu con người vẫn là tiêu chuẩn vàng để lấy mẫu từ ngoài phân phối mô hình,” Veselovsky bổ sung.

Những con người vận hành những cỗ máy này—đặc biệt là những người ở các nước đang phát triển—thường cần đến khoản tiền này và gần như không còn lựa chọn nào khác. Đối với nhiều lao động làm công việc huấn luyện AI, việc làm này là một phản ứng thực tế trước khoảng cách kinh tế. Ở những quốc gia có tỷ lệ thất nghiệp cao và đồng tiền nội địa mất giá, việc kiếm đô la Mỹ thường ổn định và lợi nhuận hơn so với các công việc trong nước. Một số người không thể tìm được công việc cấp nhập môn và buộc phải làm huấn luyện AI để duy trì sinh kế. Ngay cả ở các nước giàu hơn, chi phí sinh hoạt tăng cao cũng khiến việc bán chính mình trở thành một lựa chọn tài chính hợp lý.

Louw, một người huấn luyện AI ở Cape Town, hiểu rõ những chi phí về quyền riêng tư đi kèm. Mặc dù thu nhập không ổn định và không đủ trang trải toàn bộ chi phí hàng tháng, anh ấy sẵn sàng chấp nhận những điều kiện này để kiếm tiền. Sau nhiều năm vật lộn với bệnh lý thần kinh và không thể tìm được việc làm, số tiền anh ấy kiếm được từ thị trường dữ liệu AI (bao gồm Kled AI) đã giúp anh tích lũy được 500 USD để đăng ký một khóa đào tạo spa và trở thành một chuyên viên mát-xa.

“Là người Nam Phi, nhận đô la Mỹ có giá trị hơn những gì người khác tưởng tượng,” Louw nói.

Giáo sư địa lý internet của Đại học Oxford và tác giả cuốn sách "Feeding the Machine", Mark Graham, thừa nhận rằng đối với cá nhân ở các nước đang phát triển, số tiền này có thể có ý nghĩa thực tế trong ngắn hạn, nhưng ông cảnh báo rằng "về mặt cấu trúc, công việc này không ổn định, không có cơ hội thăng tiến, thực chất là một con đường chết".

Graham bổ sung rằng thị trường dữ liệu AI phụ thuộc vào "cuộc cạnh tranh hạ thấp mức lương" và "nhu cầu tạm thời đối với dữ liệu con người". Khi nhu cầu này chuyển dịch, "người lao động sẽ không có bất kỳ sự bảo vệ nào, không có kỹ năng có thể chuyển đổi, và không có mạng an toàn".

Graham cho biết, người duy nhất chiến thắng là "các nền tảng ở bán cầu Bắc, những nền tảng này đã chiếm đoạt toàn bộ giá trị bền vững".

hình ảnh

Quyền toàn quyền

Hill, một người huấn luyện AI đến từ Chicago, cảm thấy bối rối về việc bán các cuộc gọi điện thoại cá nhân cho Neon Mobile. Với khoảng 11 giờ nội dung cuộc gọi, anh kiếm được 200 USD, nhưng anh cho biết ứng dụng này thường xuyên bị lỗi và trì hoãn thanh toán. "Neon luôn khiến tôi nghi ngờ, nhưng tôi vẫn tiếp tục sử dụng để kiếm thêm chút tiền lẻ trả hóa đơn," Hill nói.

Bây giờ anh ấy bắt đầu nghi ngờ liệu số tiền đó có thực sự dễ dàng đến vậy không. Vào tháng 9 năm ngoái, Neon Mobile đã ngừng hoạt động chỉ vài tuần sau khi ra mắt, sau khi TechCrunch phát hiện một lỗ hổng bảo mật cho phép bất kỳ ai cũng có thể truy cập số điện thoại, bản ghi cuộc gọi và tin nhắn văn bản của người dùng. Hill cho biết Neon Mobile chưa từng thông báo cho anh về sự việc này, và hiện anh rất lo lắng rằng giọng nói của mình có thể bị lạm dụng trên mạng.

Jennifer King, nhà nghiên cứu về quyền riêng tư dữ liệu tại Viện Trí tuệ Nhân tạo lấy con người làm trung tâm của Đại học Stanford, lo ngại rằng thị trường dữ liệu AI không rõ ràng về cách thức và nơi dữ liệu người dùng sẽ được sử dụng. Cô bổ sung rằng, trong khi không hiểu rõ quyền lợi của bản thân và cũng không thể đàm phán về vấn đề này, "người tiêu dùng đang đối mặt với nguy cơ dữ liệu của họ bị tái sử dụng theo cách họ không thích, không hiểu hoặc không lường trước, và khi đó gần như không có bất kỳ biện pháp khắc phục nào".

Khi các nhà huấn luyện AI chia sẻ dữ liệu trên Neon Mobile và Kled AI, họ cấp một giấy phép toàn quyền (toàn cầu, độc quyền, không thể thu hồi, có thể chuyển nhượng và không trả bản quyền) để nền tảng được phép bán, sử dụng, công khai hiển thị và lưu trữ hình ảnh của họ, thậm chí tạo ra các tác phẩm phái sinh dựa trên đó.

Avi Patel, người sáng lập Kled AI, cho biết giao thức dữ liệu của công ty sẽ chỉ được sử dụng cho mục đích đào tạo và nghiên cứu AI. “Toàn bộ mô hình kinh doanh dựa trên sự tin tưởng của người dùng. Nếu những người đóng góp cho rằng dữ liệu của họ có thể bị lạm dụng, nền tảng sẽ không thể hoạt động.” Ông cho biết công ty sẽ xem xét kỹ các bên mua trước khi bán bộ dữ liệu, nhằm tránh hợp tác với các tổ chức có “mục đích đáng nghi ngờ”, chẳng hạn như ngành công nghiệp khiêu dâm, cũng như các “cơ quan chính phủ” mà họ cho rằng có thể sử dụng dữ liệu theo cách vi phạm sự tin tưởng này.

Neon Mobile chưa phản hồi yêu cầu bình luận.

Giáo sư luật tại Đại học St George, London, Enrico Bonadio, chỉ ra rằng các điều khoản thỏa thuận cho phép nền tảng và khách hàng của nó "hầu như có thể làm bất cứ điều gì với tài liệu này, có hiệu lực vĩnh viễn, không cần thanh toán thêm, và người đóng góp không có cách thực tế nào để rút lại sự đồng ý hoặc đàm phán lại".

Những rủi ro đáng lo ngại hơn bao gồm: dữ liệu của người huấn luyện bị sử dụng để tạo ra deepfake và giả mạo danh tính. Mặc dù các thị trường dữ liệu tuyên bố sẽ loại bỏ thông tin nhận dạng cá nhân (như tên và vị trí) trước khi bán, nhưng các đặc điểm sinh trắc học về bản chất rất khó để ẩn danh một cách có ý nghĩa, Bonadio bổ sung.

Hối hận của người bán

Ngay cả khi những người huấn luyện AI có thể đàm phán được các điều khoản bảo vệ chi tiết hơn về cách sử dụng dữ liệu, họ vẫn có thể cảm thấy hối tiếc. Năm 2024, diễn viên đến từ New York, Adam Coy, đã bán hình ảnh của mình cho Captions—một phần mềm chỉnh sửa video AI, hiện đã đổi tên thành Mirage—with giá 1.000 USD. Hợp đồng của anh quy định rằng danh tính của anh sẽ không được sử dụng cho bất kỳ mục đích chính trị nào, không dùng để quảng bá rượu, thuốc lá hoặc nội dung khiêu dâm, và thời hạn cấp phép là một năm.

Chưa phản hồi yêu cầu bình luận.

Không lâu sau, bạn bè của Adam bắt đầu chia sẻ các video mà họ tìm thấy trên mạng, trong đó sử dụng khuôn mặt và giọng nói của anh ấy, với hàng triệu lượt xem. Một trong những video trên Instagram, bản sao AI của Adam tự xưng là "bác sĩ âm đạo", quảng bá các chất bổ sung y tế chưa được chứng minh cho phụ nữ mang thai và sau sinh.

“向别人解释这件事让我感到难堪，”Coy 说。

“Bình luận rất kỳ lạ vì họ đang đánh giá ngoại hình của tôi, nhưng đó không phải là tôi,” Coy bổ sung. “Lúc tôi đưa ra quyết định này (bán ảnh đại diện), tôi nghĩ rằng hầu hết các mô hình đều sẽ thu thập dữ liệu và hình ảnh trên mạng, vậy thì tại sao không nhận tiền?”

Coy cho biết sau đó anh ấy không nhận thêm bất kỳ công việc làm thêm nào về dữ liệu AI. Anh ấy nói rằng chỉ khi một công ty cung cấp mức thù lao đáng kể, anh ấy mới xem xét làm lại.