全球數千人為 AI 訓練出售個人資料，面臨隱私風險

作者：The Guardian

編譯：深潮 TechFlow

深潮導讀：這篇調查報導揭示了一個正在快速成長的灰色產業：全球數千人透過出售自己的聲音、面孔、通話記錄和日常影片來賺取 AI 訓練費用。

這不是對隱私爭議的泛泛討論，而是一項涉及真實人物、真實金額和真實後果的調查——一名演員賣掉了自己的臉孔，後來在 Instagram 上看到「自己」在為不明醫療產品做宣傳，評論區有人在評論他的「外貌」。

當 AI 公司的數據饑渴與全球經濟差距結合在一起時，正在製造一場不對等的交易。

全文如下：

去年的一個早晨，住在南非開普敦的 Jacobus Louw 照例出門散步，沿途餵海鷗。但這次他錄了幾段影片——拍攝他走在人行道上的腳步和視野。這段影片讓他賺到 14 美元，大約是該國最低工資的 10 倍，也相當於這個 27 歲年輕人半週的食品開銷。

這是 Louw 在 Kled AI 上完成的「城市導航」任務。Kled AI 是一款付費給用戶上傳照片、影片等資料以訓練 AI 模型的應用程式。在短短幾週內，Louw 透過上傳日常生活中的照片和影片，賺取了 50 美元。

數千英里之外，在印度蘭契，22 歲的學生 Sahil Tigga 定期透過 Silencio 賺錢——這款應用程式透過眾包方式收集用於 AI 訓練的音頻數據，會訪問他手機的麥克風，錄製餐廳內部或繁忙路口的環境噪音。他還上傳自己的聲音錄音。Sahil 會專程前往 Silencio 地圖上尚未記錄的獨特場景，例如酒店大堂。他靠此每月收入超過 100 美元，足以支付全部餐飲開銷。

在芝加哥，18 歲的焊接學徒 Ramelio Hill 將自己與朋友和家人的私人手機聊天記錄賣給了 Neon Mobile——一個對話式 AI 訓練平台，每分鐘支付 0.50 美元——賺了數百美元。對 Hill 來說，這筆賬很簡單：他認為科技公司本來就已經掌握了他大量的私人資料，不如自己也從中分一杯羹。

這些「AI 訓練零工」——上傳周圍場景、自身照片、影片和音頻——站在了全球新數據淘金熱的最前線。隨著矽谷對高品質人類數據的渴望超出了從開放互聯網上能夠抓取的範圍，一個蓬勃發展的數據市場行業應運而生，彌合這一缺口。從開普敦到芝加哥，數千人正在將自己的生物特徵身份和私密數據微授權給下一代 AI。

但這項新零工經濟伴隨著代價。以幾美元換來的背後，這些訓練者正在為一個可能最終讓其技能過時的行業提供動力，同時讓自己暴露於深度偽造、身份盜竊和數字剝削的未來風險中——而他們對此才剛剛開始有所認識。

讓 AI 齒輪持續轉動

AI 語言模型如 ChatGPT 和 Gemini 需要海量學習材料才能持續改進，但它們正面臨數據荒。最常用的訓練數據源——C4、RefinedWeb 和 Dolma——佔據網絡最高質量數據集的四分之一，如今正在限制生成式 AI 公司使用其數據訓練模型。研究人員估計，AI 公司最快將在 2026 年耗盡可用的新鮮高質量文本。儘管部分實驗室已開始用 AI 自身生成的合成數據反饋訓練，但這種遞歸過程會導致模型產出充斥錯誤的「垃圾」，進而引發崩潰。

像 Kled AI 和 Silencio 這樣的應用正是在此登場。在這些數據市場中，數以百萬計的人正透過出售自己的身份數據來餵養和訓練 AI。除了 Kled AI、Silencio 和 Neon Mobile 之外，AI 訓練者還有許多選擇：由著名孵化器 Y-Combinator 支持的 Luel AI，以每分鐘約 0.15 美元的價格獲取多語言對話素材；ElevenLabs 允許你對自己的聲音進行數位克隆，並以每分鐘 0.02 美元的基礎費率供他人使用。

倫敦國王學院經濟學教授 Bouke Klein Teeselink 表示，AI 訓練零工是一個新興的工作類別，將會大幅增長。

AI 公司知道，向人們支付數據授權費用，有助於規避完全依賴網路爬取內容可能引發的版權糾紛，Teeselink 說。AI 研究員 Veniamin Veselovsky 表示，這些公司還需要高質量數據來為系統建模新的、改進後的行為。「就目前而言，人類數據是從模型分佈之外進行採樣的黃金標準，」Veselovsky 補充道。

驅動這些機器運轉的人類——尤其是發展中國家的人們——往往需要這筆錢，也幾乎別無選擇。對許多 AI 訓練零工來說，從事這份工作是對經濟差距的一種務實回應。在失業率高、本國貨幣貶值的國家，賺取美元往往比本地工作更穩定、更划算。一些人難以找到入門級工作，出於生計不得不做 AI 訓練。即便在較富裕的國家，生活成本的上升也讓出售自己變成了一種合乎邏輯的財務選擇。

開普敦的 AI 訓練者 Louw 清楚地知道其中的隱私代價。儘管收入不穩定，也不足以覆蓋他全部的月度開銷，但他願意接受這些條件來賺錢。他多年來飽受神經系統疾病困擾，無法找到工作，但在 AI 數據市場（包括 Kled AI）賺到的錢，讓他攢夠了 500 美元，報名參加了一門水療培訓課程，成為一名按摩師。

「作為南非人，收到美元比別人想像的更有價值，」Louw 說。

牛津大學互聯網地理學教授、《餵養機器》一書作者 Mark Graham 承認，對發展中國家的個人而言，這筆錢在短期內可能有實際意義，但他警告，「從結構上看，這份工作是不穩定的、沒有上升空間的，實際上是一條死路」。

Graham 補充說，AI 數據市場依賴「工資的競相壓低」，以及「對人類數據的暫時性需求」。一旦這種需求轉移，「工人將沒有任何保障，沒有可轉移的技能，也沒有安全網」。

Graham 表示，唯一的贏家是「北半球的平台，它們攫取了所有持久的價值」。

全權授權

來自芝加哥的 AI 訓練者 Hill 對將私人手機通話賣給 Neon Mobile 一事心情複雜。約 11 小時的通話內容讓他賺了 200 美元，但他說這款應用經常下線、拖延付款。「Neon 在我眼裡一直很可疑，但我還是一直用，就為了多賺點零花錢付帳單，」Hill 說。

現在他開始重新思考這筆錢是否真的那麼輕鬆。去年 9 月，Neon Mobile 上線僅幾週後便下線，此前 TechCrunch 發現了一個安全漏洞，任何人都可以訪問用戶的電話號碼、通話錄音和文字記錄。Hill 表示 Neon Mobile 從未通知他這一情況，現在他非常擔心自己的聲音會在網絡上被濫用。

史丹福大學人本人工智能研究所的數據隱私研究員 Jennifer King 擔心的是，AI 數據市場並未明確說明用戶數據將如何及在何處被使用。她補充說，在不了解自身權利、也未能就此進行談判的情況下，「消費者面臨著數據被以他們不喜歡、不理解或未曾預料的方式再利用的風險，且此時幾乎沒有任何救濟途徑」。

當 AI 訓練者在 Neon Mobile 和 Kled AI 上分享數據時，他們授予的是一份全權授權（全球範圍、獨占、不可撤銷、可轉讓且免版稅），允許平台出售、使用、公開展示和存儲其肖像，甚至據此創作衍生作品。

Kled AI 創始人 Avi Patel 表示，他公司的數據協議將僅限於 AI 訓練和研究目的。「整個商業模式依賴用戶信任。如果貢獻者認為他們的數據可能被濫用，平台就無法運轉。」他表示，公司會在出售數據集前審核購買方，避免與「意圖可疑」的機構合作，例如色情行業，以及他們認為可能以違背該信任的方式使用數據的「政府機構」。

Neon Mobile 未回應置評請求。

倫敦城市聖喬治大學法學教授 Enrico Bonadio 指出，這些協議條款允許平台及其客戶「幾乎可以對該材料做任何事，永久有效，無需額外付款，貢獻者也沒有實際方式撤回同意或重新談判」。

更令人擔憂的風險包括：訓練者的資料被用於製作深度偽造和身份盜用。儘管資料市場聲稱在出售前會剝離資料中的身份識別資訊（如姓名和位置），但生物特徵規律本質上難以進行有實質意義的匿名化處理，Bonadio 補充道。

賣家的悔恨

即使 AI 訓練者能夠就數據使用方式談判出更細化的保護條款，他們仍可能後悔。2024 年，來自紐約的演員 Adam Coy 以 1000 美元的價格將自己的肖像賣給了 Captions——一款 AI 視頻編輯軟體，現已更名為 Mirage。他的協議規定，他的身份不會被用於任何政治目的，不會用於推銷酒精、菸草或色情內容，且授權期限為一年。

Captions 未回應置評請求。

不久之後，亞當的朋友們開始轉發他們在網上發現的影片，這些影片使用了他的臉和聲音，觀看次數達數百萬次。其中一段 Instagram 影片中，亞當的 AI 複製體自稱為“陰道醫生”，為懷孕和產後女性推廣未經證實的醫療補充劑。

「向別人解釋這件事讓我感到難堪，」Coy 說。

「評論區很奇怪，因為他們在評價我的外貌，但那根本不是我，」Coy 補充道。「當時我做出（出售肖像）這個決定時的想法是，大多數模型反正都會在網上爬取數據和肖像，不如被付錢。」

Coy 表示，此後他再也沒有接過任何 AI 數據零工。他說，只有在某家公司提供豐厚報酬的情況下，他才會考慮再做。