Ribuan global menjual data pribadi untuk pelatihan AI di tengah risiko privasi

Penulis: The Guardian

Diterjemahkan oleh Deep潮 TechFlow

Panduan Shenchao: Laporan investigasi ini mengungkap industri abu-abu yang sedang tumbuh pesat: ribuan orang di seluruh dunia menghasilkan pendapatan dari pelatihan AI dengan menjual suara, wajah, rekaman panggilan, dan video sehari-hari mereka.

Ini bukan diskusi umum tentang privasi, tetapi investigasi nyata dengan tokoh nyata, jumlah uang nyata, dan konsekuensi nyata—seorang aktor yang menjual wajahnya, kemudian melihat "dirinya sendiri" di Instagram mempromosikan produk medis yang tidak dikenal, dengan komentar dari orang-orang yang menilai "penampilannya".

Ketika kebutuhan data perusahaan AI bergabung dengan kesenjangan ekonomi global, sedang menciptakan transaksi yang tidak seimbang.

Seluruh teks berikut:

Pada suatu pagi tahun lalu, Jacobus Louw, yang tinggal di Cape Town, Afrika Selatan, pergi berjalan-jalan seperti biasa dan memberi makan burung camar di sepanjang jalan. Namun kali ini, ia merekam beberapa video—memperlihatkan langkah-langkahnya di trotoar dan pemandangan di sekitarnya. Video ini menghasilkan pendapatan sebesar 14 dolar AS, sekitar 10 kali gaji minimum negara itu, atau setara dengan pengeluaran makanan setengah minggu bagi pemuda berusia 27 tahun ini.

Ini adalah tugas "Navigasi Kota" yang diselesaikan oleh Louw di Kled AI. Kled AI adalah aplikasi yang membayar pengguna untuk mengunggah data seperti foto dan video guna melatih model AI. Dalam waktu beberapa minggu saja, Louw menghasilkan 50 dolar dengan mengunggah foto dan video sehari-hari.

Ribuan mil jauhnya di Ranchi, India, siswa berusia 22 tahun, Sahil Tigga, secara teratur menghasilkan uang dari Silencio—aplikasi yang mengumpulkan data audio secara crowdsourcing untuk pelatihan AI, yang mengakses mikrofon ponselnya untuk merekam kebisingan lingkungan di dalam restoran atau persimpangan ramai. Ia juga mengunggah rekaman suaranya sendiri. Sahil sengaja pergi ke lokasi unik, seperti lobi hotel yang belum tercatat di peta Silencio. Ia menghasilkan lebih dari $100 per bulan dari ini, cukup untuk menutupi semua biaya makanannya.

Di Chicago, seorang peserta pelatihan las berusia 18 tahun, Ramelio Hill, menghasilkan ratusan dolar dengan menjual catatan obrolan pribadi ponselnya dengan teman dan keluarga kepada Neon Mobile—sebuah platform pelatihan AI dialogis yang membayar 0,50 dolar per menit. Bagi Hill, perhitungannya sederhana: ia percaya perusahaan teknologi sudah memiliki sejumlah besar data pribadinya, jadi lebih baik ia juga ikut mendapat bagian.

"AI pelatihan pekerja lepas" ini—mengunggah adegan sekitar, foto pribadi, video, dan audio—berdiri di garis depan gelombang penambangan data global baru. Seiring kebutuhan Silicon Valley akan data manusia berkualitas tinggi melampaui apa yang dapat diambil dari internet terbuka, muncullah industri pasar data yang berkembang pesat untuk mengisi kesenjangan ini. Dari Cape Town hingga Chicago, ribuan orang sedang memberikan otorisasi mikro terhadap identitas biometrik dan data pribadi mereka kepada AI generasi berikutnya.

Namun, ekonomi pekerjaan sementara baru ini datang dengan harga. Di balik pertukaran beberapa dolar, para pelatih ini sedang memberi bahan bakar pada industri yang mungkin akhirnya membuat keterampilan mereka menjadi usang, sekaligus memperlihatkan diri mereka pada risiko masa depan seperti deepfake, pencurian identitas, dan eksploitasi digital—hal-hal yang baru saja mereka mulai sadari.

Biarkan roda gigi AI terus berputar

Model bahasa AI seperti ChatGPT dan Gemini memerlukan bahan pembelajaran yang sangat besar untuk terus meningkat, tetapi mereka sedang menghadapi kelangkaan data. Sumber data pelatihan paling umum—C4, RefinedWeb, dan Dolma—yang menyumbang seperempat dari kumpulan data berkualitas tertinggi di web, kini membatasi penggunaan data mereka oleh perusahaan AI generatif untuk melatih model. Para peneliti memperkirakan perusahaan AI akan kehabisan teks berkualitas tinggi dan segar yang tersedia paling cepat pada tahun 2026. Meskipun sebagian laboratorium telah mulai menggunakan data sintetis yang dihasilkan oleh AI sendiri untuk umpan balik pelatihan, proses rekursif ini menyebabkan output model dipenuhi kesalahan "sampah", yang pada gilirannya dapat menyebabkan kegagalan.

gambar

Aplikasi seperti Kled AI dan Silencio lah yang muncul di sini. Di pasar data ini, jutaan orang sedang mengumpulkan dan melatih AI dengan menjual data identitas mereka. Selain Kled AI, Silencio, dan Neon Mobile, para pelatih AI memiliki banyak pilihan lainnya: Luel AI yang didukung oleh inkubator terkenal Y-Combinator, yang memperoleh bahan percakapan multibahasa dengan tarif sekitar 0,15 dolar per menit; ElevenLabs memungkinkan Anda membuat klon digital suara Anda sendiri dan menyewakannya dengan tarif dasar 0,02 dolar per menit.

Profesor ekonomi King's College London, Bouke Klein Teeselink, menyatakan bahwa pekerjaan mikro pelatihan AI adalah kategori pekerjaan baru yang akan tumbuh secara signifikan.

Teeselink mengatakan bahwa perusahaan AI tahu bahwa membayar biaya lisensi data kepada orang-orang membantu menghindari sengketa hak cipta yang mungkin timbul dari ketergantungan penuh pada pengambilan konten melalui web scraping. Peneliti AI Veniamin Veselovsky menyatakan bahwa perusahaan-perusahaan ini juga membutuhkan data berkualitas tinggi untuk memodelkan perilaku baru dan yang telah diperbaiki dalam sistem. "Saat ini, data manusia tetap menjadi standar emas untuk pengambilan sampel dari luar distribusi model," tambah Veselovsky.

Orang-orang yang menggerakkan mesin-mesin ini—terutama di negara berkembang—seringkali membutuhkan uang ini dan hampir tidak punya pilihan lain. Bagi banyak pekerja lepas pelatihan AI, melakukan pekerjaan ini adalah respons pragmatis terhadap kesenjangan ekonomi. Di negara-negara dengan tingkat pengangguran tinggi dan mata uang lokal yang melemah, menghasilkan dolar seringkali lebih stabil dan lebih menguntungkan daripada pekerjaan lokal. Beberapa orang kesulitan mendapatkan pekerjaan tingkat pemula dan terpaksa melakukan pelatihan AI demi bertahan hidup. Bahkan di negara-negara yang lebih kaya, kenaikan biaya hidup menjadikan menjual diri sendiri sebagai pilihan keuangan yang logis.

Louw, seorang pelatih AI dari Cape Town, memahami dengan jelas biaya privasi yang terlibat. Meskipun pendapatannya tidak stabil dan tidak cukup untuk menutupi semua pengeluaran bulanannya, ia bersedia menerima kondisi tersebut demi menghasilkan uang. Selama bertahun-tahun ia menderita penyakit sistem saraf dan tidak dapat menemukan pekerjaan, tetapi uang yang dihasilkannya dari pasar data AI (termasuk Kled AI) memungkinkannya mengumpulkan $500 untuk mendaftar dalam kursus pelatihan spa dan menjadi seorang terapis pijat.

"Sebagai orang Afrika Selatan, menerima dolar lebih berharga daripada yang diperkirakan orang," kata Louw.

Profesor Geografi Internet Universitas Oxford dan penulis buku "Feeding the Machine", Mark Graham, mengakui bahwa bagi individu di negara berkembang, uang ini mungkin memiliki makna praktis dalam jangka pendek, tetapi ia memperingatkan bahwa "secara struktural, pekerjaan ini tidak stabil, tidak memiliki ruang untuk naik, dan sebenarnya merupakan jalan buntu".

Graham menambahkan bahwa pasar data AI bergantung pada "perlombaan menekan upah" dan "permintaan sementara terhadap data manusia". Setelah permintaan ini berpindah, "para pekerja tidak akan memiliki jaminan apa pun, keterampilan yang dapat dipindahkan, atau jaring pengaman".

Graham menyatakan bahwa satu-satunya pemenang adalah "platform di belahan bumi utara, yang meraih seluruh nilai tahan lama."

gambar

Otorisasi penuh

Hill, seorang pelatih AI dari Chicago, merasa ambivalen tentang menjual percakapan pribadi di ponselnya ke Neon Mobile. Percakapan sekitar 11 jam itu menghasilkan pendapatan sebesar $200 baginya, tetapi ia mengatakan aplikasi tersebut sering down dan menunda pembayaran. "Neon selalu terasa mencurigakan di mata saya, tetapi saya tetap menggunakannya hanya untuk mendapatkan uang saku tambahan guna membayar tagihan," kata Hill.

Sekarang ia mulai mempertimbangkan kembali apakah uang itu benar-benar sebegitu mudah didapat. Pada September tahun lalu, Neon Mobile ditutup hanya beberapa minggu setelah peluncurannya, setelah TechCrunch menemukan kerentanan keamanan yang memungkinkan siapa pun mengakses nomor telepon, rekaman panggilan, dan transkrip pesan pengguna. Hill mengatakan Neon Mobile tidak pernah memberitahunya tentang hal ini, dan sekarang ia khawatir suaranya akan disalahgunakan di internet.

Jennifer King, peneliti privasi data dari Stanford Institute for Human-Centered Artificial Intelligence, khawatir bahwa pasar data AI tidak jelas tentang bagaimana dan di mana data pengguna akan digunakan. Ia menambahkan bahwa, tanpa memahami hak-hak mereka sendiri dan tidak mampu bernegosiasi mengenai hal ini, "konsumen menghadapi risiko data mereka dimanfaatkan kembali dengan cara yang tidak mereka sukai, tidak mereka pahami, atau tidak mereka duga, dan pada saat itu hampir tidak ada jalan untuk memperbaikinya."

Ketika pelatih AI membagikan data di Neon Mobile dan Kled AI, mereka memberikan otorisasi penuh (global, eksklusif, tidak dapat dicabut, dapat dialihkan, dan bebas royalti) yang memungkinkan platform menjual, menggunakan, menampilkan secara publik, dan menyimpan citra mereka, bahkan membuat karya turunan berdasarkan hal tersebut.

Pendiri Kled AI, Avi Patel, menyatakan bahwa protokol data perusahaannya akan dibatasi hanya untuk tujuan pelatihan dan penelitian AI. "Seluruh model bisnis bergantung pada kepercayaan pengguna. Jika kontributor merasa data mereka mungkin disalahgunakan, platform tidak akan dapat berfungsi." Ia menyatakan bahwa perusahaan akan meninjau pembeli sebelum menjual dataset, menghindari kolaborasi dengan lembaga yang "berniat mencurigakan," seperti industri pornografi, serta "lembaga pemerintah" yang dianggap mungkin menggunakan data dengan cara yang bertentangan dengan kepercayaan tersebut.

Neon Mobile tidak merespons permintaan komentar.

Profesor hukum dari St George's, University of London, Enrico Bonadio, menunjukkan bahwa ketentuan perjanjian ini memungkinkan platform dan kliennya untuk "hampir melakukan apa saja terhadap materi tersebut, secara permanen, tanpa pembayaran tambahan, dan kontributor tidak memiliki cara nyata untuk menarik persetujuan atau negosiasi ulang."

Risiko yang lebih mengkhawatirkan meliputi: data pelatih digunakan untuk membuat deepfake dan peniruan identitas. Meskipun pasar data menyatakan bahwa informasi identitas dalam data (seperti nama dan lokasi) akan dihapus sebelum dijual, Bonadio menambahkan bahwa pola biometrik secara inheren sulit untuk dianonimkan secara bermakna.

Penyesalan penjual

Meskipun pelatih AI dapat bernegosiasi untuk mendapatkan ketentuan perlindungan yang lebih rinci mengenai penggunaan data, mereka tetap mungkin menyesal. Pada tahun 2024, aktor dari New York, Adam Coy, menjual citranya seharga 1.000 dolar kepada Captions—sebuah perangkat lunak pengeditan video AI yang kini bernama Mirage. Perjanjiannya menetapkan bahwa identitasnya tidak akan digunakan untuk tujuan politik apa pun, tidak digunakan untuk mempromosikan alkohol, tembakau, atau konten pornografis, dan masa izin berlaku selama satu tahun.

Tidak merespons permintaan komentar.

Tak lama kemudian, teman-teman Adam mulai membagikan video yang mereka temukan online, di mana wajah dan suara Adam digunakan, dengan jumlah tayangan mencapai jutaan. Salah satu video Instagram menampilkan replika AI Adam yang mengklaim dirinya sebagai "dokter vagina" dan mempromosikan suplemen medis yang belum terbukti untuk wanita hamil dan pasca melahirkan.

"Meng解释 hal ini kepada orang lain membuat saya merasa malu," kata Coy.

“Komentarnya aneh, karena mereka mengevaluasi penampilan saya, tapi itu bukan saya,” tambah Coy. “Saat saya membuat keputusan ini (menjual citra), saya berpikir kebanyakan model tetap akan mengambil data dan citra secara online, jadi lebih baik dapat bayaran.”

Coy mengatakan bahwa setelah itu ia tidak menerima pekerjaan sampingan data AI lagi. Ia mengatakan bahwa ia hanya akan mempertimbangkan untuk melakukannya kembali jika sebuah perusahaan menawarkan imbalan besar.