Bạn đã đào tạo AI của Google trong 15 năm. Bạn không hề hay biết.

Tác giả gốc: Sharbel, đồng sáng lập Unfungible

Biên dịch gốc: Lila, BlockBeats

Biên tập viên: CAPTCHA, là những con số hoặc hình ảnh bạn phải nhấp vào mỗi khi đăng nhập vào trang web, ai cũng đã quá quen thuộc. Nhưng khi bạn liên tục nhấp vào “Tôi không phải là robot”, bạn tưởng mình chỉ đang xác minh danh tính, thực tế lại đang tham gia vào quá trình sản xuất dữ liệu lớn nhất và tinh vi nhất thế giới. reCAPTCHA do Luis von Ahn phát triển đã tập hợp những hành vi nhỏ lẻ của con người thành nền tảng dữ liệu hỗ trợ các dịch vụ cốt lõi của Google và công ty xe tự hành Waymo.

Dưới lớp vỏ bề ngoài của “miễn phí” và “an toàn”, internet đang âm thầm tái định hình một mối quan hệ lao động hoàn toàn mới: bạn dành thời gian để chứng minh mình là con người, nhưng lại đóng góp vào việc huấn luyện AI, và ngay khi AI học được, lao động của bạn sẽ bị thay thế hoàn toàn. Bài viết này chưa đầy 20 giờ đã đạt hơn 9,5 triệu lượt xem trên Twitter. Dưới đây là nội dung gốc:

Mỗi ngày, khoảng 500.000 giờ lao động của con người bị Google sử dụng miễn phí. Những người đóng góp này chỉ đơn giản muốn đăng nhập vào ngân hàng trực tuyến.

reCAPTCHA là hoạt động dữ liệu vô hình thành công nhất trong lịch sử internet. Trong giai đoạn cao điểm, hàng trăm triệu người hoàn thành xác minh mỗi ngày. Nhưng hầu như không ai nhận thức được ý nghĩa đằng sau mỗi lần nhấp chuột.

Công ty xe tự lái của Google, Waymo, hiện có giá trị thị trường 45 tỷ USD. Phần lớn dữ liệu đào tạo cốt lõi của nó đều được bạn cung cấp miễn phí khi truy cập các trang web khác nhau.

Đây là câu chuyện đầy đủ:

Nguồn gốc: Một ý tưởng thông minh

Năm 2000, các bot spam đang phá hủy internet. Các diễn đàn bị tràn ngập, hộp thư đến bị đầy ắp, các trang web cần gấp một phương pháp để phân biệt con người với máy móc.

Giáo sư Luis von Ahn của Đại học Carnegie Mellon đã giải quyết vấn đề này. Ông phát minh ra CAPTCHA: một chuỗi chữ bị bóp méo mà chỉ con người mới đọc được, robot không thể vượt qua.

Nhưng von Ahn nhìn thấy nhiều hơn thế. Hàng triệu người đã tiêu tốn năng lượng vào những thử thách này. Vậy nếu năng lượng đó có thể đồng thời làm hai việc thì sao?

Năm 2007, ông tiếp tục ra mắt reCAPTCHA. Điểm tinh vi của nó là: thay vì hiển thị chuỗi ký tự ngẫu nhiên, nó hiển thị hai từ: một từ hệ thống đã biết, và một từ là bản quét thực tế từ sách mà máy tính vẫn chưa thể nhận diện được. Câu trả lời của bạn đã giúp số hóa những cuốn sách này.

These books come from The New York Times archive and Google Books, totaling up to 130 million copies.

Bạn nghĩ mình chỉ đang đăng nhập vào một trang web thông thường, nhưng thực ra bạn đang thực hiện OCR (nhận dạng ký tự quang học) cho thư viện số lớn nhất thế giới.

Năm 2009, Google đã mua lại reCAPTCHA.

Sau đó, Google đã thay đổi cách chơi

Thời đại của “chữ bị bóp méo” đã kết thúc vào khoảng năm 2012.

Google lại đối mặt với thách thức mới: xe街景 đã chụp hình mọi con đường trên toàn cầu, nhưng những bức ảnh này chỉ là dữ liệu thô. Để AI có thể phát huy tác dụng, nó cần hiểu những gì nó nhìn thấy: biển báo giao thông, vạch đi bộ, đèn giao thông, mặt tiền cửa hàng.

Vì vậy, Google đã thiết kế lại reCAPTCHA v2. Thay vì các chữ cái biến dạng, hình ảnh hiện là lưới ảnh. “Nhấp vào tất cả các ô có đèn giao thông.” “Chọn mọi vạch kẻ người đi bộ.” “Nhận diện các cửa hàng.”

Các hình ảnh này trực tiếp từ Google Street View. Nhấp của bạn chính là nhãn.

Mỗi lần lựa chọn đều đang thông báo cho mô hình thị giác máy tính của Google: cụm pixel này là đèn giao thông, hình dạng kia là vạch sang đường. Bạn không đang thi cử, bạn đang xây dựng bộ dữ liệu.

Quy mô vượt ngoài tưởng tượng

Ở thời kỳ đỉnh cao, có 200 triệu reCAPTCHA được giải mỗi ngày. Mỗi thách thức mất 10 giây, điều này có nghĩa là tạo ra 2 tỷ giây lao động con người mỗi ngày. Tương đương: 500.000 giờ mỗi ngày.

Chi phí gán nhãn dữ liệu có trả phí vào khoảng 10 đến 50 đô la Mỹ mỗi giờ. Tính theo mức thấp nhất: giá trị lao động bị khai thác miễn phí mỗi ngày lên tới 5 triệu đô la Mỹ.

Hơn nữa, reCAPTCHA không chỉ tồn tại trong một ứng dụng nào đó. Nó có mặt ở mọi ngân hàng, mọi cổng chính phủ, mọi trang web thương mại điện tử. Bạn không có lựa chọn nào khác: muốn đăng nhập tài khoản? Hãy gán nhãn bộ dữ liệu trước. Google chưa bao giờ hỏi ý kiến bạn, chưa trả cho bạn một xu tiền lương, thậm chí chưa từng thông báo cho bạn về điều này.

What has all of this created?

Những dữ liệu này được cung cấp trực tiếp cho hai sản phẩm:

- Google Maps: Công cụ điều hướng được sử dụng phổ biến nhất toàn cầu. Khả năng nhận diện biển báo đường, cửa hàng và địa lý thành phố của nó một phần nhờ vào hàng tỷ lần ghi chú do con người thực hiện khi đăng nhập vào trang web.

-Waymo: Dự án xe tự hành của Google. Để điều hướng an toàn, xe tự hành cần nhận diện gần như hoàn hảo hàng ngàn mẫu hình ảnh.

Dữ liệu huấn luyện ground truth để nhận diện công việc chính là do hàng triệu người gán nhãn thông qua reCAPTCHA mà không hay biết. Waymo đã hoàn thành hơn 4 triệu chuyến đi trả phí vào năm 2024, định giá 45 tỷ USD. Nền tảng của nó chính là do những “người dùng internet miễn phí” chỉ muốn kiểm tra email thiết lập nên.

Tại sao không ai có thể sao chép mô hình này?

Ghi nhãn dữ liệu cực kỳ tốn kém. Sự tồn tại của các công ty như Scale AI, Appen và Labelbox là để giải quyết vấn đề này, khi họ thuê hàng trăm nghìn lao động, đôi khi với mức lương dưới 1 USD mỗi giờ.

Giải pháp của Google mang tính đột phá: họ biến việc gán nhãn thành bắt buộc. Không cần trả phí, không cần sự đồng ý, mà như một "vé vào cửa" để tiếp cận mọi ngóc ngách của internet. Kết quả là: hàng tỷ hình ảnh được gán nhãn, phạm vi toàn cầu, thời tiết 24/7, từng thành phố trên thế giới. Không có công ty gán nhãn nào có thể làm được điều này. Internet chính là nhà máy, và mỗi người dùng internet đều là nhân viên không ký hợp đồng.

Bạn vẫn đang tham gia

reCAPTCHA v3 được ra mắt năm 2018 thậm chí không còn hiển thị thách thức. Nó dựa vào cách bạn di chuyển chuột, tốc độ cuộn, thời gian dừng lại. Dấu vân tay hành vi của bạn sẽ cho nó biết bạn có phải là người thật hay không. Những dữ liệu hành vi này cũng được gửi ngược lại hệ thống AI của Google.

Bạn chưa bao giờ chủ động chọn tham gia, chưa từng có một hộp kiểm nào để bạn đánh dấu. Nhưng ngay lúc này, trên hầu hết các trang web bạn truy cập, bạn vẫn đang làm điều đó.

Sự mỉa mai đáng lo ngại

Ý định ban đầu của Luis von Ahn là thiên tài: biến năng lượng mà con người đang lãng phí thành sản phẩm hữu ích. Nhưng những gì Google làm với tầm nhìn này lại là một chuyện khác. Họ đã tận dụng cơ chế bảo mật mà người dùng buộc phải sử dụng, triển khai nó trên toàn web, khai thác sản phẩm để xây dựng các sản phẩm thương mại có giá trị hàng trăm tỷ đô la. Người dùng không nhận được gì, thậm chí còn không hề hay biết.

Sự讽刺 sâu sắc nhất là: bạn đã dành nhiều năm để chứng minh mình là con người bằng cách hoàn thành các công việc nhận diện hình ảnh mà AI lúc đó chưa thể làm được. Nhưng ngay khi AI học được những kỹ năng này, việc gán nhãn hình ảnh của con người trở nên không còn cần thiết.

Bạn đã chứng minh mình là con người, nhưng kết quả lại khiến bản thân trở nên có thể bị thay thế.

Original link

Nhấp để tìm hiểu các vị trí đang tuyển của律动BlockBeats

Chào mừng bạn tham gia cộng đồng chính thức của律动 BlockBeats:

Nhóm Telegram đăng ký: https://t.me/theblockbeats

Nhóm giao lưu Telegram: https://t.me/BlockBeats_App

Tài khoản chính thức trên Twitter: https://twitter.com/BlockBeatsAsia