Hình ảnh do AI tạo ra tràn ngập các video ngắn, gây làn sóng phản đối từ công chúng

“Gương mặt chuẩn” do mô hình video AI tạo ra đang xâm nhập vào luồng thông tin người dùng. Khuôn mặt AI với các đường nét tinh tế và làn da trắng sáng xuất hiện trong các bộ phim học đường, phim cổ trang và thậm chí cả các nhân vật đã chuyển giới, gây ra sự phản đối mạnh mẽ từ cộng đồng mạng. Các bài kiểm tra cho thấy, khi sử dụng cùng một từ khóa kích hoạt, nhiều mô hình video chính thống đều tạo ra cùng một khuôn mặt, nguyên nhân bắt nguồn từ việc nền tảng đặt tính năng tăng cường từ khóa làm mặc định, cộng thêm sự thiên vị thẩm mỹ vốn có trong dữ liệu huấn luyện của mô hình. Để duy trì tính nhất quán của khuôn mặt qua các khung hình, mô hình tự nhiên ưa chuộng những gương mặt đối xứng và đường nét chuẩn mực. Sự chồng chéo giữa nhu cầu của nền tảng, người dùng và mô hình đã khiến nội dung do AI tạo ra rơi vào tình trạng đồng nhất về thẩm mỹ. Các nhà nghiên cứu cảnh báo, hiện tượng này có thể củng cố các định kiến thẩm mỹ trong xã hội.

Tác giả bài viết, nguồn: Chapi X.PIN

Cần những hình ảnh của những cô gái thực sự xinh đẹp để rửa mắt.

Các bạn thường xem phim ngắn, video ngắn chắc hẳn không còn xa lạ với khuôn mặt này.

Những người chưa từng xem có thể tưởng đây là một người nổi tiếng mới nổi, nhưng thực tế, đây là một khuôn mặt được tạo bởi AI, xuất hiện lặp đi lặp lại trong nhiều video gần đây.

Đường nét khuôn mặt tinh tế, đôi mắt đủ to, mũi đủ nhỏ, làn da luôn trắng trẻo, luôn có bộ lọc ánh sáng mềm mại, nụ cười cong vừa vặn.

Nếu là người thật đứng trước mặt, có lẽ Thế Siêu cũng chẳng nỡ nói một lời. Nhưng chính khuôn mặt trông vô hại như vậy lại bị “bạo lực mạng” nặng nề.

Không phải vì cô ấy quá xấu, mà vì cô ấy giống như một người có hậu thuẫn tài chính trong lĩnh vực AI, xuất hiện trong mọi thứ bạn xem.

Người ánh trăng trắng trong khuôn viên trường là cô ấy, tiểu thư trong phim cổ trang cũng là cô ấy.

Cô bé năm sáu tuổi là cô ấy, bà lão bảy tám mươi vẫn là cô ấy.

Nhìn kỹ hơn một chút, woc, sao người đàn ông đeo khăn quàng đầu bên cạnh lại là cô ấy???

Mỗi ngày mở điện thoại ra đều thấy cùng một khuôn mặt, lướt video ngắn khiến bạn cảm thấy sợ hãi như đang bị bao vây bởi những người giả.

Và khi ngày càng có nhiều người phát hiện ra, khắp nơi đều là những lời phàn nàn của netizen:

Cái mặt này, tôi nhìn đến phát chán.

Nhìn thấy khuôn mặt này là cảm thấy khó chịu về mặt sinh lý.

Có bao nhiêu người cảm thấy khó chịu khi nhìn thấy cô ấy?

Cũng có người thắc mắc, tại sao AI tạo ra toàn bộ người giống nhau như đúc, rốt cuộc là đã lấy trộm gương mặt của ai vậy?

Phần bình luận có người đoán nữ streamer đã bị cấm tài khoản, có người nói giống diễn viên Lý Xuyên, lại có người nói giống chị gái của Park Chan-yeol... Bạn đừng nói không, cả trong và ngoài nước, nam lẫn nữ đều có thể có chút nét tương đồng.

Nhưng vấn đề là, dù có đoán thế nào cũng không thể xác định chính xác. Bởi vì thay vì một khuôn mặt cụ thể nào đó bị đánh cắp, điều này có khả năng cao hơn là một “khuôn mặt chuẩn trung bình” hoàn toàn không tồn tại, được tạo ra lặp đi lặp lại trên dây chuyền thẩm mỹ của AI.

Vậy khuôn mặt này rốt cuộc đến từ đâu?

Thế Siêu không tin vào điều đó, nên trực tiếp thử từng mô hình video phổ biến như Seedance, Ke Ling, Hải Lô, HappyHorse, và trong quá trình thí nghiệm, anh ấy thật sự phát hiện ra một số quy luật.

Chúng tôi cho tất cả các mô hình hai cơ hội, với cùng một lệnh nhắc “cô gái đạp xe”, về lý thuyết, khuôn mặt được tạo ra mỗi lần sẽ khác nhau, đôi khi là người châu Á, đôi khi là người nước ngoài, đó mới là bản chất của các mô hình lớn.

Vì chúng ta chỉ giới hạn giới tính, không có bất kỳ gợi ý nào khác, không chỉ là khuôn mặt, nó nên tạo ngẫu nhiên bất kỳ quốc tịch nào, bất kỳ màu da nào, bất kỳ kiểu tóc và trang phục nào, v.v., tạo ra những người hoàn toàn khác nhau.

Thực tế, với cùng một từ khóa nhắc nhở, hầu hết các mô hình đều tạo ra cùng một khuôn mặt, trang phục, bối cảnh và góc quay trong cả hai lần sinh ra.

Tại Seedance 2.0 Fast, Shi Chao đã tìm thấy chính xác khuôn mặt AI giống hệt như ở đầu, hóa ra đây chính là nguồn gốc của mọi vấn đề.

Nếu chỉ một mô hình mắc lỗi, có thể đó là vấn đề của nó. Nhưng nếu tất cả các mô hình đồng thời mất đi tính đa dạng... Thế Siêu đã nghiên cứu và phát hiện có thể có hai nguyên nhân đằng sau điều này.

Ở cấp độ đầu tiên, những người dùng thường xuyên của các mô hình video nên biết rằng các mô hình video rất nhạy cảm với từ khóa. Đôi khi, chỉ một từ hoặc thứ tự vài chữ cũng có thể ảnh hưởng đến hiệu quả cuối cùng được tạo ra.

Để giúp mọi người có thể rút tiền ổn định nhất có thể sau mỗi lần bốc thẻ, các hướng dẫn của chúng tôi thường được tối ưu hóa lại sau khi được tạo ra ở nền tảng.

Trước đây, “tăng cường từ khóa” được đặt dưới dạng một nút riêng biệt ở bên cạnh, cho phép người dùng chọn bật tính năng này hoặc sử dụng trực tiếp từ khóa gốc. Nhưng sau khi Shi Chao khảo sát nhiều nền tảng, dường như hiện nay tính năng này đã trở thành mặc định.

Ví dụ, tôi nhập “Một cô gái đang đạp xe, vừa đạp vừa cười”, nhưng sau khi được tối ưu, prompt thực tế được truyền vào mô hình có thể trở thành:

Một cô gái châu Á trẻ tuổi, xinh đẹp, đạp xe trên con đường rợp bóng cây dưới ánh nắng rực rỡ. Da cô trắng trẻo, nét mặt tinh xảo, đôi mắt to, mũi nhỏ, mái tóc dài bay tự nhiên, mặc váy trắng, nụ cười ngọt ngào trên môi. Khung hình cận trung, ánh sáng dịu nhẹ tự nhiên, độ sâu trường ảnh nông, phong cách hình ảnh điện ảnh, phong cách tươi mới và đẹp mắt, biểu cảm tự nhiên, chuyển động trôi chảy, hình ảnh sắc nét và chân thực.

Xem một hai lần thì gọi là tối ưu từ khóa, nhưng nếu cứ lặp đi lặp lại hàng ngàn lần như vậy, chẳng phải đã trở thành dây chuyền sản xuất rồi sao?

Vì vậy, sau khi Shi Chao chỉnh sửa lời nhắc, thêm một số đặc điểm mô tả ngoại hình, khuôn mặt ở góc dưới bên phải rõ ràng đã khác đi. Nhưng do không có thêm gợi ý về môi trường, cô gái vẫn đang cưỡi trên con đường rợp bóng cây.

Tuy nhiên, sắc đẹp tinh tế cũng có nhiều loại, trên thế giới có quá nhiều cô gái xinh đẹp, vậy tại sao AI lại chỉ nhận ra người này?

Đây là lý do thứ hai: các mô hình hình ảnh và video vốn mang sẵn sự thiên vị về thẩm mỹ.

Một bài báo được công bố trên tạp chí Nature năm ngoái đã rõ ràng thảo luận về vấn đề này. Trong nghiên cứu của họ, các nhà khoa học phát hiện rằng nếu bạn chỉ định một chủng tộc, khuôn mặt được mô hình tạo ra đều giống nhau như anh em ruột.

Sự lệch lạc về thẩm mỹ này ban đầu xuất phát từ dữ liệu, ví dụ như phần lớn mọi người thích khuôn mặt của các influencer, nên chúng tự nhiên sẽ được gắn nhãn là "đẹp". Mô hình chẳng hiểu gì cả, cứ mỗi khi được yêu cầu gợi ý "đẹp", thì chỉ cần hướng theo hướng này là xong.

Trong quá trình huấn luyện, mô hình còn làm tăng thêm sự thiên lệch này, khiến các từ khóa đặc trưng tương tự tạo ra những khuôn mặt ngày càng giống nhau.

Ngoài ra, mô hình video để chú ý đến tính nhất quán giữa các khung hình còn có thể làm trầm trọng thêm sự đồng hóa thẩm mỹ.

Vì vậy, khuôn mặt được tạo bởi mô hình video không chỉ cần đẹp mà còn phải ổn định, đảm bảo rằng trong hàng chục đến hàng trăm khung hình, từ trước đến sau, từ trái sang phải đều giống một người.

Vì vậy, mô hình cũng sẽ tự nhiên ưa thích những khuôn mặt dễ duy trì tính nhất quán, các đặc điểm gương mặt đối xứng, đường nét chuẩn, đặc trưng không cực đoan, biểu cảm dễ kiểm soát và không dễ bị biến dạng khi quay đầu.

Tóm lại, nền tảng thích những thứ an toàn và đẹp mắt, người dùng thích những ngôi sao mạng xã hội trong các bộ phim ngắn, còn mô hình thích sự ổn định và tiêu chuẩn; khi ba phía kết hợp lại, khuôn mặt khiến mọi người thấy chán ngấy đã ra đời.

Nói thật thì, không chỉ mới đây lan truyền rộng rãi, mà hầu hết những hình ảnh phụ nữ hoàn hảo do AI tạo ra, Shi Chao đều không thích lắm.

Nguồn: Xiaohongshu @Alexander

Việc đưa khuôn mặt AI vào luồng thông tin của chúng ta giống như một thí nghiệm lớn về sự phi nhân hóa cybernetic vô tình xảy ra.

Một khuôn mặt không có thực tế làm chuẩn, được sinh ra sau hàng loạt dữ liệu mạng xã hội được rửa sạch và chưng cất.

Khi chúng chiếm lấy thời gian chúng ta lướt điện thoại, thay thế những cô gái thật đa dạng trước đây, Thế Siêu cảm thấy vô cùng khó chịu, bởi vì nhận thức của chúng ta về thế giới và định nghĩa về cái đẹp đang bị AI áp bức.

Vì vậy, sự phản cảm của mọi người đối với khuôn mặt AI, một phần có thể là do hiệu ứng thung lũng kỳ quặc gây ra bởi sự không thực tế, nhưng cũng xuất phát từ sự phản kháng bản năng đối với sự đồng nhất.

Một số người cho rằng, video AI sau này sẽ ngày càng rõ nét, chi tiết hơn và giống người thật hơn, đến khi mọi người không thể phân biệt được thật giả thì sẽ yêu thích.

Nhưng Shi Chao cho rằng, dù công nghệ có thể tạo ra những khuôn mặt giả hoàn hảo đến mức khó phân biệt, chúng ta cũng không thể yêu một khuôn mặt giả hoàn hảo không có linh hồn.

Hình ảnh, nguồn tài liệu:

《Hình ảnh do AI tạo ra ảnh hưởng đến định kiến giới và sự đồng nhất hóa chủng tộc》 N AlDahoul

Xiaohongshu, Douyin