AI 視頻模型生成的「標準臉」正在入侵用戶資訊流。這張五官精緻、皮膚白皙的 AI 脸出現在校園劇、古裝劇,甚至性轉後的各種角色中,引發網友大規模反感。測試發現,多個主流視頻模型在使用相同提示詞時均生成同一張臉,根源在於平台將提示詞增強設為預設,加上模型訓練數據本身存在審美偏見。為維持人臉前後一致性,模型天然偏愛五官對稱、輪廓標準的長相。平台、用戶、模型三方需求疊加,導致 AI 生成內容陷入審美同質化困境。研究者警示,這種現象可能強化社會的審美刻板印象。文章作者、來源:差評X.PIN
需要真·美女出片洗洗眼睛。
經常刷短劇、短視頻的各位差友,應該對這張臉不陌生。
沒看過的人可能以為這是哪位新晉網紅,實際上,這是在各種影片中反覆出現的一張 AI 生成臉。
Facial features are delicate, eyes are large enough, nose is small enough, skin is always fair, always under a soft glow filter, and the corner of the mouth is perfectly curved.

如果真人站在面前,世超大概連一句都捨不得說。但就是這麼一張看起來人畜無害的臉,卻遭到了嚴重的「網暴」。
並不是因為她有多難看,而是她就像 AI 領域帶資進組的關係戶一樣,看什麼都有她出演。
校園裡的白月光是她,古裝劇裡的大小姐還是她。
那個五六歲的小女孩是她,七八十歲的老太太還是她。
再仔細一看,woc,怎麼旁邊繫著頭巾的大爺還是她???

每天打開手機看到的都是同一張臉,刷短視頻竟刷出了被偽人包圍的恐懼感。
而隨著發現的人越來越多,到處都是網友鋪天蓋地的吐槽:
這張臉,我快看吐了。
看到這張臉就生理性厭惡。
有多少人看見她就反感?
也有人納悶,這 AI 怎麼生成的人全一個樣,到底是偷了誰的臉?
評論區有人猜是某位已被封號的女主播,有人說像演員李川,還有說像朴燦烈的姐姐……你還真別說,無論國內外,男女都好像有點像。

但問題是,猜來猜去也沒個準信。因為比起具體哪張臉被偷了,這更可能是從 AI 的審美流水線上,被反覆捏出來的一個本不存在的「平均標準臉」。
那這張臉到底是怎麼來的呢?
不信邪的世超,乾脆把 Seedance、可靈、海螺、HappyHorse 這些主流視頻模型挨個試了一遍,在實驗的過程中,还真發現了一點規律。
我們給所有模型兩次機會,使用相同的「女生騎自行車」提示詞,按理說,它們每次生成的臉部都應該不同,有時會生成亞洲人,有時會生成外國人,這才是大模型的本質。
因為我們只限定了性別,沒有任何其他提示,不只限於人臉,它應該隨機生成任何國籍、任何膚色、任何髮型和穿著等,完全不同的個人。
但實際上,使用同樣的提示詞,幾乎所有模型兩次生成的都是同一張臉、同樣的穿著打扮、背景環境和拍攝角度。

At Seedance 2.0 Fast, Shi Chao found the exact same AI face as at the beginning, suggesting this is the source of all evil.
如果只有一個模型出錯,也許是它的問題。但要是所有模型同時喪失了多樣性。。。世超研究了一下,發現這裏面可能有兩層原因。
第一層,常用視頻模型的用戶應該都知道,視頻模型對提示詞非常敏感。有時候一個詞、幾個字的順序,都可能影響生成的最終效果。
為了讓大家能盡量穩定地每次抽卡出金,我們的提示詞在生成後通常會經過二次優化。

過去,「提示詞增強」會作為一個獨立按鈕放在一旁,用戶可以選擇開掛,也可以直接使用原始提示詞。但世超翻閱了眾多平台後,發現現在這種做法已很少見,提示詞潤色已成為預設選項。
例如,我輸入的是「女生正在騎自行車,邊騎邊笑」,而經過優化後實際輸入模型的提示詞,可能變為:
A young, beautiful Asian girl cycling on a sunny tree-lined avenue. She has fair skin, delicate facial features, large eyes, a small nose, and long hair flowing naturally. She wears a white dress and has a sweet smile on her face. The shot is a medium close-up, with soft natural lighting, shallow depth of field, cinematic quality, in a fresh and beautiful style. The subject’s expression is natural, movements are smooth, and the image is high-definition and realistic.
看一兩次叫提示詞優化,成千上萬次都這樣補,豈不就成了流水線嗎?
因此,在世超修改提示詞,對外貌進行一些特徵描寫後,右下角的臉明顯不同了。但沒有額外環境提示,女生依然騎在林蔭道上。

不過,五官精緻也分很多種,世界上美女那麼多,為什麼 AI 認的就這一個?
這就來到了第二層原因,圖像、視頻模型天生就有審美偏見。
去年發表於《Nature》的一篇論文,明確探討了這個問題。他們在研究中發現,如果你指定一個種族,模型生成的臉孔個個都像親兄弟。
這種審美偏差最初來自數據,例如大多數人喜歡網紅臉,它們自然會被標上美女的標籤。模型什麼也不懂,反正以後提示「美女」,往這個方向靠就完事了。
在訓練過程中,模型還會進一步放大這種偏見,導致相同的特徵提示詞生成的臉越來越相似。

此外,視頻模型為確保前後一致性,還可能進一步加劇審美同化。
畢竟視頻模型生成的人臉,不僅要好看,還要穩定,要確保幾十幀、上百幀中,前後左右都像同一個人。
因此,模型也會天然偏愛那些更容易維持一致性的臉,五官對稱,輪廓標準,特徵不極端,表情易於控制,轉頭不易崩潰。
總之,平台喜歡安全美觀的,用戶喜歡短劇網紅的,模型喜歡穩定標準的,三邊一合計,就誕生了讓大家看吐的臉。
說實話,不只是最近廣為流傳的那張,幾乎所有 AI 生成的毫無缺陷的美女,世超都不大喜歡。

來源:小紅書 @Alexander
讓 AI 脸進入我們的信息流,堪稱一次無意促成的大型賽博異化實驗。
在無數網紅數據的洗滌與蒸餾下誕生的、沒有現實對照的臉。
當它們擠佔了我們刷手機的時間,取代了過去各種真實美女時,世超感到相當難受,因為我們對世界的感知與對審美的定義正被 AI 壓迫。
因此,人們對 AI 脸的反感,一方面可能是由那種不真實感所引發的恐怖谷效應,另一方面也是對同質化的本能抗拒。
有人說,AI 影片今後應該會越來越清晰、越來越細節、越來越像真人,當大家無法分辨真假時,就會喜歡了。
But Shi Chao believes that even if technology can make fake faces indistinguishable from real ones, we still cannot fall in love with a perfect false face without a soul.
圖片、資料來源:
《AI 生成的臉孔影響性別刻板印象與種族同質化》N AlDahoul
小紅書、抖音
