X mở ra thuật toán đề xuất mới, ưu tiên hành vi người dùng hơn số lượt thích

Tác giả gốc: David, DeepTide TechFlow

Vào buổi chiều ngày 20 tháng 1, X đã công khai thuật toán đề xuất phiên bản mới.

Phản hồi của Musk khá thú vị: "Chúng ta biết thuật toán này rất ngu ngốc và cần phải cải tiến lớn, nhưng ít nhất bạn có thể thấy chúng tôi đang vật lộn để cải thiện theo thời gian thực. Các nền tảng mạng xã hội khác không dám làm như vậy."

hình ảnh

Câu này có hai tầng ý nghĩa.Một là thừa nhận thuật toán có vấn đề, hai là lấy "sự minh bạch" ra làm điểm nhấn.

Đây là lần thứ hai X công khai thuật toán. Phiên bản mã nguồn năm 2023 đã không được cập nhật trong suốt 3 năm, sớm bị lạc hậu so với hệ thống thực tế. Lần này đã được viết lại hoàn toàn, mô hình cốt lõi chuyển từ học máy truyền thống sang Grok transformer, theo lời chính thức là "hoàn toàn loại bỏ việc thiết kế đặc trưng thủ công".

Hãy hiểu đơn giản như thế này: Trước đây, các thuật toán phụ thuộc vào việc kỹ sư điều chỉnh tham số một cách thủ công, còn hiện nay, AI sẽ trực tiếp xem lịch sử tương tác của bạn để quyết định có nên đề xuất nội dung cho bạn hay không.

Đối với các nhà sáng tạo nội dung, điều này có nghĩa là những điều mê tín xưa như "đăng bài vào thời gian nào là tốt nhất" hay "dùng hashtag gì để tăng theo dõi" có thể không còn hiệu quả nữa.

Chúng tôi cũng đã xem xét các kho lưu trữ mã nguồn mở trên Github và với sự hỗ trợ của AI, phát hiện ra thực sự có một số logic cứng ẩn trong mã, đáng để đào sâu tìm hiểu.

Thay đổi logic thuật toán: Từ định nghĩa thủ công sang AI tự động xác định

Hãy nói rõ sự khác biệt giữa phiên bản cũ và mới trước đã, nếu không thì cuộc thảo luận sau sẽ dễ bị nhầm lẫn.

Vào năm 2023, phiên bản mã nguồn mở của Twitter được gọi là Heavy Ranker, về bản chất chính là học máy truyền thống. Các kỹ sư phải tự tay định nghĩa hàng trăm "đặc trưng" (features): bài đăng có hình ảnh hay không, số người theo dõi của người đăng, khoảng cách thời gian từ lúc đăng đến hiện tại, bài đăng có chứa đường link hay không...

Sau đó gán trọng số cho từng đặc trưng, điều chỉnh qua lại, xem tổ hợp nào cho hiệu quả tốt nhất.

Phiên bản mã nguồn mở lần này được gọi là Phoenix, có kiến trúc hoàn toàn khác. Bạn có thể hiểu đây là một thuật toán phụ thuộc nhiều hơn vào các mô hình AI lớn, lõi của nó sử dụng mô hình transformer của Grok, cùng loại công nghệ được sử dụng trong ChatGPT và Claude.

Tài liệu README chính thức viết rất rõ ràng: "Chúng ta đã loại bỏ mọi đặc điểm (feature) được thiết kế thủ công."

Tất cả các quy tắc truyền thống trước đây dựa vào tay người để trích xuất đặc trưng nội dung, không để lại cái nào, toàn bộ đều loại bỏ hết.

Vậy hiện tại, thuật toán dựa vào điều gì để xác định nội dung nào tốt hay không tốt?

Đáp án là do bạn quyết định.Dãy hành viNhững gì bạn đã từng thích, đã từng trả lời, đã dành hơn hai phút xem xét những bài viết nào, và đã chặn những loại tài khoản nào. Phoenix đưa những hành vi này vào transformer, để mô hình tự học ra quy luật và tiến hành tổng kết.

hình ảnh

Ví dụ như sau: Thuật toán cũ giống như một bảng điểm được lập bằng tay, mỗi mục sẽ được tính điểm khi tích vào ô tương ứng;

Thuật toán mới giống như một AI đã xem qua toàn bộ lịch sử duyệt web của bạn,Đoán trực tiếp điBạn muốn xem gì vào giây tiếp theo?

Đối với các nhà sáng tạo, điều này có nghĩa là hai điều sau:

Thứ nhất, những mẹo trước đây như "thời gian đăng bài tốt nhất", "nhãn vàng" v.v. giờ đây có giá trị tham khảo thấp hơn rồi.Vì mô hình không còn xem xét những đặc điểm cố định này nữa, mà thay vào đó là sở thích cá nhân của từng người dùng.

Thứ hai, việc nội dung của bạn có thể được lan tỏa hay không ngày càng phụ thuộc vào "phản ứng của những người xem nội dung của bạn sẽ như thế nào".Phản ứng này được lượng hóa thành 15 dự đoán hành vi, chúng ta sẽ nói chi tiết hơn ở chương tiếp theo.

Thuật toán đang dự đoán 15 phản ứng của bạn

Sau khi Phoenix nhận được một bài viết cần được đề xuất, hệ thống sẽ dự đoán 15 hành vi mà người dùng hiện tại có thể thực hiện khi xem nội dung này:

Hành vi tích cựcVí dụ như: Thích, trả lời, chia sẻ, chia sẻ bằng cách trích dẫn, nhấp vào bài viết, nhấp vào trang cá nhân của tác giả, xem hơn một nửa video, mở rộng hình ảnh, chia sẻ, thời gian xem vượt quá một khoảng thời gian nhất định, theo dõi tác giả.
Hành vi tiêu cực: Ví dụ như nhấn "Không quan tâm", chặn tác giả, tắt thông báo của tác giả, báo cáo

Mỗi hành động tương ứng với một xác suất dự đoán. Ví dụ, mô hình xác định bạn có 60% khả năng thích bài viết này, 5% khả năng chặn tác giả này, v.v.

Sau đó thuật toán làm một việc rất đơn giản: nhân các xác suất này với trọng số tương ứng, cộng lại với nhau để có được một điểm tổng.

hình ảnh

Công thức trông như thế này:

Điểm số cuối cùng = Σ ( trọng số × P(hành động) )

Trọng số của hành vi tích cực là số dương, trọng số của hành vi tiêu cực là số âm.

Bài viết có tổng điểm cao sẽ được hiển thị trên cùng, còn bài có tổng điểm thấp sẽ chìm xuống dưới.

Thực ra, nói cho cùng thì "vượt ra khỏi công thức" chính là:

Hiện nay, việc một nội dung có tốt hay không thực ra không còn phụ thuộc hoàn toàn vào việc nội dung đó được viết tốt hay không (dĩ nhiên tính dễ đọc và tính hữu ích vẫn là nền tảng cho việc lan truyền); mà phần lớn lại phụ thuộc vào "phản ứng mà nội dung này khiến bạn có". Thuật toán không quan tâm đến chất lượng thực sự của bài đăng, mà nó chỉ quan tâm đến hành vi của bạn mà thôi.

Theo cách suy nghĩ này, trong trường hợp cực đoan, một bài đăng tầm thường nhưng khiến người ta không thể nhịn được việc trả lời và bình luận có thể đạt điểm cao hơn một bài đăng chất lượng cao nhưng không ai tương tác. Có thể đây chính là logic nền tảng của hệ thống này.

Tuy nhiên, phiên bản mã nguồn mở mới không công bố giá trị cụ thể của trọng số hành vi, nhưng phiên bản năm 2023 đã công bố.

Tham khảo phiên bản cũ: 1 lần khiếu nại = 738 lượt thích

Tiếp theo, chúng ta có thể phân tích dữ liệu của năm 2023, mặc dù đã cũ nhưng có thể giúp bạn hiểu rõ hơn mức độ "giá trị" khác nhau của các hành vi trong mắt thuật toán.

Vào ngày 5 tháng 4 năm 2023, X thực sự đã công khai một bộ dữ liệu trọng số trên GitHub.

Trực tiếp lên số:

hình ảnh

Dịch một cách rõ ràng hơn:

Nguồn dữ liệu: Phiên bản cũ Kho lưu trữ GitHub twitter/the-algorithm-ml, Nhấp để xem thuật toán gốc

Một vài con số đáng để xem xét kỹ lưỡng.

Thứ nhất, việc thả tim gần như không có giá trị gì. Trọng số chỉ có 0,5, là thấp nhất trong tất cả các hành vi tích cực. Theo thuật toán, giá trị của một lượt thích gần như bằng không.

Thứ hai, tương tác đối thoại mới là yếu tố then chốt. "Trọng số của 'bạn trả lời, tác giả trả lời lại bạn' là 75, gấp 150 lần so với việc bấm thích. Thuật toán mong muốn nhất không phải là những lượt thích một chiều, mà là những cuộc trò chuyện qua lại."

Thứ ba, chi phí phản hồi tiêu cực rất cao. Một lần chặn hoặc cấm (-74) cần 148 lượt thích để bù đắp. Một lần khiếu nại (-369) cần 738 lượt thích. Ngoài ra, những điểm số âm này sẽ tích lũy vào điểm uy tín tài khoản của bạn, ảnh hưởng đến việc phân phối tất cả các bài đăng tiếp theo.

Thứ tư, tỷ lệ xem hết video lại quá thấp một cách vô lý. Chỉ có 0,005, gần như có thể bỏ qua. Điều này lập nên sự tương phản rõ rệt với Douyin và TikTok, hai nền tảng coi tỷ lệ xem hết video là chỉ số cốt lõi.

Trong cùng một tài liệu chính thức, họ cũng viết: "Các trọng số chính xác trong tệp có thể được điều chỉnh bất kỳ lúc nào... Kể từ đó, chúng tôi đã định kỳ điều chỉnh các trọng số để tối ưu hóa các chỉ số nền tảng."

Cân nặng có thể thay đổi bất kỳ lúc nào, và thực tế là đã từng thay đổi rồi.

Phiên bản mới chưa công bố các con số cụ thể, nhưng khung logic được viết trong README vẫn giống như trước: cộng điểm tích cực, trừ điểm tiêu cực, tính tổng có trọng số.

Các con số cụ thể có thể đã thay đổi, nhưng mối quan hệ về cấp độ大概 vẫn còn. Việc trả lời bình luận của người khác có thể hữu ích hơn nhiều so với việc nhận được 100 lượt thích. Việc khiến người khác muốn chặn bạn còn tồi tệ hơn việc không có bất kỳ tương tác nào.

Sau khi biết những điều này, chúng ta - những người sáng tạo - có thể làm gì?

Phân tích mã nguồn cũ và mới của thuật toán Twitter, kết hợp lại để rút ra một vài kết luận có thể áp dụng được.

1. Trả lời người bình luận. Trong bảng trọng số, "tác giả trả lời ý kiến của người xem" là mục có điểm cao nhất (+75), cao gấp 150 lần việc người dùng đơn phương nhấn nút thích. Không phải tôi đang bảo bạn phải đi xin nhận xét, mà là khi đã có người để lại ý kiến thì hãy trả lời lại. Dù chỉ trả lời một câu "cảm ơn", thuật toán cũng sẽ ghi nhận điều đó.

2. Đừng để người khác muốn lướt qua. Một lần chặn (block) sẽ gây ra tác động tiêu cực cần đến 148 lần like mới có thể bù đắp lại. Nội dung gây tranh cãi thực sự dễ kích thích tương tác, nhưng nếu hình thức tương tác là "Người này thật phiền, block đi", thì điểm uy tín của tài khoản bạn sẽ tiếp tục bị tổn hại, ảnh hưởng đến việc phân phối tất cả các bài đăng tiếp theo. Dòng trôi gây tranh cãi là con dao hai lưỡi, hãy tự răn mình trước khi muốn "cắt" người khác.

3. Đặt liên kết ngoài trong phần bình luận.Thuật toán không muốn chuyển hướng người dùng ra ngoài trang web. Nội dung có chứa liên kết sẽ bị giảm thứ hạng.Điều này Musk đã công khai nói. Nếu muốn dẫn lưu, hãy viết nội dung trong phần chính văn, còn đường link thì để trong bình luận đầu tiên.

4. Đừng lạm dụng tin nhắn. Phiên bản mã mới có một công cụ gọi là Author Diversity Scorer, có chức năng hạ thấp trọng số của các bài đăng liên tiếp từ cùng một tác giả. Mục đích thiết kế là làm cho luồng thông tin (feed) của người dùng trở nên đa dạng hơn, tác dụng phụ là việc bạn đăng liên tiếp mười bài sẽ không hiệu quả bằng việc đăng một bài chất lượng cao.

6. Không còn khái niệm "thời gian đăng bài tốt nhất" nữa rồi. Thuật toán cũ có chứa đặc trưng thủ công là "thời gian đăng bài", nhưng phiên bản mới đã loại bỏ đặc trưng này một cách đột ngột. Phoenix chỉ xem xét chuỗi hành vi của người dùng, mà không quan tâm bài viết được đăng vào thời điểm nào. Những mẹo như "đăng bài vào lúc 3 giờ chiều thứ Ba sẽ có hiệu quả tốt nhất" ngày càng mất đi giá trị tham khảo.

Đây là những thứ có thể đọc được ở cấp độ mã nguồn.

Một số yếu tố tăng/giảm điểm khác đến từ tài liệu công khai của X, không nằm trong kho mã nguồn mở lần này: có điểm thưởng cho chứng nhận xanh, chữ in hoa toàn bộ sẽ bị giảm trọng số, nội dung nhạy cảm sẽ kích hoạt việc giảm 80% tỷ lệ tiếp cận. Vì các quy tắc này chưa được công khai mã nguồn, nên mình không mở rộng thêm ở đây.

Tóm lại, những thứ lần này mở nguồn khá thực tế.

Kiến trúc hệ thống đầy đủ, logic thu hồi nội dung ứng viên, quy trình xếp hạng và chấm điểm, cách triển khai các loại bộ lọc. Mã nguồn chủ yếu sử dụng Rust và Python, cấu trúc rõ ràng, README được viết chi tiết hơn nhiều dự án thương mại khác.

Nhưng có vài thứ quan trọng chưa được công bố.

1. Tham số trọng số chưa được công bố. Mã nguồn chỉ viết rằng "hành vi tích cực được cộng điểm, hành vi tiêu cực bị trừ điểm", nhưng không nói cụ thể mỗi lượt thích được bao nhiêu điểm, chặn người khác bị trừ bao nhiêu điểm. Phiên bản năm 2023 ít nhất đã công bố con số cụ thể, lần này chỉ đưa ra khung công thức mà thôi.

2. Trọng số mô hình chưa được công bố. Phoenix sử dụng Grok transformer, nhưng không cung cấp các tham số bên trong của mô hình. Bạn có thể thấy cách gọi mô hình, nhưng không thể biết được cách tính toán bên trong của mô hình.

3. Dữ liệu huấn luyện chưa được công bố. Không nói rõ dữ liệu nào được dùng để huấn luyện mô hình, cách lấy mẫu hành vi người dùng như thế nào, và cách xây dựng các mẫu tích cực và âm tính.

Ví dụ như lần này mã nguồn mở tương đương việc nói với bạn rằng "chúng ta dùng tổng điểm tính theo tổng hợp có trọng số", nhưng không nói trọng số là bao nhiêu; nói với bạn rằng "chúng ta dùng transformer để dự đoán xác suất hành vi", nhưng không nói với bạn bên trong transformer trông như thế nào.

Nếu so sánh ngang hàng, cả TikTok và Instagram đều chưa từng công khai những thứ này. Lần này, X thực sự công khai nhiều thông tin hơn các nền tảng chính khác. Tuy nhiên, vẫn còn một khoảng cách nhất định so với "sự minh bạch hoàn toàn".

Điều này không có nghĩa là mã nguồn mở không có giá trị. Đối với các nhà sáng tạo và nhà nghiên cứu, việc có thể xem được mã nguồn luôn tốt hơn là không thể xem.