X відкриває новий алгоритм рекомендацій, який ставить у пріоритет поведінку користувача замість лайків

Автор оригінальної статті: Девід, DeepTide TechFlow

20 січня X відкрив новий рекомендаційний алгоритм.

Цікаво відповів Маск: «Ми знаємо, що цей алгоритм дуже дурний і його треба змінити, але принаймні ви бачите, як ми намагаємося вдосконалювати його в реальному часі. Інші соціальні мережі не відважилися б так робити».

зображення

Це має подвійний зміст.Перше — це визнання того, що алгоритм має проблеми, друге — викладання «прозорості» як переваги.

Це вже другий випуск алгоритму X у відкритому коді. Версія 2023 року не оновлювалася три роки і давно відстала від реальної системи. Цього разу відбулася повна переробка, ядро моделі було замінено з традиційного машинного навчання на Grok transformer, офіційно це називається «знищенням вручну створеного інженерування ознак».

Раніше алгоритми налаштовувалися від руки інженерами, а тепер штучний інтелект аналізує вашу історію взаємодії, щоб вирішити, чи показувати вам той чи інший вміст.

Це означає, що для авторів контенту застарілі «наукові» підходи типу «кращий час для публікації» або «які теги швидше збільшують кількість підписників» можуть перестати працювати.

Ми також подивились на відкриті репозиторії GitHub, і з використанням допомоги штучного інтелекту виявили, що в коді справді приховано деякі жорсткі логічні конструкції, варте того, щоб розібратися.

Зміни в логіці алгоритму: від ручного визначення до автоматичного визначення штучним інтелектом

Спочатку з'ясуйте відмінності між старим і новим версіями, інакше подальші дискусії будуть плутаними.

У 2023 році Twitter відкрив джерельний код версії, яка називалася Heavy Ranker, суть якої полягала в традиційному машинному навчанні. Інженерам доводилося вручну визначати сотні «ознак»: чи є в цьому повідомленні зображення, скільки у користувача підписників, наскільки давнім є повідомлення, чи є в ньому посилання...

Потім кожному означенню присвоюється вага, налаштовується все, щоб побачити, яка комбінація дає найкращий результат.

Цей новий відкритий джерельний код має назву Phoenix, у нього повністю інша архітектура, ви можете зрозуміти це як алгоритм, який більше залежить від великих моделей штучного інтелекту, ядром є модель transformer Grok, вона використовується в ChatGPT, Claude, використовується та сама технологія.

У офіційному README написано досить прямо: «Ми виключили кожну окрему вручну створену ознаку».

Усі традиційні правила, які ґрунтувалися на вилученні ознак матеріалу вручну, скасовано.

А тепер, на основі чого цей алгоритм визначає, наскільки зміст є гарним?

Відповідь залежить від тебеПослідовність діВаші минулий лайки, відповіді, на яких постах ви затримувалися більше двох хвилин, які типи облікових записів ви приховували. Phoenix подає ці дії в transformer, щоб модель самостійно вивчила закономірності та зробила висновки.

зображення

Наприклад: старий алгоритм подібний до оціночного листа, складеного вручну, де за кожний пункт ставиться позначка і нараховується певна кількість балів;

Новий алгоритм, ніби штучний інтелект, який переглянув усі ваші записи переглядів,Просто вгадайЩо ти хочеш побачити в наступну секунду.

Це означає два речі для авторів:

Перше: раніше відомі прийоми, такі як «найкращі години для публікацій» або «золоті хештеги», втратили більшість свого значення.Оскільки модель більше не аналізує ці фіксовані ознаки, вона аналізує особисті вподобання кожного користувача.

Друге, те, чи зможе твій вміст поширитися, все більше залежить від того, як на нього відреагують люди, що його побачать.Цю реакцію кількісно визначено у вигляді 15-ти прогнозів поведінки, про які ми докладніше розповімо у наступному розділі.

Алгоритм передбачає ваші 15 реакцій

Після отримання поста, який потрібно рекомендувати, Phoenix передбачає 15 можливих дій, які може виконати поточний користувач, переглядаючи цей вміст:

Позитивна поведінканаприклад, лайки, відповіді, репост, цитування, клік по посту, клік по головній сторінці автора, перегляд більш ніж половини відео, розгортання зображень, поділ, затримка більше певного часу, підписка на автора
Негативна поведінка: як натиснути «Не цікавиться», Block автора, Mute автора, Повідомити

Кожна дія відповідає ймовірності передбачення. Наприклад, модель визначає, що ймовірність того, що ви поставите лайк цьому посту, становить 60%, ймовірність того, що ви приховате цього автора, - 5% і так далі.

Потім алгоритм робить щось дуже просте: множить ці ймовірності на відповідні ваги, додає їх і отримує загальний бал.

зображення

Формула виглядає так:

Кінцевий результат = Σ (вага × P(дія) )

Вага позитивних дій є додатним числом, а вага негативних дій — від'ємним.

Посту з вищим загальним рахунком будуть вище, ніж ті з нижчим.

Вийти за межі формату, по суті, означає саме це:

Зараз якість контенту дійсно не визначається тим, наскільки добре він написаний (звичайно, зручність сприйняття та корисність є основою для поширення); більше залежить від того, «яку реакцію викличе цей контент у вас». Алгоритм не цікавить якість самого посту, йому більше пасує ваша поведінка.

За такого підходу, у крайньому випадку, пост з низьким смисловим навантаженням, але який неминуче викликає бажання відповісти його спантеличенням, може мати більше балів, ніж якісний пост, з яким ніхто не взаємодіє. Можливо, саме така логіка лежить в основі цієї системи.

Проте нова версія алгоритму відкритого коду не відкриває конкретні значення ваги поведінки, хоча 2023-річна версія була відкрита.

Попередній посилання: 1 скарга = 738 лайків

Тепер ми можемо розібрати дані за 2023 рік, хоча вони й застарілі, але вони допоможуть тобі зрозуміти, наскільки відрізняється «вартість» різних дій у очах алгоритму.

5 квітня 2023 року X дійсно оприлюднив набір вагових коефіцієнтів на GitHub.

Прямо до чисел:

зображення

Переклади трохи пряміше:

Джерело даних: старий варіант Репозиторій GitHub twitter/the-algorithm-ml, клікніть, щоб переглянути оригінальний алгоритм

Кілька чисел заслуговують на увагу.

По-перше, лайки майже не вартують нічого. Вага становить лише 0,5, що є найнижчою серед усіх позитивних дій. З точки зору алгоритму, цінність лайку приблизно дорівнює нулю.

Друге, діалогове спілкування є справжнім активом. Вага відгуку «ти відповів, автор відповів на тебе» становить 75, що в 150 разів більше, ніж лайк. Алгоритм найбільше прагне побачити не односторонні лайки, а двосторонній діалог.

Третє, негативні відгуки мають високу вартість. Один блок або мут (-74) може бути врівноважений 148 лайками. Одне скарга (-369) потребує 738 лайків. Крім того, ці негативні бали накопичуються в рейтингу вашого облікового запису, впливаючи на розподіл усіх наступних публікацій.

Четверте, відео закінчення вага неймовірно низька. Лишень 0,005, майже незначна. Це контрастує з Дуолін і Тіктоком, де ці дві платформи вважають коефіцієнт перегляду відео до кінця основним показником.

У тій самій документації також зазначено: «Точні ваги у файлі можна буде змінити в будь-який час... З того часу ми періодично налаштовували ваги, щоб оптимізувати метрики платформи».

Вага може змінюватися в будь-який час, і вона дійсно змінювалася.

Нову версію не було оприлюднено з конкретними числами, але логічна структура, написана в README, залишилася такою ж: додавання позитивних балів, віднімання негативних, зважене підсумовування.

Точні цифри могли змінитися, але масштабні відношення, ймовірно, залишилися. Відповідь на коментар іншого користувача корисніша, ніж 100 лайків. Викликати бажання заблокувати тебе гірше, ніж отримувати нульову реакцію.

Знаючи все це, що ми, створювачі, можемо зробити

Розібрати новий і старий алгоритми коду Twitter, об'єднати їх, і винести кілька висновків, які можна використовувати на практиці.

1. Відповідайте на коментарі. У таблиці ваг найвищий бал отримує «відповідь автора коментатору» (+75), що у 150 разів більше, ніж за просте лайк. Це не про те, щоб залучати людей до коментування, а про те, щоб відповідати на коментарі, які з’явилися. Навіть якщо ви відповісте просто «дякую», алгоритм це врахує.

2. Не дозволяй людям свайпувати. Від'ємний вплив одного блокування може врівноважити 148 лайків. Справді, спірні публікації здатні викликати взаємодію, але якщо ця взаємодія полягає в тому, що "ця людина діє на нерви, я її заблокую", то репутаційний рейтинг вашого акаунту буде постійно падати, що вплине на розподіл усіх наступних публікацій. Спірність — це подвійний меч, відріжте себе, перш ніж відрізати інших.

3. Зовнішні посилання в розділ коментарів.Алгоритм не хоче виводити користувачів за межі сайту. Текст із посиланнями буде мати менший пріоритетЦе відкрито заявляв сам Маск. Якщо хочете залучити трафік, пишіть зміст у основному тексті, а посилання залишайте в першому коментарі.

4. Не затягуйте. У новій версії коду є Author Diversity Scorer, який зменшує вагу публікацій від одного автора, що йдуть підряд. Мета цього — зробити ленту користувача більш різноманітною. Побічний ефект: краще опублікувати одну якісну публікацію, ніж десять підряд.

6. Вже немає «найкращого часу для публікації». У старому алгоритмі був вручну налаштований ознака «час публікації», але в новій версії його просто відключили. Phoenix враховує лише послідовність дій користувача, а не час, у який було опубліковано допис. Такі поради, як «краще публікувати о третій годині дня по вівторках», стають все менш корисними.

Вище — це те, що можна зчитати на рівні коду.

Деякі додаткові правила оцінювання з публічної документації X не відкриті в цьому відкритому репозиторії: додатковий бонус за синю позначку, зниження рейтингу для текстів, написаних великими літерами, зниження досяжності на 80% при виявленні чутливого вмісту. Ці правила не відкриті, тому детальніше не пояснюватиму.

В цілому, цей відкритий джерело виглядає досить суттєвим.

Повний архітектурний дизайн, логіка виклику кандидатського вмісту, процес сортування та оцінювання, реалізація різних фільтрів. Код написаний переважно на Rust і Python, має чітку структуру, README написаний детальніше, ніж у багатьох комерційних проєктах.

Але кілька ключових речей не було випущено.

1. Вагові параметри не були оприлюднені. У коді просто написано «додавання балів за позитивну поведінку, віднімання балів за негативну», а конкретні значення, наскільки балів додається за лайк, і на скільки віднімається за блокування, не вказано. У версії 2023 року хоча б вказували числа, а цього разу навіть формулу навели.

2. Ваги моделі не оприлюднені. Phoenix використовує Grok transformer, але сама модель не містить параметрів. Ви можете побачити, як викликається модель, але не бачите, як вона обчислюється всередині.

3. Тренувальні дані не були оприлюднені. Не зазначено, на яких даних було навчено модель, як здійснювався збір даних про поведінку користувачів, як формувалися позитивні та негативні приклади.

Наприклад, це відкрите джерело еквівалентне тому, що ми кажемо: «Ми використовуємо зважене підсумовування для обчислення загального балу», але не говоримо вам, які ваги використовуються; кажемо: «Ми використовуємо transformer для передбачення ймовірності дії», але не говоримо вам, як виглядає transformer.

У порівнянні з TikTok і Instagram, навіть не відкривали таку інформацію. Цього разу X дійсно відкрив більше інформації, ніж інші основні платформи. Проте він все ще не досяг «зовсім прозорого».

Це не означає, що відкрите програмне забезпечення не має значення. Для авторів і дослідників завжди краще бачити код, ніж не бачити його взагалі.