X Lança Novo Algoritmo de Recomendação, Prioriza o Comportamento do Utilizador em Relação aos Likes

Autor original: David, DeepTide TechFlow

No dia 20 de janeiro, à tarde, a X lançou uma nova versão do algoritmo de recomendação como código aberto.

A resposta de Musk foi bastante interessante: "Sabemos que o algoritmo é tolo e precisa de grandes alterações, mas pelo menos podes ver que estamos a lutar em tempo real para o melhorar. Outras plataformas sociais não teriam coragem para isso."

imagem

Essas palavras têm dois significados.Primeiro, admitir que há problemas com os algoritmos, e segundo, apresentar a "transparência" como um ponto forte.

Esta é a segunda vez que a X torna o seu algoritmo de código aberto. A versão do código de 2023 não foi atualizada há três anos e já estava completamente desatualizada em relação ao sistema real. Desta vez, houve uma reescrita completa, substituindo o modelo central de aprendizagem automática tradicional pelo Grok Transformer. Segundo a versão oficial, isto "elimina por completo a engenharia manual de características".

Antes, os algoritmos dependiam de engenheiros a ajustarem manualmente os parâmetros, mas agora o IA analisa directamente a tua história de interacções para decidir se mostra ou não o teu conteúdo.

Para criadores de conteúdo, isso significa que a antiga "ciência oculta" sobre "em que horas publicar" ou "que tags usar para ganhar seguidores" pode deixar de funcionar.

Também revimos repositórios de código aberto no Github e, com a ajuda da IA, descobrimos que realmente existem algumas lógicas rígidas escondidas no código, dignas de serem exploradas.

Mudança na lógica do algoritmo: da definição manual para a decisão automática por IA

Primeiro, esclareça as diferenças entre as versões antiga e nova, caso contrário as discussões seguintes ficarão facilmente confusas.

Em 2023, a versão aberta pela Twitter era chamada Heavy Ranker, essencialmente baseada em aprendizagem automática tradicional. Os engenheiros tinham de definir manualmente centenas de "características": se a publicação contém imagens, quantos seguidores tem o utilizador, quanto tempo se passou desde a publicação até ao momento atual, se a publicação contém links...

Atribua depois um peso a cada característica, ajuste-os e veja qual combinação tem melhor desempenho.

Esta nova versão aberta recentemente chama-se Phoenix, e a sua arquitetura é completamente diferente. Podes entendê-la como um algoritmo que depende mais fortemente de modelos grandes de IA. O núcleo utiliza o modelo transformer do Grok, sendo esta a mesma tecnologia usada pelo ChatGPT e pelo Claude.

O README oficial está bem claro: «Eliminámos todas as características manualmente definidas.»

As regras tradicionais que dependiam da extração manual de características do conteúdo foram todas eliminadas, sem excepções.

Agora, com base em quê este algoritmo determina se um conteúdo é bom ou não?

A resposta depende de ti.Sequência de comportamentosO que você gostou no passado, a quem respondeu, em quais publicações permaneceu mais de dois minutos e que tipos de contas bloqueou. O Phoenix alimenta estes comportamentos ao transformer, permitindo que o modelo aprenda sozinho padrões e faça resumos.

imagem

Por exemplo: o algoritmo antigo é como uma tabela de pontuação elaborada manualmente, em que se atribui uma pontuação para cada item assinalado.

O novo algoritmo é como uma IA que viu todos os teus históricos de navegação,Adivinha à primeiraO que você quer ver no próximo segundo.

Para os criadores, isso significa duas coisas:

Em primeiro lugar, as técnicas anteriores, como "melhores horários para publicar" e "etiquetas douradas", têm menos valor como referência.Porque o modelo já não analisa estas características fixas, mas sim as preferências individuais de cada utilizador.

Em segundo lugar, a capacidade do teu conteúdo ser divulgado depende cada vez mais de "como as pessoas que o veem vão reagir".Esta reação foi quantificada em 15 previsões comportamentais, sobre as quais falaremos com mais detalhe no próximo capítulo.

Algoritmos a prever as suas 15 reações

Após obter uma publicação para recomendar, o Phoenix prevê 15 possíveis ações que o utilizador actual pode tomar ao ver esse conteúdo:

Comportamento positivoComo curtir, responder, reencaminhar, reencaminhar com citação, clicar no post, clicar na página do autor, assistir mais da metade do vídeo, expandir imagens, partilhar, permanecer durante um certo período de tempo, seguir o autor
Comportamento negativo: como "Não estou interessado", bloquear o autor, silenciar o autor, denunciar

Cada ação corresponde a uma probabilidade de previsão. Por exemplo, o modelo determina que há 60% de probabilidade de você gostar deste post, 5% de probabilidade de bloquear este autor, etc.

Em seguida, o algoritmo faz uma coisa simples: multiplica estas probabilidades pelos seus respetivos pesos, soma-as e obtém uma pontuação total.

imagem

A fórmula é assim:

Resultado Final = Σ ( peso × P(acção) )

O peso de comportamentos positivos é um número positivo, e o peso de comportamentos negativos é um número negativo.

Posts com pontuação total mais alta aparecem primeiro, e os de pontuação mais baixa afundam.

Na verdade, dito de forma simples, é:

Agora, a qualidade de um conteúdo não depende realmente da qualidade da sua redação (embora a legibilidade e a utilidade sejam a base para a sua difusão); depende mais do que tipo de reação "este conteúdo vai provocar em ti". Os algoritmos não se importam com a qualidade intrínseca da publicação, apenas com os teus comportamentos.

Seguindo este raciocínio, num cenário extremo, uma publicação vulgar, mas que impeça as pessoas de não responderem com comentários maldosos, pode obter uma pontuação mais elevada do que uma publicação de qualidade, mas que não gere interações. Talvez esta seja a lógica subjacente deste sistema.

No entanto, a versão de código aberto mais recente não revela os valores específicos dos pesos comportamentais, mas a versão de 2023 revelou.

Referência da versão anterior: 1 denúncia = 738 curtidas

A seguir, podemos analisar os dados do grupo de 2023, apesar de serem antigos, eles podem ajudar-te a compreender a diferença de "valor" que vários comportamentos têm para o algoritmo.

A 5 de abril de 2023, a X realmente tornou público um conjunto de dados de pesos no GitHub.

Vamos direto aos números:

imagem

Traduz mais literalmente:

Fonte de dados: versão antiga Repositório GitHub twitter/the-algorithm-ml, clique para ver o algoritmo original

Alguns números valem a pena ser analisados com cuidado.

Primeiro, os likes quase não valem nada. O peso é apenas 0,5, o mais baixo entre todos os comportamentos positivos. Para o algoritmo, o valor de um clique "gosto" é aproximadamente zero.

Em segundo lugar, a interação conversacional é o verdadeiro bem de troca. O peso de "você responde e o autor responde de volta" é 75, o que é 150 vezes mais do que um like. O algoritmo não quer tanto ver likes unidirecionais, mas sim uma conversa de ida e volta.

Terceiro, o custo de feedback negativo é muito elevado. Um Bloqueio ou Silêncio (-74) necessita de 148 curtidas para ser compensado. Uma denúncia (-369) requer 738 curtidas. Além disso, estes pontos negativos acumulam-se na pontuação de reputação da tua conta, afetando a distribuição de todos os teus posts subsequentes.

Quarto, a taxa de visualizações completas dos vídeos tem um peso absurdamente baixo. Apenas 0,005, quase insignificante. Isto contrasta fortemente com o Douyin e o TikTok, plataformas que consideram a taxa de visualização completa como indicador central.

Na mesma documentação, também está escrito: «Os pesos exactos no ficheiro podem ser ajustados a qualquer momento... Desde essa altura, temos periodicamente ajustado os pesos para optimizar as métricas da plataforma.»

Os pesos podem ser ajustados a qualquer momento e, de facto, já foram ajustados.

A nova versão não revela valores específicos, mas o quadro lógico escrito no README é o mesmo: adicionar pontos positivos, deduzir pontos negativos, somar com pesos.

Os números específicos podem ter mudado, mas a relação de ordem de grandeza provavelmente ainda está lá. Responder a comentários de outros é muito mais útil do que receber 100 curtidas. Fazer com que as pessoas queiram bloquear-te é pior do que não haver interação nenhuma.

Sabendo disso, o que podemos fazer como criadores?

Analisando o código dos novos e antigos algoritmos do Twitter, podemos extrair algumas conclusões operacionais.

1. Responda aos seus comentadores. Na tabela de pesos, "resposta do autor ao comentador" é o item com maior pontuação (+75), sendo 150 vezes mais valioso do que um "gosto" unicamente dado pelo utilizador. Não se trata de pedir comentários, mas sim de responder quando alguém comenta. Mesmo que respondas apenas com um "obrigado", o algoritmo vai contabilizar isso.

2. Não deixe que as pessoas deslizem para longe. Um único bloqueio tem um impacto negativo que necessita de 148 curtidas para ser compensado. Conteúdo controverso realmente tende a gerar interação, mas se a interação for "Esta pessoa é insuportável, vou bloqueá-la", a pontuação de confiança da sua conta será continuamente prejudicada, afetando a distribuição de todos os seus posts futuros. O tráfego gerado por controvérsias é uma espada de dois gumes; antes de cortar os outros, corte primeiro a si mesmo.

3. Coloque os links externos na secção de comentários.O algoritmo não quer redirecionar os utilizadores para fora do site. O conteúdo com ligações externas será penalizado.Isso foi publicamente dito por Musk. Se quiseres direcionar o tráfego, escreve o conteúdo no corpo principal e coloca o link no primeiro comentário.

4. Não envie mensagens repetidas. Na nova versão do código, existe um "Author Diversity Scorer", cuja função é reduzir a relevância de posts consecutivos do mesmo autor. O objetivo é tornar o feed do utilizador mais diversificado, tendo como efeito secundário o facto de que publicar dez mensagens seguidas é menos eficaz do que publicar uma única mensagem de qualidade.

6. Já não existe um "melhor momento para publicar". O algoritmo antigo tinha um recurso manual chamado "hora de publicação", mas a nova versão eliminou-o de repente. O Phoenix apenas analisa a sequência de comportamentos do utilizador, sem considerar a hora em que uma publicação foi feita. Estratégias como "publicar às 15h00 de terças-feiras tem melhor efeito" tornam-se cada vez menos úteis.

Acima está o que pode ser lido a nível de código.

Alguns critérios adicionais e deduções provêm da documentação pública do X, que não estão incluídos neste repositório de código aberto: a certificação azul oferece benefícios adicionais, o uso de letras maiúsculas reduz o peso, e o conteúdo sensível pode desencadear uma redução de 80% na taxa de alcance. Como estas regras não foram abertas ao público, não entrarei em mais detalhes.

Em resumo, o que foi aberto à fonte pública desta vez é bastante substancial.

Arquitetura do sistema completa, lógica de recuperação de conteúdo candidato, fluxo de classificação e pontuação, implementação de vários filtros. O código é principalmente escrito em Rust e Python, com uma estrutura clara e um README mais detalhado do que muitos projetos comerciais.

Mas algumas coisas importantes não foram divulgadas.

1. Os parâmetros de peso não foram divulgados. O código apenas menciona "adicionar pontos para comportamentos positivos e subtrair pontos para comportamentos negativos", mas não especifica quantos pontos são adicionados por um 'like' ou quantos pontos são deduzidos por um 'block'. A versão de 2023, pelo menos, revelou os valores numéricos, mas desta vez apenas foi fornecida a estrutura da fórmula.

2. Os pesos do modelo não foram divulgados. O Phoenix utiliza o Grok transformer, mas os próprios parâmetros do modelo não são divulgados. É possível ver como o modelo é invocado, mas não como os cálculos são realizados internamente no modelo.

3. Os dados de treino não foram divulgados. Não foi dito com que dados o modelo foi treinado, como os comportamentos dos utilizadores são amostrados, nem como as amostras positivas e negativas são construídas.

Por analogia, esta abertura de código fonte é como se alguém te dissesse "usamos uma soma ponderada para calcular a pontuação total", mas não te dissesse quais são os pesos; como se alguém te dissesse "usamos um transformer para prever a probabilidade de comportamento", mas não te dissesse como é o interior desse transformer.

Em comparação lateral, nem o TikTok nem o Instagram revelaram sequer estas informações. Desta vez, a quantidade de informações que a X tornou pública realmente excede a dos outros principais plataformas. Ainda assim, há distância até à "transparência total".

Isso não quer dizer que o código aberto não tenha valor. Para criadores e investigadores, ver o código é sempre melhor do que não o conseguir ver.