X ने नया अनुशंसा एल्गोरिथ्म खोला, जो लाइक्स की तुलना में उपयोगकर्ता

लेखक: डेविड, टेकफ्लो

20 जनवरी के दिन शाम को, X ने अपने नए सिफ़ारिश एल्गोरिथम को ओपन सोर्स कर दिया।

मस्क का जवाब बहुत दिलचस्प था: "हम जानते हैं कि यह एल्गोरिथम बेवकूफ है, और इसे बदलने की जरूरत है, लेकिन कम से कम आप देख सकते हैं कि हम वास्तव में इसे सुधारने के लिए वास्तविक समय में जूझ रहे हैं। दूसरे सो

इसमें दो अर्थ हैं।एक तो यह कि एल्गोरिदम में कमी के तौर पर स्वीकार करना है और दूसरा तो यह कि "पा�

यह X का दूसरा बार एल्गोरिदम ओपन सोर्स किया गया है। 2023 के संस्करण के कोड के तीन साल अपडेट नहीं हुए, जो लंबे समय से वास्तविक प्रणाली से अलग हो चुका है। इस बार पूरी तरह से फिर से लिखा गया है, मुख्य मॉडल पारंपरिक मशीन लर्निंग से Grok transformer में बदल गया है, औपचारिक तौर पर कहा गया है कि "हाथ से बनाए गए विशेषता इंजीनियरिंग को

पहले के एल्गोरिदम में इंजीनियर पैरामीटर मैन्युअल रूप से ट्यून करते थे, अब एआई अपने इंटरैक्शन हिस्ट्री को देखकर सीधे यह तय करता है कि क्या आपकी सामग्री को संसोधित किया ज

इसका मतलब यह है कि सामग्री निर्माताओं के लिए, पहले के तरीके जैसे "किस समय पोस्ट करना बेहतर होता है" या "किस टैग के साथ फॉलोअर बढ़ते हैं" जैसे अज्ञात नियम काम नहीं कर सक

हमने खुले स्रोत गिटहब भंडार की जांच भी की, एआई की सहायता से, और पाया कि कोड में कुछ कठोर तर्क छिपे हुए हैं, जिन्हें खोलकर देखना बहुत जरूरी है।

एल्गोरिथ्म तर्क परिवर्तन: हाथ से परिभाषित करने से लेकर, एआई द्वारा स्वचा�

पुराने और नए संस्करण के बीच अंतर स्पष्ट कर दें, अन्यथा बाद की चर्चा भ्रमित हो जाएगी।

2023 में, ट्विटर द्वारा स्रोत खुलासा किया गया वहाँ हीवी रैंकर कहा जाता है, जो आम तौर पर पारंपरिक मशीन लर्निंग है। इंजीनियरों को हजारों "विशेषताओं" को हाथ से परिभाषित करने की आवश्यकता होती है: ट्वीट में चित्र है या नहीं, ट्वीटर उपयोगकर्ता के कितने फॉलोअर हैं, ट्वीट के समय का वर्तमान समय से कितना अंतर ह

फिर प्रत्येक विशेषता को एक भार दें, उन्हें बदलते रहें, और देखें कि कौन सा संयोजन अच्छा परिणाम देत

इस बार के ओपन सोर्स अपडेट का नाम Phoenix है, जिसमें एक बिल्कुल अलग आर्किटेक्चर है, आप इसे एआई के बड़े मॉडल पर अधिक निर्भर एक एल्गोरिथ्म के रूप में समझ सकते हैं, जिसका नाभिकीय भाग Grok के transformer मॉडल पर है, जो कि ChatGPT और Claude के समान प्रौद्योगिकी का उपयोग करता है।

अधिकारियों द्वारा लिखे गए README दस्तावेज़ में स्पष्ट रूप से लिखा गया है: "हमने हर हाथ से बनाई गई विशेषता को खत्म कर दिया ह�

पारंपरिक नियमों को, जो हाथ से सामग्री के गुण निकालते थे, एक भी नहीं छोड़कर सब काट दिया गया।

अब, यह एल्गोरिदम किस आधार पर तय करता है कि कोई सामग्री अच्छी है या नहीं?

उत्तर आप पर निर्भर करतक्रिया क्रमआपने पहले क्या लाइक किया, किसका जवाब दिया, किस पोस्ट पर आपने दो मिनट से अधिक समय बिताया, आपने किस प्रकार के अकाउंट को ब्लॉक किया है। फ़ीनिक्स ने इन गतिविधियों को transformer मॉडल में फ़ीड कर दिया, ताकि मॉडल स्वयं नियमों को सीख सके और उनका सारांश निकाल सके।

एक उदाहरण के रूप में: पुराना एल्गोरिथ्म एक ऐसी रेटिंग तालिका के समान है जिसे कर्मचारी द्वारा लिखा गया है, जिसमें प्रत

नया एल्गोरिदम आपके सभी ब्राउज़िंग रिकॉर्ड देखे हुए एक एआई की तसीधा कहोआप अगले पल क्या देखना चाहेंगे।

लेखकों के लिए, इसका अर्थ दो चीजों से होता ह�

पहली बात, पहले के टिप्स जैसे "बेस्ट टाइम टू पोस्ट" या "गोल्डन हैशटैग" आदि की अब कम महत्व है।क्योंकि अब मॉडल इन निश्चित विशेषताओं को नहीं देखता है, बल्कि यह प्रत्येक उपयोगकर्ता

दूसरा, आपके द्वारा बनाई गई सामग्री के प्रचार की संभावना बढ़ती जा रही है, जो आपकी सामग्री देखने वाले लोगों की प्रतिकइस प्रतिक्रिया को 15 व्यवहारात्मक भविष्यवाणियों में मात्रात्मक रूप दिया गया है, जिनका विस्तार से वर्णन

एल्गोरिदम आपके 15 प्रतिक्रियाओं के भविष्य की गणना कर रहा

फोनिक्स को एक सिफारिश के लिए पोस्ट मिलते ही, वह अनुमान लगाता है कि वर्तमान उपयोगकर्ता इस सामग्री को देखकर कितने कार्य कर सकता है:

सकारात्मक व्यवहजैसे कि लाइक, जवाब देना, फॉरवर्ड करना, क्वोटेड फॉरवर्ड, पोस्ट पर क्लिक करना, लेखक के प्रोफ़ाइल पर क्लिक करना, वीडियो का आधा से अधिक भाग देखना, चित्र विस्तारित करना, साझा करना, निश्चित समय तक रुकना
नकारात्मक व्यवहजैसे कि 'अनपढ़' क्लिक करें, लेखक को ब्लॉक करें, लेखक को चुप कराएं, शिकायत करें

प्रत्येक कार्यवाही के एक भविष्य प्रायिकता के साथ संबंध होता है। उदाहरण के लिए, मॉडल आपके इस पोस्ट पर 60% के अनुमान से लाइक करने की अपेक्षा करता है, और 5% के अनुमान से लेखक को ब्लॉक करने की अप

फिर एल्गोरिथ्म केवल एक सरल चीज़ करता है: इन संभावनाओं को अपने अलग-अलग भारों से गुणा करें, फिर उन्हें जोड़ दें और एक

सूत्र ऐसा दिखता है:

अंतिम स्कोर = Σ ( वजन × कार्य की संभावना )

सकारात्मक व्यवहार के भार सकारात्मक संख्या होती है और नकारात्मक व्यवहार के भार नकारात्मक संख्या हो

उच्च कुल अंक वाले पोस्ट ऊपर आ जाते हैं, जबकि कम अंक वाले नीचे च

असल में, सूत्र से बाहर निकलने का मतलब है:

अब एक कंटेंट अच्छा है या नहीं, इसका फैसला वास्तव में इस बात पर निर्भर नहीं करता कि कंटेंट खुद अच्छा लिखा गया है या नहीं (हालांकि पाठयोग्यता और सहायकता संचार की आधारशिला है); बल्कि अधिकांश रूप से इस बात पर निर्भर करता है कि "यह कंटेंट आपके द्वारा किस प्रकार की प्रतिक्रिया उ

इसी तरह से सोचे तो, एक ऐसे अत्यधिक अश्लील पोस्ट के बारे में जिसे लोग ना तो उत्तर दे सके और ना ही टिप्पणी कर सके, इसका स्कोर एक उच्च गुणवत्ता वाले पोस्ट के मुकाबले अधिक हो सकता है जिसके साथ कोई इंटरैक्शन न हो

हालांकि, नए ओपन-सोर्स एल्गोरिथम वर्जन में विशिष्ट व्यवहार भार के मान नहीं खोले गए हैं, लेकिन 2023 के संस्करण में खोल दिए गए थे।

पुराना संदर्भ: 1 शिकायत = 738 पसंद

अब हम 23 वर्षों के डेटा के बारे में बात कर सकते हैं, यह तो पुराना है, लेकिन आपको एल्गोरिथ्म की दृष्टि से विभिन्न व्यवहारों के "मूल्य" के अंतर को समझने में मदद करेगा।

5 अप्रैल 2023 को, X ने वास्तव में गिटहब पर एक सेट वजन डेटा सार्वजनिक किया।

अंकों में:

अधिक से अधिक सीधे अनुवाद करें:

डेटा स्रोत: पुराना संस्करण गिटहब ट्विटर/द-एल्गोरिथम-एमएल रिपॉजिटरी, जिस पर क्लिक करके आप मूल एल्गोर

कुछ संख्याएँ ध्यान से देखने लाय

पहली बात, लाइक लगभग कोई मूल्य नहीं रखते। भार केवल 0.5 है, जो सभी सकारात्मक व्यवहारों में सबसे कम है। एक अल्गोरिदम की दृष्टि में, एक लाइक का मूल्य लगभग शून्य के बराबर है।

दूसरा, बातचीत अंतरक्रिया ही वास्तविक मूल्यवान � "जब आप उत्तर देते हैं और लेखक आपको उत्तर देता है, तो इसका भार 75 होता है, जो कि लाइक का 150 गुना होता है। एल्गोरिदम एक पक्ष के लाइक के बजाय आवाजाही बातचीत को देखना चाहता है।"

तीसरा, नकारात्मक प्रतिक्रिया की लागत बहुत अध एक बार ब्लॉक या म्यूट (-74) करने के लिए 148 लाइक्स की आवश्यकता होती है। एक शिकायत (-369) के लिए 738 लाइक्स की आवश्यकता होती है। इन नकारात्मक अंक आपके खाते के विश्वसनीयता स्कोर में जुड़ जाते हैं और आपके भविष्य के सभी पोस्ट के वितरण को प्रभावित करते हैं।

चौथा, वीडियो पूर्णतः देखे जाने का भार अत्यधिक कम है। 0.005 ही है, जिसे लगभग नज़रअंदाज़ कर दिया जा सकता है। डाउनलोड और टिकटॉक के साथ इसका तेज़ी से तुलना होती है, जहां दोनों मंचों के लिए पूर्ण दृश्यता दर मुख्य संकेतक है।

एक ही दस्तावेज में आधिकारिक तौर पर लिखा गया है: "दस्तावेज में वास्तविक वजन को कभी भी समायोजित किया जा सकता है। उसके बाद हमने अक्सर वजनों को समायोजित किया है ताकि प्लेटफॉर्म मेट्रिक्स के लिए अनुकूलित किया जा

भार कभी भी बदल सकते हैं और वास्तव में बदल चुके हैं।

नए संस्करण में सटीक मान जारी नहीं किए गए हैं, लेकिन लॉजिकल फ्रेमवर्क एक ही है, जैसा कि पढ़ें में लिखा गया है: सकारात्मक अंक जोड़े जाते हैं, नकारात्मक अंक काट �

अंकों में बदलाव हो सकता है, लेकिन मात्रा के संबंध अभी भी बने रहते हैं। दूसरों के टिप्पणियों पर जवाब देना, 100 लाइक्स प्राप्त करने की तुलना में अधिक महत्वपूर्ण है। किसी को आपको ब्लॉक करने के लिए बनाना, किसी के साथ अनइंटरैक्शन की त

इन सबके बारे में जानने के बाद हम क्रिएटर क्या कर

ट्विटर के नए और पुराने एल्गोरिदम कोड के बारे में अपडेट करें, उन्हें एक साथ देखें, और कुछ कार्यात्मक निष्कर्ष �

1. अपने टिप्पणीकर्ता का जवाब दें। वजन वाली तालिका में, "लेखक टिप्पणीकर्ता का उत्तर" सर्वोच्च अंक वाला है (+75), जो उपयोगकर्ता द्वारा एक पक्ष के लिए दिए गए अंक की तुलना में 150 गुना अधिक है। आपको टिप्पणी करने के लिए नहीं कहा जा रहा है, बल्कि जब कोई टिप्पणी करता है तो उसका जवाब दें। भले ही आपका जवाब "धन्यवाद" हो, एल्गोरिथ्म इसे ध्यान में रखेगा।

2. किसी को भी आसानी से न चले देने दें। एक ब्लॉक के नकारात्मक प्रभाव को मिटाने के लिए 148 लाइक्स की आवश्यकता होती है। विवादास्पद सामग्रि बिल्कुल अन्तःक्रिया बढ़ाती है, लेकिन अगर अन्तःक्रिया "यह व्यक्ति बेहद आक्रामक है, ब्लॉक कर दो" है, तो आपके खाते का विश्वास अंक लगातार कम होगा और आपके आगे के सभी पोस्ट के वितरण पर प्रभाव पड़ेगा। विवादास्पद ट्रैफ़िक एक दोहरी तलवार है, पहले अपने आप को काटें फिर द

3. बाहरी लिंक कमेंट बॉक्स में रखें।एल्गोरिदम उपयोगकर्ता को बाहर ले जाना नहीं चाहता। लिंक के साथ पाठ अनुकूलित हो जा�, यह बात मस्क ने सार्वजनिक रूप से कही है। यदि आप ट्रैफ़िक ले जाना चाहते हैं, तो मुख्य शरीर में सामग्री लिखें, लिंक पह

4. स्क्रीन को साफ़ न करें। नई लाइब्रेरी में एक ऑथर डाइवर्सिटी स्कोरर है, जो एक ही ऑथर द्वारा लगातार पोस्ट करने पर उनके स्कोर को कम कर देता है। इसका उद्देश्य उपयोगकर्ता के फीड में विविधता लाना है, जबकि एक दुष्प्रभाव यह है कि एक ही ऑथर द्वारा लगातार �

6. कोई "सर्वश्रेष्ठ पोस्टिंग समय" नहीं है। पुराने एल्गोरिदम में "पोस्ट करने का समय" एक मानवीय विशेषता थी, लेकिन नए संस्करण में इसे बिना किसी सूचना के हटा दिया गया। Phoenix केवल उपयोगकर्ता के व्यवहार के क्रम पर ध्यान केंद्रित करता है, और पोस्ट करने के समय पर ध्यान नहीं देता है। "मंगलवार के दिन दोपहर तीन बजे पोस्ट करना सबसे अच्छा होता है" जैसे ट

ऊपर वाला कोड के स्तर से पढ़ा जा सकता है।

कुछ अतिरिक्त अंक जोड़े या घटाए जाते हैं, जो X के सार्वजनिक दस्तावेज़ों से आते हैं, जो इस ओपन सोर्स रिपॉजिटरी में शामिल नहीं हैं: नीले चिह्नित अकाउंट्स को अतिरिक्त लाभ होता है, अक्षरों का पूर्ण रूप से बड़े अक्षरों में होना उन्हें कमजोर कर देता है, और संवेदनशील सामग्रि 80% पहुंच दर में कमी कर

सारांश के रूप में, इस बार के ओपन सोर्स के सामान बह

पूर्ण प्रणाली विन्यास, उम्मीदवार सामग्री के बुलावा तर्क, अनुक्रमण और स्कोरिंग की प्रक्रिया, विभिन्न फ़िल्टर के कार्यान्वयन। कोड मुख्य रूप से रस्ट और पायथन में है, संरचना स्पष्ट है, और बहुत से व्यावसायिक परियोजनाओं की तुलना में विस्�

लेकिन कुछ महत्वपूर्ण चीजें बाहर नहीं आईं।

1. वजन पैरामीटर जारी नहीं किए गए हैं कोड में केवल "सकारात्मक व्यवहार के लिए अंक जोड़े जाएंगे, नकारात्मक व्यवहार के लिए अंक काटे जाएंगे" लिखा गया है, लेकिन विशिष्ट रूप से कितने अंक लाइक के लिए जुड़े हैं, ब्लॉक के लिए कितने अंक काटे जाते हैं, इसका उल्लेख नहीं किया गया है। 2023 के संस्करण में कम से कम अंकों की संख्या बता

2. मॉडल के वजन सार्वजनिक नहीं किए गए। फिनिक्स ग्रोक ट्रांसफॉर्मर का उपयोग करता है, लेकिन मॉडल के आंतरिक पैरामीटर उपलब्ध नहीं हैं। आप देख सकते हैं कि मॉडल कैसे कॉल किया जाता है, लेकिन आप देख नहीं स

3. प्रशिक्षण डेटा सार्वजनिक नहीं किया ग मॉडल के लिए डेटा कहाँ से लिया गया, उपयोगकर्ता के व्यवहार कैसे नमूना लिया गया, और सकारात्मक और नकारात्मक नमूनों का निर्माण कैसे कि�

एक उदाहरण के रूप में, यह ओपन सोर्स करना आपको बताने जैसा है कि "हमने वजनित योग द्वारा कुल अंक निकाले हैं", लेकिन आपको बताए बिना कि वजन क्या हैं; आपको बताने जैसा है कि "हमने transformer का उपयोग करके व्यवहार की संभावना का अनुमान लगाया है", लेकिन आपको बताए बिना कि transformer के अंदर क्य

अनुप्रस्थ तुलना के रूप में, टिकटॉक और इंस्टाग्राम ने भी इन्हें खुलासा नहीं किया है। एक्स द्वारा इस बार खुलासा किए गए जानकारी की मात्रा वास्तव में अन्य मुख्य मंचों की तुलना में अधिक है। लेकिन यह अभी भी "पूरी तरह से

यह इंगित नहीं करता कि ओपन सोर्स का मूल्य नहीं है। निर्माताओं और अनुसंधानकर्ताओं के लिए, कोड देखना नहीं देख