स्टैनफोर्ड अध्ययन: AI कानूनी तर्क अंधे परीक्षणों में कानून प्रोफेसरों से बेहतर प्रदर्शन करता है

CoinDesk द्वारा रिपोर्ट:

एक स्टैनफोर्ड विश्वविद्यालय नेतृत्व वाले अध्ययन में पाया गया कि समझौता कानून तर्क कार्यों में, कानून के प्रोफेसर अक्सर सहकर्मियों द्वारा लिखित संस्करण के बजाय AI द्वारा उत्पन्न उत्तर चुनते हैं। अध्ययन टीम का मानना है कि इससे स्पष्ट होता है कि बड़े भाषा मॉडल कुछ पेशेवर परिदृश्यों में, कानूनी विषय के सामान्य मूल्यांकन मानदंडों के करीब पहुँच चुके हैं।

लगभग तीन हजार अंधा तुलनाएँ

अमेरिका के 14 कानूनी स्कूलों के 16 प्रोफेसरों को प्रश्न तैयार करने के लिए आमंत्रित किया गया, जिनमें स्टैनफोर्ड, येल, न्यूयॉर्क विश्वविद्यालय, चिकागो विश्वविद्यालय, जॉर्जटाउन विश्वविद्यालय, UCLA और वर्जीनिया विश्वविद्यालय शामिल हैं। 40 प्रश्नों का समूह समझौता कानून के सिद्धांतों, मामलों, काल्पनिक प्रश्नों और नीति चर्चा को कवर करता है।

2918 अंधे तुलनात्मक परीक्षणों में, समीक्षा करने वाले प्रोफेसरों को दो अज्ञात उत्तरों में से छात्रों के लिए अधिक पसंदीदा उत्तर चुनना था। परिणाम दर्शाते हैं कि Google का Gemini 2.5 Pro मानवीय उत्तरों के साथ 75.92% की दर से जीता, जबकि NotebookLM की जीत की दर 74.75% थी।

सभी प्रकार के प्रश्नों में श्रेष्ठता

अध्ययन के अनुसार, AI विभिन्न प्रकार के प्रश्नों पर मानवीय उत्तरों से बेहतर प्रदर्शन करता है, जिसमें पूर्ववर्ती मामलों, कानूनी प्रावधानों और कानूनी सिद्धांतों से संबंधित स्मृति-आधारित प्रश्न शामिल हैं, साथ ही काल्पनिक विश्लेषण और नीति चर्चा भी। शोधकर्ताओं ने यह भी जांचा कि प्रोफेसरों के निर्णय केवल व्यक्तिगत पसंद हैं या नहीं, जिसके परिणामस्वरूप समझौते का स्तर यादृच्छिक स्तर से अधिक पाया गया।

अतिरिक्त रूप से, टीम ने उत्तर की लंबाई, संरचना, तर्क की विस्तृतता, कानूनी आधार, टोन, स्पष्टता और शिक्षण समर्थन जैसे लक्षणों का विश्लेषण किया ताकि केवल शैली की सुधार की संभावना को बाहर किया जा सके। अध्ययन के अनुसार, ये पृष्ठीय कारक प्रोफेसर की AI उत्तरों के प्रति पसंद को पूरी तरह से समझाने में अपर्याप्त हैं।

कम हानिकारक सामग्री टैग

इस अध्ययन ने हानिकारक माने जाने वाले उत्तरों के अनुपात की तुलना भी की। जेमिनी का संबंधित अनुपात 3.41% था, नोटबुकएलएम का 3.64% और मानव द्वारा दिए गए उत्तरों का 12.06%। एक अतिरिक्त मॉडल तुलना में, Anthropic का Claude Opus 4.7 पहले स्थान पर रहा, जबकि OpenAI का ChatGPT 5.4 उसके बाद आया।

हालांकि, अध्ययन यह भी इंगित करता है कि इस परीक्षण ने यह नहीं मापा कि उत्तर प्रत्येक प्रोफेसर की अपनी शिक्षण प्राथमिकताओं के अनुसार हैं। इसलिए, AI उत्तर सामान्य रूप से स्वीकार्य हो सकते हैं, लेकिन किसी विशिष्ट शिक्षक की पाठ्ययोजना के साथ सटीक रूप से मेल नहीं खा सकते।

Legal industry is still weighing the pace of adoption

इस अध्ययन के प्रकाशन के समय, न्यायालय, कानूनी फर्म और कानूनी स्कूल अभी भी यह चर्चा कर रहे हैं कि AI को कानूनी प्रक्रियाओं में कैसे शामिल किया जाए। समर्थक मानते हैं कि AI कानूनी सेवाओं की दक्षता में वृद्धि कर सकता है और भविष्य के कानूनी पदों का एक मूलभूत उपकरण बन जाएगा।

लेकिन कानूनी क्षेत्र एआई भ्रम समस्या के प्रति अभी भी सावधान है। रिपोर्ट में उल्लेख किया गया है कि इस वर्ष अप्रैल में, सुलिवन एंड क्रोमवेल नामक कानूनी फर्म ने अमेरिकी दिवालिया अदालत को स्वीकार किया कि उनके एक दस्तावेज़ में एआई द्वारा उत्पन्न झूठे संदर्भ शामिल थे।