डीपमाइंड, 23 साल पुराने वर्चुअल ब्रह्मांड में AI का परीक्षण करने के लिए EVE Online के साथ भागीदारी करता है

डीपमाइंड के सीईओ और अल्फागो के जन्मदाता डेमिस हैसबिस ने गेम्स का उपयोग करके AI शोध पर दशकों से काम किया है।

इस बार, उसने AI को 23 सालों से चल रहे 'लिविंग यूनिवर्स' में फेंक दिया: एक स्पेस ऑनलाइन गेम EVE Online, जिसमें नए उपयोगकर्ताओं के लिए गाइड भी उन्हें भगा देता है।

खेल का अंत होता है, लेकिन EVE का नहीं।

मई के शुरुआत में, डीपमाइंड ने EVE Online के साथ शोध सहयोग की घोषणा की, क्योंकि EVE का जटिल और खिलाड़ियों द्वारा संचालित ब्रह्मांड, AI की याददाश्त, निरंतर सीखने और दीर्घकालिक योजना बनाने के लिए एक आदर्श सुरक्षित सैंडबॉक्स है।

डीपमाइंड

डीपमाइंड ने EVE के साथ साझेदारी की है, जिसका उद्देश्य मनोरंजक गेमिंग अनुभव प्राप्त करना या गेमप्ले को सशक्त बनाना नहीं है, बल्कि AI एजेंट शोध में वर्तमान में सबसे कठिन मानी जाने वाली तीन चुनौतियों को हल करना है; हैसाबिस ने अपना उत्तर 23 साल पुराने एक पुराने गेम पर लगाया है।

डीपमाइंड

Fenris Creations (पूर्व CCP Games) ने DeepMind के साथ सहयोग की घोषणा की

EVE Online के पीछे की कंपनी, 6 मई को एक ही दिन चार घोषणाएँ करती है:

मातृ कंपनी Pearl Abyss से पुनः स्वतंत्र होना;
Fenris Creations के नाम से जाना जाएगा;
120 मिलियन डॉलर का लेनदेन पूरा किया गया;
Google, इस स्वतंत्रता के एक हिस्से के रूप में, Fenris Creations का एक न्यूनतम हिस्सा रखता है और Google DeepMind के साथ अनुसंधान सहयोग शुरू करता है।

Fenris Creations के सीईओ हिल्मर वेगार पेटुरसन ने घोषणा में दावा किया:

इस रूपांतरण में कोई नौकरी काटना या पुनर्गठन शामिल नहीं है, टीम, उत्पाद और विकास योजनाएँ अपरिवर्तित रहेंगी। EVE जारी रहेगी।

ऑपरेशनल नंबर्स से स्पष्ट है कि यह कंपनी सामान्य बिक्री के लिए नहीं, बल्कि सहयोग की बातचीत के लिए 'असली गोलियाँ' लेकर आई है।

EVE Online ने 2025 में 7000 डॉलर से अधिक की कमाई की, नवंबर में ऐतिहासिक उच्चतम आय का रिकॉर्ड बनाया, और Q4 इस गेम के 20 वर्षों के इतिहास में दूसरा सबसे अधिक कमाई वाला तिमाही बन गया।

Fenris Creations का स्वतंत्र होना इस बात का संकेत है कि EVE अब एक ऐसी मातृ कंपनी के अधीन है जो स्वयं अनुसंधान सहयोग के निर्णय ले सकती है, और एक बड़ी गेम प्रकाशक कंपनी के रणनीतिक लक्ष्यों से बंधी नहीं है।

डीपमाइंड

1997 में Fenris द्वारा प्रकाशित टेबल गेम प्रोडक्ट बॉक्स। 'Fenris' नाम EVE Online से 6 साल पहले का है, Fenris Creations के नाम से बदलना एक पीछे की ओर वापसी है, न कि नया शुरुआती बिंदु

DeepMind ने EVE को क्यों चुना?

2023 का "कृत्रिम समाज"

AI बेंचमार्क को दोहराना मुश्किल है

जब लोग "गेमिंग + AI शोध" सुनते हैं, तो पहली प्रतिक्रिया अक्सर अल्फागो या अल्फास्टार, EVE की याद दिलाती है, लेकिन वे सभी अलग हैं।

शतरंज और स्टारक्राफ्ट की एक सामान्य विशेषता है: एक मैच की शुरुआत होती है, एक अंत होता है, और स्पष्ट विजय के नियम होते हैं।

AlphaGo का लक्ष्य शतरंज खेल जीतना है, AlphaStar का लक्ष्य स्टारक्राफ्ट गेम जीतना है, दोनों 'एकल-खेल बुद्धिमत्ता' के अनुसंधान प्रारूप हैं, लेकिन EVE का कोई अंतिम लक्ष्य नहीं है।

EVE Online को «एकल शेयर्ड यूनिवर्स» (single-shard / single shared universe) के लिए जाना जाता है, जहाँ बड़ी संख्या में खिलाड़ी एक ही स्थायी दुनिया में लंबे समय तक प्रतिस्पर्धा करते हैं, व्यापार करते हैं, गठबंधन बनाते हैं और युद्ध करते हैं।

खिलाड़ी यहाँ वास्तविक आर्थिक व्यवस्था, राजनीतिक गठबंधन, सैन्य समूह, व्यापार मार्ग, ऐतिहासिक विवाद और वर्षों तक फैले युद्ध योजनाएँ बनाते हैं।

कुछ अभियानों को तैयारी से लेकर समाप्ति तक पूरा एक वर्ष लग जाता है। कुछ संघों के उदय और पतन को बाद के खिलाड़ी वास्तविक इतिहास के रूप में अध्ययन करते हैं।

हिल्मर ने घोषणा में कहा: "EVE उन थोड़े से स्थानों में से एक है जहाँ आप ऐसे वातावरण में बुद्धिमान समस्याओं का पता लगा सकते हैं जो पहले से ही वास्तविक दुनिया की तरह काम करते हैं।"

हस्साबिस ने और भी कहा कि उन्होंने बचपन से ही गेम खेले हैं, और उनका करियर एआई सिमुलेशन गेम डिजाइन करने से शुरू हुआ, अल्फागो, अल्फास्टार और सिमा के शोध सभी गेम्स से गहराई से जुड़े हुए हैं, और ईवी अगला चरण है:

मुझे फेन्रिस क्रिएशन्स के साथ सहयोग करके बहुत खुशी हो रही है, जहाँ हम खिलाड़ियों द्वारा बनाए गए, अत्यधिक जटिल ब्रह्मांड में नए गेमिंग अनुभवों का सुरक्षित तरीके से अन्वेषण करते हुए AI शोध को आगे बढ़ाएंगे।

अधिकांश AI बेंचमार्क शरीर की जांच की तरह हैं, EVE अधिक इस तरह है जैसे AI को एक ऐसे 'कृत्रिम समाज' में फेंक दिया जाए जो 23 साल से चल रहा है।

Agent 3 की तीन सबसे कठिन चुनौतियाँ

यह ठीक है EVE खिलाड़ियों की दैनिक आदत

इस बार आधिकारिक रूप से तीन अनुसंधान दिशाओं को सूचीबद्ध किया गया है: दीर्घकालिक योजना (long-horizon planning), स्मृति (memory), और निरंतर अधिगम (continual learning)।

ये तीन दिशाएँ वर्तमान में AI एजेंट अनुसंधान क्षेत्र में स्वीकृत रूप से सबसे कठिन चुनौतियाँ हैं।

अगर आपके आसपास कोई ऐसा व्यक्ति है जिसने दस साल से अधिक समय तक EVE Online खेला है, तो उससे अपना खाता खोलकर मित्र सूची दिखाने को कहें, आप बहुत संभावना है कि दर्जनों समूह और सैकड़ों नाम देखेंगे, जिनके टिप्पणी स्तंभ में लिखा होगा: '2018 के Delve अभियान में बकाया', '鹅群联盟 (Goonswarm) का आंतरिक विद्रोही, सहयोग न करें', 'यह आदमी एक जासूस है, संगठन को पता है'।

यह कंटेक्स्ट विंडो नहीं है, बल्कि एक दशक की शुरुआत से लेकर क्रॉस-सेशन लॉन्ग-टर्म मेमोरी है।

यह पहेली याददाश्त की है, EVE खिलाड़ी हर दिन इसे पार करते हैं, और लगातार सीखने की यह पहेली भी ऐसी ही है।

जनवरी 2014 में, B-R5RB युद्ध लगभग 21 घंटे तक चला, जिसमें 7500 से अधिक किरदार शामिल थे, 75 टाइटन नष्ट हो गए, और क्षति का वास्तविक मुद्रा में अनुमानित मूल्य लगभग 300,000 डॉलर था। पूरे युद्ध का कारण एक संप्रभु बिल का स्वचालित भुगतान न होना था।

इस लड़ाई के बाद, पूरे गेम की बेड़ा रणनीति को पुनः लिख दिया गया। अगले कुछ वर्षों तक सभी गठबंधनों ने अपनी बेड़ा व्यवस्था और रणनीति प्रणाली को पुनर्विचार के आधार पर अपडेट किया। महीने भर में बदलाव होते रहे, हर हार को निष्पादनयोग्य रणनीति अपडेट में विभाजित कर दिया गया।

लंबी अवधि की योजना के लिए, EVE गठबंधन युद्ध का मानक समय इकाई घंटे नहीं, बल्कि महीना है। एक अंतर-तारामंडलीय युद्ध की तैयारी से लेकर शुरू होने तक, जहाज बनाना, परिवहन, राजनयिक, गुप्तचर, विरोधी जासूसी—सैकड़ों खिलाड़ी बिना किसी कार्य नियोजन के स्वयं सहयोग करते हैं और एक सामान्य लक्ष्य को महीनों तक आगे बढ़ाते हैं।

यह सहयोगात्मक प्रणाली 23 वर्षों में खिलाड़ियों द्वारा स्वयं विकसित की गई है।

वर्तमान एआई एजेंट मूल्यांकन में सबसे कठिन मानी जाने वाली तीन हड्डियाँ, ठीक ईवी खिलाड़ियों की दैनिकता हैं।

EVE में 23 वर्षों का खिलाड़ी-संचालित विकास एक ऐसा वातावरण उत्पन्न करता है जो सदैव बदलता रहता है, सदैव जटिल होता है और जिसमें कोई छोटा रास्ता नहीं है—ऐसी जटिलता को प्रयोगशाला में कृत्रिम रूप से नहीं बनाया जा सकता।

2025 नवंबर में DeepMind द्वारा जारी SIMA 2, अब 'निर्देशों का निष्पादन' से आगे बढ़कर 'लक्ष्य को समझने, तर्क करने और खेलते समय सीखने' में विकसित हो चुका है।

अध्ययन के संदर्भ में, EVE प्रोजेक्ट SIMA 2 के समान ही "गेम को एजेंट प्रशिक्षण के लिए एक मैदान के रूप में" की दिशा में है, लेकिन इस बार मैदान एक 23 वर्षों से निरंतर चल रहे वास्तविक ब्रह्मांड में बदल गया है।

डीपमाइंड

ईवी ऑनलाइन गेम के इन-गेम अभियान के दृश्य, जिनमें खिलाड़ी स्वयं संगठित होकर घंटों तक बड़े पैमाने पर लड़ाई लड़ते हैं, DeepMind द्वारा ईवी को दीर्घकालिक योजना और निरंतर अध्ययन के अध्ययन परिदृश्य के रूप में चुनने का मुख्य कारण हैं।

DeepMind ऑफलाइन सैंडबॉक्स में जाता है

Not the Player Universe

डीपमाइंड ने फेन्रिस के साथ इस बार का सहयोग अपेक्षित से अधिक सावधानी से किया है, डीपमाइंड को वर्तमान खिलाड़ियों के प्रोडक्शन सर्वर तक पहुँच की अनुमति नहीं मिली है।

DeepMind ने अपनी घोषणा में घोषणा की कि प्रारंभिक अनुसंधान EVE Online के ऑफलाइन संस्करण पर स्थानीय सर्वर का उपयोग करके, नियंत्रित परिवेश में मॉडल का परीक्षण और मूल्यांकन किया जाएगा, और यह EVE Online के लाइव सर्वर से जुड़ा नहीं होगा।

एक ओर, ऑफलाइन संस्करण का अर्थ है कि DeepMind वर्तमान खिलाड़ियों के मैच डेटा का उपयोग नहीं करेगा और वास्तविक सर्वर अर्थव्यवस्था को प्रभावित नहीं करेगा, जिससे किसी भी गोपनीयता और अनुपालन से संबंधित जटिलताओं से बचा जा सकता है।

दूसरी ओर, ऑफलाइन संस्करण EVE अभी भी जटिल नियम प्रणाली, जहाज और आर्थिक तंत्र, और स्टार रीज संरचना जैसे मूल डिजाइन को बनाए रख सकता है।

डीपमाइंड को एक ऐसा जटिल दुनिया मिली है, जिसे 23 वर्षों के खिलाड़ियों द्वारा परीक्षण किया गया है, और इसमें एजेंट को बचे रहना होगा।

Atari से EVE तक

यह रास्ता कहाँ जाता है

दीपमाइंड के इन दशकों के प्रशिक्षण क्षेत्र से वापस देखने पर, एक बहुत स्पष्ट विकास रेखा दिखाई देती है।

2013 से 2015 तक, Atari शुरुआत थी। DQN एजेंट को ब्रिक ब्रेकर, स्पेस इनवेडर्स जैसे स्पष्ट स्तरों और बंद नियमों वाले खेलों में डालता था। इसमें प्रतिक्रिया और मूल्य अनुमान की जांच की जाती थी।

2016 से 2017 तक, AlphaGo और AlphaZero। गो के नियम व्यवस्थित हैं, कार्रवाई का स्थान विशाल लेकिन बंद है। इसमें खोज और लंबी श्रृंखला तर्क की जांच की जाती है।

2019 में, AlphaStar ने StarCraft II में प्रवेश किया। यह पहली बार रियल-टाइम, अपूर्ण जानकारी वाले, बहु-एजेंट गेमिंग वातावरण में प्रवेश कर रहा था। इसका परीक्षण आंशिक रूप से देखे जा सकने वाले परिदृश्य में रियल-टाइम निर्णय लेने के लिए किया गया था।

2024 में, SIMA एक बहु-गेम सामान्य एजेंट बनाना चाहता है। इसका उद्देश्य स्थानांतरण सामान्यीकरण है।

2025 में, SIMA 2 अपग्रेड: केवल निर्देशों को निष्पादित करने के बजाय, यह उपयोगकर्ता के साथ बातचीत कर सकता है, लक्ष्यों का तर्क दे सकता है, और गेम के दौरान स्वयं को सुधार सकता है।

डीपमाइंड

DeepMind द्वारा 2025 में जारी SIMA 2, जो 'निर्देशों का निष्पादन' से आगे बढ़कर 'लक्ष्य को समझने, तर्क प्रक्रिया करने और खेलते समय सीखने' में विकसित हो गया है

प्रत्येक पीढ़ी का वातावरण पिछली पीढ़ी की तुलना में अधिक "वास्तविक दुनिया का रूप" लिए हुए है: नियमों के बंद होने से लेकर नियमों के खुलने तक, पूर्ण जानकारी से लेकर अपूर्ण जानकारी तक, एकल खेल के प्रतिस्पर्धा से लेकर बहु-खेल स्थानांतरण तक।

लेकिन पहले इन वातावरणों में से अधिकांश अभी भी एक सापेक्षिक बंद, विभाज्य और पुनर्मूल्यांकन योग्य कार्यक्षेत्र थे, जैसे कि Atari एक निश्चित नियमों वाला आर्केड गेम था, AlphaStar एक-एक करके समाप्त होने वाले स्टारक्राफ्ट मैचों का सामना कर रहा था, जबकि SIMA कई 3D वर्चुअल वातावरणों में गेम के बीच सामान्यीकरण का परीक्षण कर रहा था।

EVE की विशेषता यह है कि यह एक दीर्घकालिक, खिलाड़ि-संचालित, स्थायी दुनिया है जिसमें आर्थिक और राजनीतिक संरचनाएँ लगातार विकसित होती रहती हैं।

यह 23 वर्षों में, एक खुले नियमों वाली दुनिया में वास्तविक खिलाड़ियों द्वारा स्वयं विकसित हुआ: पूर्ण खिलाड़ी-संचालित अर्थव्यवस्था (ISK की कीमत में उतार-चढ़ाव वास्तविक वित्तीय बाजारों जितना है), क्रॉस-अलायंस राजनीतिक संरचना (राजनयिकता, जासूसी, युद्धविराम समझौते), छोटे संघर्षों से लेकर 21 घंटे के बड़े युद्ध तक का पूरा युद्ध पारिस्थितिकी।

अंतर्गत समुदाय में एजेंट मूल्यांकन के लिए सहमति धीरे-धीरे स्पष्ट हो रही है, एकल-बिंदु कार्य स्कोरिंग पहले ही कोई नया नहीं दे पा रही है, लेकिन दीर्घकालिक स्मृति, सप्ताहों की योजना बनाना, और विफलता से सीखना के लिए अभी तक कोई उपयुक्त मूल्यांकन परिदृश्य नहीं है।

इसलिए, DeepMind का इस बार का विकल्प है: एक नया सिंथेटिक वातावरण बनाने के बजाय, एक ऐसे "कृत्रिम समाज" में प्रवेश करें जिसे मानव खिलाड़ियों ने 23 सालों तक परीक्षण किया है।

लेकिन बड़ी समस्याएँ भी सामने आने लगीं:

एक ऐसा AI एजेंट जो EVE में लगातार मौजूद रहे, सीखे और योजना बनाए, उसके और वास्तविक दुनिया में स्वतंत्र रूप से कार्य करने वाले एजेंट के बीच क्या अंतर है?

संदर्भ:

https://x.com/GoogleDeepMind/status/2052011542707630461

https://www.ccpgames.com/news/2026/studio-behind-eve-online-goes-independent-rebrands-as-fenris-creations-enters-research-partnership-with-google-deepmind

https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/

यह लेख वेचेन ग्रुप "न्यूज़िज़यून" से है, लेखक: ASI अपोकैलिप्स, संपादक: युआनयू