DeepMind hợp tác với EVE Online để thử nghiệm AI trong vũ trụ ảo 23 năm tuổi

Giám đốc điều hành DeepMind, cha đẻ của AlphaGo, Demis Hassabis, đã sử dụng trò chơi để nghiên cứu AI trong hơn một thập kỷ.

Lần này, anh ta ném AI vào một “vũ trụ sống” đã vận hành 23 năm: trò chơi mạng không gian EVE Online, một tựa game mà ngay cả hướng dẫn cho người mới cũng có thể khiến người chơi nản lòng.

Trận cờ có kết thúc, nhưng EVE thì không.

Đầu tháng 5, DeepMind đã công bố hợp tác nghiên cứu với EVE Online, vì lý do đơn giản: vũ trụ phức tạp và do người chơi điều khiển của EVE là một môi trường thử nghiệm an toàn hoàn hảo để kiểm tra trí nhớ, học tập liên tục và lập kế hoạch dài hạn của AI.

DeepMind

DeepMind hợp tác với EVE, không phải để theo đuổi trải nghiệm trò chơi thú vị hay tăng cường cách chơi, mà nhằm giải quyết ba vấn đề khó nhất hiện nay trong nghiên cứu tác nhân AI, Hassabis đã đặt cược câu trả lời vào một trò chơi cũ đã vận hành 23 năm.

DeepMind

Fenris Creations (trước đây là CCP Games) thông báo hợp tác với DeepMind

Công ty đứng sau EVE Online, cùng ngày 6 tháng 5, đã công bố bốn sự kiện:

Được tách ra độc lập từ hệ thống mẹ Pearl Abyss;
Đổi tên thành Fenris Creations;
Hoàn thành giao dịch 120 triệu USD;
Google, như một phần của sự độc lập này, sở hữu một cổ phần thiểu số tại Fenris Creations và đồng thời khởi động hợp tác nghiên cứu với Google DeepMind.

CEO của Fenris Creations, Hilmar Veigar Pétursson, tuyên bố trong thông báo:

Sự chuyển đổi này không bao gồm sa thải hay tái cấu trúc, đội ngũ, sản phẩm và kế hoạch phát triển vẫn giữ nguyên. EVE tiếp tục.

Từ các con số vận hành, công ty này đang mang theo “vũ khí thật sự” để đàm phán hợp tác, chứ không phải bán tài sản để sinh tồn.

EVE Online đạt doanh thu vượt 70 triệu USD vào năm 2025, với tháng 11 ghi nhận doanh thu cao nhất mọi thời đại, và quý IV trở thành quý có doanh thu cao thứ hai trong lịch sử 20 năm của trò chơi.

Fenris Creations tách ra độc lập, nghĩa là EVE hiện đã có một công ty mẹ tự chủ trong việc quyết định các hợp tác nghiên cứu, thay vì bị ràng buộc bởi các mục tiêu chiến lược của một công ty phát hành trò chơi lớn hơn.

DeepMind

Hộp trò chơi bàn do Fenris xuất bản năm 1997. Tên “Fenris” ra đời sớm hơn EVE Online 6 năm, việc đổi tên thành Fenris Creations là một sự quay về cội nguồn, không phải khởi đầu lại.

Tại sao DeepMind lại chọn EVE?

Năm 2023 “xã hội nhân tạo”

Các bài kiểm tra AI khó sao chép

Nhiều người nghe đến “trò chơi + nghiên cứu AI” sẽ lập tức nghĩ đến AlphaGo hoặc AlphaStar, nhưng EVE khác với chúng.

Cờ vây và StarCraft có một điểm chung: một trận đấu có điểm bắt đầu, điểm kết thúc và quy tắc xác định thắng thua rõ ràng.

Mục tiêu của AlphaGo là chiến thắng ván cờ, mục tiêu của AlphaStar là chiến thắng một trận StarCraft, cả hai đều thuộc mô hình nghiên cứu "trí tuệ đơn ván", nhưng EVE không có kết thúc.

EVE Online nổi tiếng với “một vũ trụ chung duy nhất” (single-shard / single shared universe), nơi hàng triệu người chơi cạnh tranh, giao dịch, liên minh và chiến tranh trong cùng một thế giới bền vững.

Người chơi đã xây dựng ở đây các hệ thống kinh tế thực tế, liên minh chính trị, nhóm quân sự, tuyến thương mại, hận thù lịch sử và các kế hoạch chiến tranh kéo dài nhiều năm.

Một số chiến dịch kéo dài cả năm từ khi chuẩn bị đến khi kết thúc. Sự trỗi dậy và sụp đổ của một số liên minh đã được những người chơi sau này nghiên cứu như những sự kiện lịch sử thực sự.

Hilmar nói trong thông báo: "EVE là một trong số ít các nơi có thể khám phá các vấn đề trí tuệ trong môi trường hoạt động giống như thế giới thực."

Hassabis còn nói rằng, từ nhỏ ông đã chơi game, sự nghiệp của ông bắt đầu bằng việc thiết kế các trò chơi mô phỏng AI, các nghiên cứu về AlphaGo, AlphaStar và SIMA đều có mối liên hệ sâu sắc với game, và EVE là lựa chọn cho giai đoạn tiếp theo:

Tôi rất vui khi hợp tác cùng Fenris Creations để an toàn khám phá những trải nghiệm trò chơi mới mẻ và thúc đẩy nghiên cứu AI trong vũ trụ phức tạp chưa từng có, được tạo ra bởi người chơi.

Hầu hết các bài kiểm tra AI giống như một cuộc kiểm tra sức khỏe, còn EVE giống như việc ném AI vào một “xã hội nhân tạo” đã tồn tại 23 năm.

Ba xương hardest của agent

Đúng là thói quen hàng ngày của người chơi EVE

Lần này, chính thức liệt kê ba hướng nghiên cứu: lập kế hoạch dài hạn (long-horizon planning), trí nhớ (memory), và học liên tục (continual learning).

Ba hướng này là ba vấn đề khó nhất trong lĩnh vực nghiên cứu tác nhân AI hiện nay.

Nếu bạn biết ai đó đã chơi EVE Online hơn mười năm, hãy yêu cầu họ mở tài khoản và cho bạn xem danh sách bạn bè, bạn rất có thể sẽ thấy hàng chục nhóm, hàng trăm cái tên, với ghi chú như: “Nợ từ chiến dịch Delve năm 2018”, “Kẻ phản bội trong Goonswarm, đừng hợp tác”, “Cậu này là điệp viên, cả tổ chức đều biết”.

Đây không phải là cửa sổ ngữ cảnh, mà là trí nhớ dài hạn xuyên phiên bắt đầu từ mười năm.

Mức độ ghi nhớ, người chơi EVE đều vượt qua hàng ngày, mức độ học hỏi liên tục cũng vậy.

Tháng 1 năm 2014, trận chiến B-R5RB kéo dài khoảng 21 giờ, với hơn 7.500 nhân vật tham gia, 75 con Titan bị phá hủy, tổn thất tương đương khoảng 300.000 USD tiền mặt. Nguyên nhân dẫn đến toàn bộ trận chiến là một hóa đơn chủ quyền không được thanh toán tự động.

Sau trận chiến này, toàn bộ chiến thuật hạm đội trong trò chơi đã được viết lại. Trong những năm tiếp theo, cấu hình hạm đội và hệ thống chiến thuật của tất cả các liên minh đều được cải tiến dựa trên việc phân tích lại trận đấu. Mỗi tháng đều có sự thay đổi, mỗi thất bại đều được phân tích thành những cập nhật chiến lược có thể thực thi.

Về kế hoạch dài hạn, đơn vị thời gian tiêu chuẩn trong chiến tranh liên minh EVE không phải là giờ, mà là tháng. Một cuộc chiến xuyên hệ sao, từ chuẩn bị đến khi nổ ra, với việc đóng tàu, vận chuyển, ngoại giao, ngụy trang, phản gián, hàng trăm người chơi tự nguyện hợp tác mà không cần bất kỳ lịch trình nhiệm vụ nào, cùng tiến về một mục tiêu chung xuyên suốt nhiều tháng.

Hệ thống hợp tác này do người chơi tự phát triển trong suốt 23 năm.

Ba xương hardest trong đánh giá AI agent hiện tại chính là trải nghiệm hàng ngày của người chơi EVE.

Sự tiến hóa do người chơi thúc đẩy trong EVE vào năm 23 đã tạo ra một môi trường luôn thay đổi, luôn phức tạp và không có lối tắt, không thể tổng hợp được độ phức tạp này trong phòng thí nghiệm.

SIMA 2 do DeepMind phát hành vào tháng 11 năm 2025 đã tiến hóa từ việc “thực hiện lệnh” sang “hiểu mục tiêu, suy luận quy trình và học hỏi trong quá trình chơi”.

Từ góc độ nghiên cứu, dự án EVE và SIMA 2 đều thuộc cùng một hướng tiếp cận “trò chơi như môi trường huấn luyện tác nhân”, điểm khác biệt là lần này sân chơi đã được thay thế bằng một vũ trụ thực tế đang vận hành liên tục trong 23 năm.

DeepMind

Cảnh chiến dịch trong trò chơi EVE Online, những cuộc chiến quy mô lớn do người chơi tự tổ chức và kéo dài hàng giờ đồng hồ, là lý do cốt lõi khiến DeepMind chọn EVE làm bối cảnh nghiên cứu về lập kế hoạch dài hạn và học tập liên tục.

DeepMind đang sử dụng sandbox ngoại tuyến

Không phải Player Universe

Cách DeepMind hợp tác với Fenris lần này bảo thủ hơn dự kiến; DeepMind không nhận được quyền truy cập trực tiếp vào máy chủ chính của người chơi đang hoạt động.

DeepMind chính thức tuyên bố trong thông báo: nghiên cứu ban đầu sẽ được thực hiện trên phiên bản ngoại tuyến của EVE Online, sử dụng máy chủ cục bộ để kiểm tra và đánh giá mô hình trong môi trường được kiểm soát, không kết nối với máy chủ chính thức của EVE Online.

Một mặt, phiên bản ngoại tuyến có nghĩa là DeepMind sẽ không sử dụng dữ liệu trận đấu của người chơi đang hoạt động, cũng không làm xáo trộn nền kinh tế máy chủ thực tế, giúp tránh mọi phức tạp về quyền riêng tư và tuân thủ.

Mặt khác, phiên bản ngoại tuyến của EVE vẫn có thể giữ nguyên các thiết kế cốt lõi như hệ thống quy tắc phức tạp, tàu vũ trụ và cơ chế kinh tế, cấu trúc vùng sao.

DeepMind nhận được một thế giới phức tạp đã được kiểm tra áp lực bởi người chơi trong 23 năm, như một kỳ thi nơi tác nhân phải sống sót.

Từ Atari đến EVE

Con đường này dẫn đến đâu

Nhìn ngược lại từ các sân huấn luyện của DeepMind trong suốt hơn một thập kỷ qua, có một đường nét tiến hóa rất rõ ràng.

Từ năm 2013 đến 2015, Atari là điểm khởi đầu. DQN đặt tác nhân vào các trò chơi có cấp độ rõ ràng và quy tắc đóng như Breakout và Space Invaders, kiểm tra phản ứng và ước lượng giá trị.

Từ năm 2016 đến 2017, AlphaGo và AlphaZero. Luật cờ vây rõ ràng, không gian hành động lớn nhưng khép kín. Kiểm tra khả năng tìm kiếm và suy luận chuỗi dài.

Năm 2019, AlphaStar tham gia vào StarCraft II. Lần đầu tiên bước vào môi trường trò chơi đa tuyến, thời gian thực, với thông tin không hoàn hảo. Kiểm tra khả năng ra quyết định thời gian thực trong điều kiện quan sát không đầy đủ.

Năm 2024, SIMA muốn tạo ra một tác nhân phổ quát hoạt động trên nhiều trò chơi, tập trung vào khả năng chuyển giao và khái quát hóa.

Năm 2025, nâng cấp SIMA 2: không chỉ thực hiện lệnh, mà còn có thể trò chuyện với người dùng, suy luận mục tiêu và tự cải thiện trong quá trình chơi game.

DeepMind

SIMA 2, được DeepMind phát hành năm 2025, đã tiến hóa từ “thực hiện lệnh” sang “hiểu mục tiêu, suy luận quy trình, học hỏi trong quá trình chơi”

Mỗi thế hệ môi trường đều mang thêm một chút “hình dạng của thế giới thực”: từ quy tắc đóng sang quy tắc mở, từ thông tin hoàn hảo sang thông tin không hoàn hảo, từ đối kháng đơn lẻ sang chuyển giao xuyên phiên.

Nhưng trước đây, hầu hết các môi trường này vẫn là những nhiệm vụ tương đối đóng, có thể chia nhỏ và có thể đánh giá lặp lại, ví dụ như Atari là các trò chơi arcade có quy tắc cố định, AlphaStar đối mặt với các trận chiến StarCraft kết thúc từng trận, trong khi SIMA kiểm tra khả năng khái quát hóa xuyên trò chơi trong nhiều môi trường 3D ảo.

Điểm khác biệt của EVE là nó là một thế giới bền vững, hoạt động lâu dài, được người chơi điều khiển, với các cấu trúc kinh tế và chính trị liên tục phát triển.

Nó đã được hình thành một cách tự phát trong suốt 23 năm bởi một nhóm người chơi thực sự trong một thế giới có quy tắc mở: một nền kinh tế do người chơi điều khiển (biến động giá ISK tương đương với các thị trường tài chính thực tế), cấu trúc chính trị liên minh xuyên biên giới (ngoại giao, gián điệp, hiệp ước ngừng bắn), và toàn bộ hệ sinh thái chiến tranh từ xung đột quy mô nhỏ đến trận chiến kéo dài 21 giờ.

Cộng đồng ngày càng có sự đồng thuận rõ ràng về đánh giá tác nhân thông minh; việc chấm điểm các nhiệm vụ đơn lẻ đã không còn mang lại điều gì mới mẻ, nhưng các khả năng như trí nhớ dài hạn, lập kế hoạch xuyên tuần và học hỏi từ thất bại vẫn chưa có môi trường đánh giá phù hợp.

Vì vậy, lựa chọn của DeepMind lần này là: thay vì tạo ra một môi trường tổng hợp mới, hãy bước vào một “xã hội nhân tạo” đã được người chơi thử thách trong 23 năm.

Nhưng vấn đề lớn hơn cũng dần xuất hiện:

Một tác nhân AI có thể tồn tại liên tục, học hỏi liên tục và lập kế hoạch liên tục trong EVE, giữa nó và các tác nhân tự chủ hoạt động trong thế giới thực còn thiếu gì?

Tài liệu tham khảo:

https://x.com/GoogleDeepMind/status/2052011542707630461

https://www.ccpgames.com/news/2026/studio-behind-eve-online-goes-independent-rebrands-as-fenris-creations-enters-research-partnership-with-google-deepmind

https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/

Bài viết này đến từ tài khoản chính thức WeChat "New Intelligence Yuan", tác giả: ASI Revelation, biên tập: Yuan Yu