Tin nhắn từ AIMPACT, ngày 14 tháng 4 (UTC+8), MiniMax công bố hai bản cập nhật cho Agent máy tính để bàn: tính năng Pocket (Beta) và Computer Use chính thức ra mắt.
Pocket tích hợp với các nền tảng IM phổ biến như Feishu, WeChat, WeChat Work, Slack, v.v. Người dùng gửi lệnh qua IM, Agent sẽ thực hiện nhiệm vụ trên máy tính của họ và gửi kết quả trở lại cuộc hội thoại ban đầu. Tính năng Computer Use cho phép Agent xem màn hình, điều khiển chuột và bàn phím để trực tiếp xử lý các tác vụ phần mềm cục bộ, cài đặt hệ thống và giao diện đồ họa. Hai khả năng này kết hợp: lệnh được gửi từ điện thoại, Agent thực hiện trên máy tính, không cần ngồi trước máy tính.
Về mặt kỹ thuật, MiniMax chia các thao tác trên máy tính để bàn thành bốn lĩnh vực công cụ: Desktop Control (chụp màn hình, nhập liệu chuột và bàn phím), Window Manager (quản lý cửa sổ và khởi động ứng dụng), Browser Engine (thao tác DOM và trình chọn CSS), Clipboard (đọc ghi bảng tạm). Kết hợp với các công cụ CLI và Bash của các nền tảng như Feishu và WeCom, tổng cộng hơn 60 công cụ.
Về mặt cảm nhận thị giác, Agent đầu ra tọa độ tương đối từ 0 đến 1, hệ thống chuyển đổi thành pixel thực tế trên màn hình để đảm bảo độ chính xác thao tác đồng nhất trên màn hình Retina và màn hình 4K. Sau mỗi bước thực hiện, hệ thống tự động chụp ảnh màn hình để xác minh; nếu thất bại, nó sẽ thử các giải pháp thay thế (ví dụ: dùng phím tắt thay vì nhấp chuột), và khi nhiều lần không giải quyết được, nó chủ động báo cho người dùng vị trí bị kẹt.
Quản lý quyền hạn đã được đồng bộ vào IM: Trước khi Agent thực hiện các thao tác nhạy cảm như xóa tệp, quá trình sẽ tạm dừng và yêu cầu xác nhận sẽ được đẩy đến IM, hiển thị dưới dạng thẻ tương tác trên Feishu và Slack, trong khi WeChat yêu cầu xác thực qua lệnh văn bản; người dùng có thể gửi lệnh bất kỳ lúc nào để hủy nhiệm vụ.(Nguồn: MiniMax)
