AIMPACT メッセージ、4月14日(UTC+8)、MiniMaxがデスクトップAgentの2つの更新をリリース:Pocket機能(Beta)とComputer Useが正式にローンチ。
Pocketは、Feishu、WeChat、WeChat for Business、Slackなどの主要なIMと連携し、ユーザーがIMでコマンドを発信すると、Agentがそのコンピューター上でタスクを実行し、結果を元の会話に返信します。Computer Useにより、Agentは画面を確認し、マウスとキーボードを操作して、ローカルソフトウェア、システム設定、グラフィカルユーザーインターフェースのタスクを直接処理できます。この2つの機能を組み合わせることで、スマートフォンからコマンドを送信し、Agentがコンピューター上で実行するため、コンピューターの前に座る必要がありません。
技術的には、MiniMaxはデスクトップ操作を4つのツールドメインに分割しています:Desktop Control(スクリーンショット、マウスおよびキーボード入力)、Window Manager(ウィンドウ管理とアプリ起動)、Browser Engine(DOM操作とCSSセレクター)、Clipboard(クリップボードの読み書き)。これに飛書、企業微信などのプラットフォームのCLIおよびBashツールを追加し、合計60以上のツールを構成しています。
視覚的な認識において、Agentは0から1の相対座標を出力し、システムがそれをスクリーンの実際のピクセルに変換することで、Retinaディスプレイと4Kディスプレイ上で操作の精度を一致させます。各ステップ実行後に自動的にスクリーンショットを取得して検証し、失敗した場合は代替手段(マウスクリックの代わりにキーボードショートカットを使用するなど)を試みます。複数回試行しても解決できない場合、ユーザーに詰まった位置を主动的に報告します。
権限管理をIMに統合:Agentがファイル削除などの機密操作を実行する前に一時停止し、確認リクエストをIMにプッシュ。飛書とSlackではインタラクティブカードで表示し、WeChatではテキストコマンドで承認。ユーザーはいつでもコマンドを送信してタスクを中止できます。(出典:MiniMax)
