NVIDIA lanza Gamma-World, el modelo de múltiples agentes admite la colaboración de 4 jugadores a 24 FPS

ME AI Noticia, según el monitoreo de Beating, investigadores de NVIDIA en colaboración con la Universidad Tsinghua, la Universidad de Toronto y el Vector Institute han publicado el modelo generativo de mundo multiagente Gamma-World, superando la limitación prolongada de los entornos virtuales a interacciones individuales o de dos personas. El equipo ha lanzado la página del proyecto y el artículo académico, y planea abrir el código y los pesos en las próximas semanas. El modelo introduce dos mecanismos: una extensión de alta dimensión del codificado de posición rotacional y etiquetas de intermediario de información, permitiendo, al mismo tiempo que cada jugador sea controlado independientemente, lograr por primera vez la generalización de cero muestra directa de dos jugadores a cuatro jugadores colaborativos sin necesidad de reentrenamiento. El principal desafío de los modelos de mundo multiusuario radica en garantizar que cada jugador mantenga control independiente sin conflictos en sus acciones. El equipo de investigación diseñó el codificado de agente rotacional simplex (Simplex Rotary Agent Encoding), que extiende el clásico codificado de posición rotacional (RoPE) al espacio de ángulos de alta dimensión. Este nuevo método de codificación otorga a todos los jugadores una simetría física completamente equivalente, eliminando la dependencia de números de jugador fijos y permitiendo una referencia y manipulación independientes más naturales. Para evitar que el aumento del número de jugadores cause un crecimiento cuadrático en el cálculo, se introdujo el mecanismo de atención central dispersa (Sparse Hub Attention). El sistema transmite información de interacción mediante etiquetas centrales aprendibles, reduciendo con éxito el costo computacional de la atención entre jugadores a un nivel lineal. En cuanto a la velocidad de generación, el equipo distiló un modelo docente de difusión de alta latencia en un estudiante causal, combinado con caché clave-valor (KV Cache), logrando una salida de respuesta de acción en tiempo real de 24 fotogramas por segundo (24 FPS). Las evaluaciones en entornos de juegos multijugador demostraron que el nuevo modelo supera claramente a las redes tradicionales basadas en ranuras y con atención densa en cuanto a realismo visual, controlabilidad de las respuestas de acción y coherencia entre jugadores. (Fuente: BlockBeats)