Google presenta inferencia local de IA 3 veces más rápida sin hardware nuevo

CoinDesk informa:

Ejecutar modelos de inteligencia artificial en tu propia computadora es genial—pero no siempre es así.

Promete protección de privacidad, sin tarifas de suscripción y los datos no abandonan su dispositivo. Pero para la mayoría, la realidad es que, entre oraciones, el cursor parpadea durante cinco segundos.

Este cuello de botella tiene un nombre: velocidad de inferencia. No tiene relación con la inteligencia del modelo, sino que es un problema de hardware. Los modelos de IA estándar generan una palabra a la vez (llamada “token”), y el hardware debe transferir miles de millones de parámetros desde la memoria hasta la unidad de cálculo para generar cada token. Este diseño es inherentemente lento. En hardware de consumo, es simplemente insoportable.

El método alternativo que adopta la mayoría de las personas es ejecutar modelos más pequeños y de menor rendimiento, o versiones altamente comprimidas conocidas como modelos cuantizados. Ambas opciones no son ideales, ya que sacrifican cierta calidad por velocidad. Aunque pueden ejecutarse, no son el tipo de modelo que realmente deseas.

Now Google has proposed a different approach. The company has just released the Multi-Token Prediction (MTP) draft for its Gemma 4 family open model technology—this technology can achieve up to 3x speed improvements without compromising model quality or inference capabilities.

Este método se denomina decodificación especulativa, y su concepto ha existido durante muchos años. Los investigadores de Google publicaron el artículo fundacional ya en 2022. Hasta ahora, esta idea ha comenzado a ser aceptada por la corriente principal, ya que requiere una arquitectura adecuada para funcionar a gran escala.

En resumen, su funcionamiento es el siguiente: en lugar de dejar que el modelo grande y potente realice todo el trabajo por sí solo, se combina con un pequeño modelo “predictor”. El predictor es rápido y de bajo costo: puede predecir múltiples tokens simultáneamente en menos tiempo del que el modelo principal necesita para generar un solo token. Luego, el modelo grande verifica todas estas predicciones en una sola pasada. Si las predicciones son correctas, se obtiene la secuencia completa con el costo de una sola pasada hacia adelante.

According to Google "If the target model agrees with the draft, it accepts the entire sequence in a single forward pass—even generating its own additional tokens in the process."

Sin ninguna pérdida: los modelos grandes, como la versión densa de 31 mil millones de parámetros de Gemma 4, aún validan cada token y ofrecen la misma calidad de salida. Simplemente estás aprovechando la capacidad de cómputo inactiva en las partes lentas.

Google indica que los modelos de dibujo a boceto comparten la caché de claves y valores (caché KV), una estructura de memoria que almacena el contexto ya procesado, por lo que no pierden tiempo recalculando información que ya conoce el modelo grande. Para los pequeños modelos de borde diseñados específicamente para teléfonos móviles y dispositivos Raspberry Pi, el equipo incluso desarrolló una técnica de agrupamiento eficiente para reducir aún más el tiempo de generación.

This is not the only attempt in the field of artificial intelligence to parallelize text generation. Diffusion-based language models—such as Mercury by Inception Labs—employ a fundamentally different approach: instead of predicting one token at a time, they start from noise and iteratively optimize the entire output. While theoretically fast, diffusion language models struggle to match the quality of traditional Transformer models, so they are viewed more as research subjects than practical tools.

La decodificación especulativa es diferente porque no modifica en absoluto el modelo subyacente. Es una optimización de servicio, no un reemplazo de arquitectura. La versión de Gemma 4 que ya estabas ejecutando se volverá más rápida.

Los efectos reales son realmente notables. Según las pruebas de referencia de Google, al habilitar el borrador de MTP en el chip Gemma 4 26B con GPU de escritorio Nvidia RTX Pro 6000, la cantidad de tokens procesados por segundo se duplicó aproximadamente. En chips Apple Silicon, tamaños de lote de 4 a 8 solicitudes pueden lograr un aumento de velocidad de aproximadamente 2.2 veces. Aunque no todos los escenarios alcanzan el límite de 3 veces, sigue siendo una diferencia significativa entre “apenas usable” y “lo suficientemente rápido para usarse en la práctica”.

El contexto es crucial. Cuando el modelo chino DeepSeek sorprendió al mercado en enero de 2025. —causando que la capitalización de mercado de NVIDIA se desplomara 600 mil millones de dólares en un solo día— la lección fundamental fue: el aumento de la eficiencia tiene un impacto mayor que simplemente incrementar la capacidad de cómputo. Un funcionamiento más inteligente supera la inversión constante en hardware. La herramienta de mapeo MTP de Google es otro paso en esta dirección, aunque su público objetivo es claramente los consumidores.

La industria de la inteligencia artificial en su conjunto actualmente se asemeja a un triángulo compuesto por tres partes: inferencia, entrenamiento y memoria. Cualquier avance en cualquiera de estos ámbitos tiene un impacto de impulso o perturbación en todo el ecosistema. El método de entrenamiento de DeepSeek (construir modelos potentes utilizando hardware de bajo costo) es un ejemplo, y el de Google... TurboQuant (cómo reducir la memoria de la inteligencia artificial sin comprometer la calidad) es otro artículo. Ambos artículos provocaron una caída del mercado, ya que las empresas se esfuerzan por encontrar estrategias de respuesta.

Google indica que esta herramienta de dibujo puede "mejorar la velocidad de respuesta: reducir significativamente la latencia en chats casi en tiempo real, aplicaciones de voz inmersivas y flujos de trabajo de agentes": tareas que requieren baja latencia para funcionar realmente.

Aplicaciones claras y rápidas: un asistente de código local sin retrasos; una interfaz de voz que responde antes de que olvides lo que preguntaste; un flujo de trabajo inteligente que completa los pasos sin esperar tres segundos. Todo esto se puede lograr con tu hardware actual.

El borrador de MTP ya está en línea 拥抱脸 Son compatibles con Apache 2.0, Kaggle y Ollama. Funcionan de inmediato con vLLM, MLX, SGLang y Hugging Face Transformers.