Google presenta inferencia local de IA 3 veces más rápida sin hardware nuevo

icon币界网
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
Google presenta Multi-Token Prediction (MTP) para aumentar la velocidad de inferencia local de IA en 3x sin hardware nuevo. El método de decodificación especulativa utiliza un modelo predictor rápido junto con un modelo más grande para generar múltiples tokens a la vez. La actualización ya está disponible para la familia de modelos Gemma 4 y funciona con plataformas como Kaggle y Ollama. Esta noticia de IA + cripto destaca la compatibilidad con nuevos listados de tokens y mejoras de rendimiento.
CoinDesk informa:

Ejecutar modelos de inteligencia artificial en tu propia computadora es genial—pero no siempre es así.

Promete protección de privacidad, sin tarifas de suscripción y los datos no abandonan su dispositivo. Pero para la mayoría, la realidad es que, entre oraciones, el cursor parpadea durante cinco segundos.

Este cuello de botella tiene un nombre: velocidad de inferencia. No tiene relación con la inteligencia del modelo, sino que es un problema de hardware. Los modelos de IA estándar generan una palabra a la vez (llamada “token”), y el hardware debe transferir miles de millones de parámetros desde la memoria hasta la unidad de cálculo para generar cada token. Este diseño es inherentemente lento. En hardware de consumo, es simplemente insoportable.

El método alternativo que adopta la mayoría de las personas es ejecutar modelos más pequeños y de menor rendimiento, o versiones altamente comprimidas conocidas como modelos cuantizados. Ambas opciones no son ideales, ya que sacrifican cierta calidad por velocidad. Aunque pueden ejecutarse, no son el tipo de modelo que realmente deseas.

Now Google has proposed a different approach. The company has just released the Multi-Token Prediction (MTP) draft for its Gemma 4 family open model technology—this technology can achieve up to 3x speed improvements without compromising model quality or inference capabilities.

Este método se denomina decodificación especulativa, y su concepto ha existido durante muchos años. Los investigadores de Google publicaron el artículo fundacional ya en 2022. Hasta ahora, esta idea ha comenzado a ser aceptada por la corriente principal, ya que requiere una arquitectura adecuada para funcionar a gran escala.

En resumen, su funcionamiento es el siguiente: en lugar de dejar que el modelo grande y potente realice todo el trabajo por sí solo, se combina con un pequeño modelo “predictor”. El predictor es rápido y de bajo costo: puede predecir múltiples tokens simultáneamente en menos tiempo del que el modelo principal necesita para generar un solo token. Luego, el modelo grande verifica todas estas predicciones en una sola pasada. Si las predicciones son correctas, se obtiene la secuencia completa con el costo de una sola pasada hacia adelante.

According to Google "If the target model agrees with the draft, it accepts the entire sequence in a single forward pass—even generating its own additional tokens in the process."

Sin ninguna pérdida: los modelos grandes, como la versión densa de 31 mil millones de parámetros de Gemma 4, aún validan cada token y ofrecen la misma calidad de salida. Simplemente estás aprovechando la capacidad de cómputo inactiva en las partes lentas.

Google indica que los modelos de dibujo a boceto comparten la caché de claves y valores (caché KV), una estructura de memoria que almacena el contexto ya procesado, por lo que no pierden tiempo recalculando información que ya conoce el modelo grande. Para los pequeños modelos de borde diseñados específicamente para teléfonos móviles y dispositivos Raspberry Pi, el equipo incluso desarrolló una técnica de agrupamiento eficiente para reducir aún más el tiempo de generación.

This is not the only attempt in the field of artificial intelligence to parallelize text generation. Diffusion-based language models—such as Mercury by Inception Labs—employ a fundamentally different approach: instead of predicting one token at a time, they start from noise and iteratively optimize the entire output. While theoretically fast, diffusion language models struggle to match the quality of traditional Transformer models, so they are viewed more as research subjects than practical tools.

La decodificación especulativa es diferente porque no modifica en absoluto el modelo subyacente. Es una optimización de servicio, no un reemplazo de arquitectura. La versión de Gemma 4 que ya estabas ejecutando se volverá más rápida.

Los efectos reales son realmente notables. Según las pruebas de referencia de Google, al habilitar el borrador de MTP en el chip Gemma 4 26B con GPU de escritorio Nvidia RTX Pro 6000, la cantidad de tokens procesados por segundo se duplicó aproximadamente. En chips Apple Silicon, tamaños de lote de 4 a 8 solicitudes pueden lograr un aumento de velocidad de aproximadamente 2.2 veces. Aunque no todos los escenarios alcanzan el límite de 3 veces, sigue siendo una diferencia significativa entre “apenas usable” y “lo suficientemente rápido para usarse en la práctica”.

El contexto es crucial. Cuando el modelo chino DeepSeek sorprendió al mercado en enero de 2025. —causando que la capitalización de mercado de NVIDIA se desplomara 600 mil millones de dólares en un solo día— la lección fundamental fue: el aumento de la eficiencia tiene un impacto mayor que simplemente incrementar la capacidad de cómputo. Un funcionamiento más inteligente supera la inversión constante en hardware. La herramienta de mapeo MTP de Google es otro paso en esta dirección, aunque su público objetivo es claramente los consumidores.

La industria de la inteligencia artificial en su conjunto actualmente se asemeja a un triángulo compuesto por tres partes: inferencia, entrenamiento y memoria. Cualquier avance en cualquiera de estos ámbitos tiene un impacto de impulso o perturbación en todo el ecosistema. El método de entrenamiento de DeepSeek (construir modelos potentes utilizando hardware de bajo costo) es un ejemplo, y el de Google... TurboQuant (cómo reducir la memoria de la inteligencia artificial sin comprometer la calidad) es otro artículo. Ambos artículos provocaron una caída del mercado, ya que las empresas se esfuerzan por encontrar estrategias de respuesta.

Google indica que esta herramienta de dibujo puede "mejorar la velocidad de respuesta: reducir significativamente la latencia en chats casi en tiempo real, aplicaciones de voz inmersivas y flujos de trabajo de agentes": tareas que requieren baja latencia para funcionar realmente.

Aplicaciones claras y rápidas: un asistente de código local sin retrasos; una interfaz de voz que responde antes de que olvides lo que preguntaste; un flujo de trabajo inteligente que completa los pasos sin esperar tres segundos. Todo esto se puede lograr con tu hardware actual.

El borrador de MTP ya está en línea 拥抱脸 Son compatibles con Apache 2.0, Kaggle y Ollama. Funcionan de inmediato con vLLM, MLX, SGLang y Hugging Face Transformers.

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.