El marco MeMo del MIT mejora el rendimiento de los LLM en un 26%

Enseñarle algo nuevo a un modelo de lenguaje grande después de haber sido entrenado es, dicho amablemente, un dolor. O bien vuelves a entrenar todo el modelo (caro), insertas documentos en su ventana de contexto (limitada), o añades sistemas de recuperación que a menudo se atascan con consultas complejas. Investigadores del MIT CSAIL, la Universidad Nacional de Singapur y A*STAR acaban de publicar un marco que evita los tres problemas.

El marco se llama MeMo, abreviatura de Memory as a Model. Fue detallado en un artículo publicado el 20 de mayo de 2026 (arXiv:2605.15156), y la idea central es elegantemente sencilla: en lugar de forzar nuevos conocimientos en un LLM existente, entrena un modelo separado y más pequeño cuyo único propósito es recordar cosas. El LLM principal permanece congelado. Simplemente hace preguntas al modelo de memoria cuando necesita respuestas.

Cómo funciona realmente MeMo

En términos técnicos, MeMo utiliza una tubería de síntesis QA de reflexión en cinco pasos para entrenar el modelo Memory en conocimientos de nuevos dominios. En tiempo de inferencia, el LLM Ejecutivo congelado, como Qwen2.5 o Gemini-3-Flash, consulta al modelo Memory a través de un protocolo estructurado de múltiples turnos. El modelo Memory internaliza la información en lugar de simplemente recuperar fragmentos de texto, lo que lo distingue de los entornos tradicionales de generación aumentada por recuperación (RAG).

Esta arquitectura evita el olvido catastrófico, el fenómeno en el que actualizar una red neuronal con nuevos datos provoca que pierda capacidades previamente aprendidas. También significa que nunca necesitas volver a ajustar el modelo Ejecutivo grande y costoso cuando llega nueva información. Solo actualizas el modelo de Memoria más pequeño.

Anuncio

Las pruebas realizadas en conjuntos de datos que incluyen BrowseComp-Plus, NarrativeQA y MuSiQue mostraron mejoras de rendimiento de hasta un 26,73% cuando los investigadores cambiaron los modelos Executive a Gemini-3-Flash, todo sin volver a entrenar el componente Memory. El modelo Memory, una vez entrenado, funcionó en diferentes LLMs Executive como un adaptador universal.

Esa compatibilidad plug-and-play se extiende a ambos LLM de código abierto y cerrado. Puedes entrenar un modelo Memory una sola vez y desplegarlo con cualquier modelo de vanguardia que prefiera tu organización, o intercambiar modelos Executive a medida que surjan versiones mejores. La capa de conocimiento persiste de forma independiente.

RAG, en comparación, tiene debilidades bien documentadas. Es sensible al ruido en los documentos recuperados, tiene dificultades con el razonamiento multi-documento y se degrada cuando las preguntas requieren sintetizar información de múltiples fuentes. El enfoque de MeMo, que codifica el conocimiento en los pesos del modelo en lugar de recuperar texto crudo, parece manejar estos escenarios de manera más robusta.

Por qué esto es importante para la infraestructura de IA en criptomonedas

En la investigación de MeMo no se mencionan tokens de cadena de bloques ni proyectos específicos de criptomoneda. Sea claro al respecto desde el inicio.

El análisis en cadena es uno de los casos de uso más evidentes. Los agentes de IA que monitorean protocolos DeFi, rastrean la actividad de monederos o marcan transacciones sospechosas necesitan conocimientos constantemente actualizados sobre nuevos contratos, propuestas de gobernanza y condiciones del mercado. Una arquitectura tipo MeMo podría permitir que un agente de análisis DeFi mantenga un almacén de conocimiento persistente y actualizable en su modelo de Memoria mientras ejecuta inferencias a través del LLM frontal que ofrezca las mejores capacidades de razonamiento. Cuando un protocolo cambia sus parámetros, actualizas el modelo de Memoria. El Ejecutivo permanece sin cambios.

El ángulo del costo operativo es significativo. Volver a entrenar modelos grandes es uno de los mayores gastos para aplicaciones cripto nativas de IA, y es un costo recurrente que aumenta según la frecuencia con que cambian los datos subyacentes. Un marco que elimine el reentrenamiento mientras mantiene o mejora el rendimiento podría reducir significativamente el costo de ejecutar agentes de IA sofisticados.

Lo que los inversores deben vigilar

RAG ha sido el enfoque predeterminado para mantener actualizados a los LLM, y se ha construido todo un ecosistema de bases de datos vectoriales, modelos de incrustación y pipelines de recuperación en torno a él. Si el enfoque de MeMo demuestra ser más efectivo a escala, parte de esa infraestructura se vuelve menos esencial.

Un riesgo a tener en cuenta: los benchmarks de MeMo se realizaron en conjuntos de datos académicos. El rendimiento en el mundo real en entornos ruidosos y adversarios, como los mercados de criptomonedas, podría diferir.