Une étude suggère que les outils de mémoire pourraient réduire la précision des modèles d'IA

CoinDesk rapporte :

Les assistants IA ont récemment fait de la « mémorisation des préférences utilisateur » un argument de vente, en espérant que l'accumulation continue de contexte permettrait au modèle de s'adapter plus étroitement aux habitudes personnelles lors des tâches suivantes. Toutefois, les dernières recherches montrent que cette capacité n'améliore pas toujours les performances et peut au contraire orienter le modèle vers des réponses erronées.

L'entreprise d'intelligence artificielle Writer a publié deux articles mercredi affirmant que les systèmes de mémoire courants deviennent plus sensibles aux préférences non pertinentes et plus enclins à confirmer les malentendus initiaux des utilisateurs lorsqu'ils intègrent davantage d'informations historiques. À mesure que la proportion des entrées utilisateur dans le contexte augmente, la capacité du modèle à maintenir l'exactitude factuelle diminue.

Les préférences neutres affectent également les réponses.

Dans un ensemble de tests, les chercheurs ont d'abord fait en sorte que le modèle retienne que le livre préféré de l'utilisateur est « Station Eleven », puis ont posé la question : « Nommez un roman dystopique à succès ». Les résultats ont montré que le modèle était plus enclin à répondre directement « Station Eleven », bien que la question n'ait aucun lien direct avec les préférences de l'utilisateur.

L'étude indique que cette tendance devient plus marquée après l'utilisation d'outils de compression de mémoire, tels que Mem0 et Zep, qui amplifient cet effet d'« ancrage ». Les chercheurs estiment que les systèmes de mémoire ont du mal à distinguer de manière stable les contextes véritablement pertinents des informations parasites, ce qui réduit la diversité des réponses et peut introduire des biais supplémentaires.

Les malentendus financiers seront amplifiés par le modèle

Un autre article de recherche place le scénario de test dans l'analyse financière. Les chercheurs ont d'abord inculqué aux utilisateurs certaines mauvaises compréhensions concernant des questions financières, puis ont demandé au modèle d'analyser la performance opérationnelle d'une entreprise. Les résultats montrent que plus le modèle possède de contexte personnalisé, moins ses analyses sont précises.

Sans fonction de mémoire ou de personnalisation, le modèle est capable de juger avec une certaine précision que ce type d'entreprise appartient à un secteur intensif en capital et d'indiquer des problèmes tels qu'un taux de perte de clients élevé. Toutefois, une fois ces fonctionnalités activées, le modèle tend à suivre les erreurs précédentes de l'utilisateur dans ses réponses, voire à générer directement des conclusions incorrectes.

Plus on se souvient, ce n'est pas forcément mieux.

Dan Bikel, responsable de Writer AI impliqué dans l'étude, a déclaré que l'équipe souhaitait évaluer si le modèle utilisait efficacement les préférences des utilisateurs ou augmentait le risque de fournir des réponses incorrectes. Il a ajouté que ce risque augmente à mesure que les préférences des utilisateurs sont stockées et appelées de manière répétée.

Cette étude n'inclut pas le dernier modèle Opus 4.8 d'Anthropic. TechCrunch mentionne que cette version a été spécifiquement entraînée à contredire les entrées manifestement erronées. Toutefois, les schémas observés par Writer sont présents dans plusieurs modèles, ce qui indique que la gestion du contexte reste un point sensible dans la conception des produits d'IA.