Google Research souhaite que l'IA commence à dire plus souvent « Je ne suis pas sûr ». Un article des chercheurs de l'entreprise soutient que les grands modèles linguistiques devraient atténuer leurs réponses lorsque leur confiance interne est faible, plutôt que de livrer chaque réponse avec l'assurance non méritée de quelqu'un qui n'a certainement pas juste inventé quelque chose.
L'article, intitulé « Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words ? », a été présenté à EMNLP 2024, l'une des principales conférences de recherche en traitement du langage naturel. Sa découverte principale : les modèles linguistiques actuels sont extrêmement mauvais pour vous indiquer lorsqu'ils ne savent pas réellement de quoi ils parlent.
L'écart entre savoir et dire
Les auteurs Gal Yona, Roee Aharoni et Mor Geva proposent un cadre formel qu'ils appellent « faithful response uncertainty ». En anglais : une méthode pour mesurer si la confiance exprimée par un modèle correspond réellement à sa confiance interne. Cette métrique pénalise les deux directions de désaccord, de sorte qu'un modèle qui se garde toujours de s'engager est pénalisé autant qu'un modèle qui ne se garde jamais de s'engager.
Leur recommandation est décevamment simple. Lorsque la confiance interne d'un LLM est faible, il devrait utiliser des formules de prudence en langage naturel, comme « Je ne suis pas sûr, mais… », au lieu d'affirmer des informations incertaines comme des faits.
Les chercheurs ont testé plusieurs LLM alignés sur des tâches de réponse à des questions exigeant une grande connaissance. Les résultats n'ont pas été encourageants. Les modèles modernes éprouvent de grandes difficultés à refléter avec précision leur propre incertitude dans leurs sorties.
Pourquoi les hallucinations comptent au-delà des chatbots
L'article de Google cadre l'expression de l'incertitude comme un problème d'alignement. Les techniques d'alignement actuelles, les processus utilisés pour affiner les modèles après l'entraînement initial, tendent à optimiser l'utilité et la fluidité. Un modèle qui répond « Je ne sais pas » obtient un faible score sur les indicateurs d'utilité, même lorsque « Je ne sais pas » est la réponse la plus précise possible.
Cela crée un incitatif pervers. Les modèles apprennent lors de l'alignement que les réponses confiantes et détaillées sont récompensées, tandis que les réponses prudents ou incomplètes sont pénalisées. Les chercheurs soutiennent que ce écart exige de nouvelles techniques d'alignement spécifiquement conçues pour calibrer la certitude exprimée par rapport aux connaissances réelles.
La prépublication arXiv a été publiée pour la première fois le 27 mai 2024, offrant à la communauté de recherche plus large plusieurs mois pour s'engager avec les résultats avant la présentation à EMNLP.
Ce que cela signifie pour la crypto et le trading piloté par l'IA
Le document lui-même ne contient aucune référence aux cryptomonnaies, aux actifs numériques ou aux applications financières. Mais les implications se propagent de manière significative pour toute personne utilisant des outils d'IA dans des contextes d'investissement.
Un signal de trading indiquant que « le bitcoin testera la résistance à X $ » a des implications très différentes selon que le modèle sous-jacent a une confiance de 95 % ou de 45 %. Pour l'instant, la plupart des outils pilotés par l'IA présentent ces deux scénarios de manière identique.
Pour les investisseurs et traders qui s'appuient actuellement sur des outils d'IA pour l'analyse cryptographique, la leçon pratique est simple : considérez toute insight générée par l'IA qui ne exprime pas sa propre incertitude comme incomplète, au mieux. L'article de Google démontre que même les modèles les plus sophistiqués surestiment fréquemment leur confiance.
