Google Research quiere que la IA comience a decir “no estoy seguro” con más frecuencia. Un artículo de los investigadores de la empresa argumenta que los modelos de lenguaje grandes deberían moderar sus respuestas cuando su confianza interna es baja, en lugar de emitir cada respuesta con la seguridad injustificada de alguien que definitivamente no acaba de inventar algo.
El artículo, titulado “¿Pueden los modelos de lenguaje grandes expresar fielmente su incertidumbre intrínseca en palabras?”, se presentó en EMNLP 2024, uno de los principales foros de investigación en procesamiento del lenguaje natural. Su hallazgo principal: los modelos de lenguaje actuales son notablemente malos para indicar cuándo realmente no saben de qué están hablando.
La brecha entre saber y decir
Los autores Gal Yona, Roee Aharoni y Mor Geva proponen un marco formal que llaman “incertidumbre de respuesta fiel”. En inglés: una forma de medir si la confianza expresada por un modelo realmente coincide con su confianza interna. La métrica penaliza ambos sentidos de desajuste, por lo que un modelo que se evade todo el tiempo recibe una penalización tan grande como uno que nunca se evade en absoluto.
Su recomendación es engañosamente sencilla. Cuando la confianza interna de un LLM es baja, debe usar expresiones de cautela en lenguaje natural como “No estoy seguro, pero...” en lugar de presentar información incierta como un hecho.
Los investigadores probaron múltiples LLM alineados en tareas de respuesta a preguntas intensivas en conocimiento. Los resultados no fueron alentadores. Los modelos modernos tienen dificultades significativas para reflejar con precisión su propia incertidumbre en sus salidas.
Por qué las alucinaciones importan más allá de los chatbots
El artículo de Google plantea la expresión de la incertidumbre como un problema de alineación. Las técnicas actuales de alineación, los procesos utilizados para ajustar finamente los modelos tras el entrenamiento inicial, tienden a optimizarse para la utilidad y la fluidez. Un modelo que dice "No lo sé" obtiene una puntuación baja en los benchmarks de utilidad, incluso cuando "No lo sé" es la respuesta más precisa posible.
Esto crea un incentivo perverso. Los modelos aprenden durante la alineación que las respuestas seguras y detalladas son recompensadas, mientras que las respuestas cautelosas o incompletas son penalizadas. Los investigadores argumentan que esta brecha exige nuevas técnicas de alineación diseñadas específicamente para calibrar la certeza expresada contra el conocimiento real.
La preimpresión de arXiv se publicó por primera vez el 27 de mayo de 2024, brindando a la comunidad de investigación un período de meses para interactuar con los hallazgos antes de la presentación en EMNLP.
Qué significa esto para el cripto y el trading impulsado por IA
El propio documento no contiene referencias a criptomonedas, activos digitales o aplicaciones financieras. Pero las implicaciones se extienden hacia afuera de maneras que importan para cualquier persona que use herramientas de IA en contextos de inversión.
Una señal de operación que dice “Bitcoin probará la resistencia en $X” tiene implicaciones muy diferentes dependiendo de si el modelo subyacente tiene un 95% de confianza o un 45% de confianza. Actualmente, la mayoría de las herramientas impulsadas por IA presentan ambos escenarios de forma idéntica.
Para inversores y operadores que actualmente confían en herramientas de IA para el análisis de criptomonedas, la conclusión práctica es sencilla: considere cualquier insight generado por IA que no exprese su propia incertidumbre como incompleto, como máximo. El artículo de Google demuestra que incluso los modelos más sofisticados exageran constantemente su nivel de confianza.
