Исследование Google призывает ИИ-модели лучше выражать неопределенность

Исследователи Google хотят, чтобы ИИ чаще говорил «Я не уверен». В статье исследователей компании утверждается, что крупные языковые модели должны смягчать свои ответы при низкой внутренней уверенности, а не предоставлять каждый ответ с необоснованной самоуверенностью, как будто они точно не придумали это на ходу.

Статья под названием «Могут ли крупные языковые модели достоверно выражать свою внутреннюю неопределенность словами?» была представлена на EMNLP 2024 — одном из ведущих форумов по исследованиям в области обработки естественного языка. Основной вывод: современные LLM плохо справляются с тем, чтобы сообщить вам, когда они действительно не знают, о чем говорят.

Разница между знанием и словами

Авторы Галь Йона, Руэ Ахарони и Мор Гева предлагают формальную рамку, которую называют «верной неопределенностью ответа». На английском: способ измерения, соответствует ли заявленная моделью уверенность ее внутренней уверенности. Метрика наказывает оба направления несоответствия, поэтому модель, которая избегает любых заявлений, получает такой же штраф, как и модель, которая никогда не сомневается.

Их рекомендация кажется обманчиво простой. Когда внутренняя уверенность ИИ-модели низка, она должна использовать естественные языковые оговорки, такие как «Я не уверен, но…», вместо того чтобы представлять неопределённую информацию как факт.

Исследователи протестировали несколько выровненных больших языковых моделей на задачах ответов на вопросы, требующих глубоких знаний. Результаты не были обнадеживающими. Современные модели значительно испытывают трудности с точным отражением собственной неопределенности в своих ответах.

Почему галлюцинации важны дальше чат-ботов

Статья Google представляет выражение неопределенности как проблему согласования. Текущие методы согласования — процессы, используемые для дообучения моделей после начального обучения — обычно оптимизируются на полезность и плавность. Модель, которая отвечает «Я не знаю», показывает низкие результаты на тестах полезности, даже когда «Я не знаю» является наиболее точным возможным ответом.

Это создает искаженную мотивацию. Модели во время согласования учатся, что уверенные и подробные ответы поощряются, тогда как осторожные или неполные ответы наказываются. Исследователи утверждают, что этот разрыв требует новых методов согласования, специально разработанных для калибровки выраженной уверенности по отношению к реальным знаниям.

Препринт arXiv был впервые опубликован 27 мая 2024 года, дав широкому научному сообществу месяцы на изучение результатов до презентации на EMNLP.

Что это означает для криптовалют и торговли на основе ИИ

Сама статья не содержит ссылок на криптовалюту, цифровые активы или финансовые приложения. Однако последствия распространяются широко и имеют значение для всех, кто использует инструменты ИИ в инвестиционных контекстах.

Сигнал о торговле, который говорит, что «bitcoin протестирует сопротивление на уровне $X», имеет совершенно разные последствия в зависимости от того, имеет ли модель 95% уверенности или 45% уверенности. В настоящее время большинство инструментов на основе ИИ представляют оба сценария одинаково.

Для инвесторов и трейдеров, которые сейчас полагаются на инструменты ИИ для анализа криптовалют, практический вывод прост: любые выводы, сгенерированные ИИ, которые не выражают собственную неопределенность, следует считать по крайней мере неполными. Статья Google демонстрирует, что даже самые совершенные модели регулярно завышают свою уверенность.