Дослідження Google закликає ВМН краще виражати невизначеність

Дослідники Google хочуть, щоб ШІ почав частіше говорити: «Я не впевнений». У статті дослідників компанії стверджується, що великі мовні моделі повинні обережно формулювати відповіді, коли внутрішня впевненість низька, замість того, щоб надавати кожну відповідь з необґрунтованою самовпевненістю, наче той, хто точно не вигадав щось на ходу.

Стаття під назвою «Чи можуть великі мовні моделі вірно висловити свою внутрішню невизначеність словами?» була представлена на EMNLP 2024 — одному з провідних заходів з дослідження обробки природної мови. Її основний висновок: сучасні LLM дуже погано повідомляють вам, коли вони насправді не знають, про що говорять.

Розрив між знанням і висловлюванням

Автори Галь Йона, Ре Ахароні та Мор Гева запропонували формальну рамку, яку вони називають «вірною невизначеністю відповіді». На англійській: спосіб вимірювання того, чи відповідає висловлена моделью впевненість її внутрішній впевненості. Цей показник штрафує обидва напрямки невідповідності, тому модель, яка уникатиме будь-яких висловлювань, отримає такий самий штраф, як і модель, яка ніколи не уникатиме їх.

Їхня рекомендація здається простішою, ніж є насправді. Коли внутрішня впевненість великої мовної моделі низька, вона повинна використовувати натуральні мовні застереження, як-от «Я не впевнений, але…», замість того, щоб подавати невпевнену інформацію як факт.

Дослідники протестували кілька вирівняних LLM на завданнях відповіді на запитання, що вимагають великої кількості знань. Результати не були заохочуючими. Сучасні моделі серйозно відчувають труднощі у точному відображенні власної невпевненості у своїх вихідних даних.

Чому галюцинації мають значення далі чат-ботів

Стаття Google представляє вираз невизначеності як проблему відповідності. Поточні методи відповідності — процеси, використовувані для доналаштування моделей після початкового навчання — зазвичай оптимізуються за корисністю та плавністю. Модель, яка каже «Я не знаю», отримує низький бал за показниками корисності, навіть якщо «Я не знаю» — найточніша можлива відповідь.

Це створює перверсну стимуляцію. Моделі під час вирівнювання вчаться, що впевнені, детальні відповіді нагороджуються, тоді як обережні або неповні відповіді караються. Дослідники стверджують, що ця різниця вимагає нових методів вирівнювання, спеціально розроблених для калібрування вираженої впевненості з реальними знаннями.

Препринт arXiv був вперше опублікований 27 травня 2024 року, надавши ширшій науковій спільноті місяці на вивчення результатів до презентації на EMNLP.

Що це означає для криптовалют та торгівлі з використанням ШІ

Сама стаття не містить посилань на криптовалюту, цифрові активи або фінансові застосунки. Але наслідки поширюються далі, що має значення для будь-кого, хто використовує інструменти ШІ в інвестиційних контекстах.

Сигнал торгівлі, який стверджує «Bitcoin перевірить опір на $X», має дуже різні наслідки залежно від того, чи має підlying модель 95% впевненості чи 45% впевненості. Зараз більшість інструментів на основі ШІ представляють обидва сценарії однаково.

Для інвесторів і трейдерів, які зараз покладаються на інструменти ШІ для аналізу криптовалют, практичний висновок простий: будь-який висновок, згенерований ШІ, який не виражає власної невпевненості, є, на кращий випадок, неповним. Стаття Google демонструє, що навіть найбільш складні моделі регулярно переоцінюють свою впевненість.