Ang papel ng pag-aaral ng Google ay humihingi ng mas mabuting pagpapahayag ng kawalan ng siguro ng mga LLM

Gusto ng Google Research na magsimula ang AI na mas madalas na sabihin, “Hindi ko sigurado.” Isang papel mula sa mga mananaliksik ng kumpanya ay nagpapahiwatig na dapat mag-iiwan ng espasyo ang mga malalaking modelo ng wika sa kanilang mga sagot kapag mababa ang kanilang panloob na tiwala, kesa magbigay ng bawat tugon na may hindi karapat-dapat na pagkakaroon ng tiwala na tila tiyak na hindi lamang nila isinimulan.

Ang papel, na may pamagat na “Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words?,” ay ipinakita sa EMNLP 2024, isa sa mga pinakamataas na lugar para sa pananaliksik sa natural language processing. Ang pangunahing natuklasan nito: ang kasalukuyang LLM ay napakasama sa pagpapahayag kung kailan hindi talaga nila alam kung ano ang pinag-uusapan.

Ang pagkakabawas sa pagitan ng pagkakaalam at pagsasabi

Proposado ng mga may-akda Gal Yona, Roee Aharoni, at Mor Geva ang isang pormal na framework na kanilang tatawagin na “faithful response uncertainty.” Sa Ingles: isang paraan upang sukatin kung ang napagsasalitang kumpiyansa ng isang modelo ay talagang tumutugma sa loob na kumpiyansa nito. Ang metrikong ito ay nagpaparusa sa parehong direksyon ng pagkakamali, kaya ang isang modelo na nag-aalala sa lahat ay pinaparusa nang parehong laki tulad ng isang modelo na hindi nag-aalala nang husto.

Ang kanilang rekomendasyon ay deceptively simple. Kapag mababa ang loob na kumpiyansa ng LLM, dapat gamitin nito ang mga natural na pahayag na pag-aalinlangan tulad ng “Hindi ako sigurado, pero…” kesa sa pagpapahayag ng hindi siguradong impormasyon bilang katotohanan.

Pamamahayag

Sinubukan ng mga siyentipiko ang maraming aligned LLM sa mga gawain sa pag-sagot sa mga tanong na may malaking kaalaman. Ang mga resulta ay hindi nakakatuwa. Ang mga modernong modelo ay may malaking hirap sa pagpapakita nang tama ng kanilang sariling kawalan ng sigurado sa kanilang mga output.

Bakit mahalaga ang mga hallucination kahit sa labas ng mga chatbot

Ang papel ng Google ay naglalagay ng pagpapahayag ng kawalan ng katiyakan bilang isang problema ng pagkakasundo. Ang mga kasalukuyang teknik sa pagkakasundo, ang mga proseso na ginagamit upang ma-fine-tune ang mga modelo pagkatapos ng unang pagtuturo, ay karaniwang nag-o-optimize para sa kapaki-pakinabang at kalinawan. Isang modelo na nagsasabing “Hindi ko alam” ay mababang marka sa mga benchmark para sa kapaki-pakinabang, kahit na ang “Hindi ko alam” ay ang pinakatumpak na posibleng sagot.

Nagkakaroon ito ng isang pagsisikap na palihis. Natututo ang mga modelo sa panahon ng pagkakasundo na ang mga tiyak at detalyadong sagot ay binibigyan ng pabor, habang ang mga panganib o hindi kumpletong sagot ay pinaparusahan. Ayon sa mga mananaliksik, kailangan ng puwang na ito ng mga bago pang teknik sa pagkakasundo na espesipikong disenyo upang kalinawan ang ipinahahayag na katiyakan laban sa tunay na kaalaman.

Ang arXiv preprint ay unang ipinakalabas noong Mayo 27, 2024, na nagbigay ng ilang buwan sa mas malawak na komunidad ng pananaliksik upang makilahok sa mga natuklasan bago ang EMNLP presentation.

Ano ang ibig sabihin nito para sa crypto at AI-driven trading

Ang sariling papel ay walang mga sanggunian sa cryptocurrency, mga digital asset, o mga financial application. Ngunit ang mga epekto ay umiikot palabas sa paraan na mahalaga para sa sinumang gumagamit ng AI tools sa mga konteksto ng pag-invest.

Isang trading signal na nagsasabing “Bitcoin ay magtatry ng resistance sa $X” ay may iba’t ibang kahulugan depende kung ang panao na modelo ay may 95% na antas ng kumpiyansa o 45% na antas ng kumpiyansa. Sa kasalukuyan, ang karamihan sa mga AI-driven na tool ay nagpapakita ng parehong mga sitwasyon nang magkakapareho.

Para sa mga investor at trader na kasalukuyang nakikibatay sa mga AI tool para sa crypto analysis, ang praktikal na aral ay simpleng: tratuhin ang anumang insight na ginawa ng AI na hindi nagpapahayag ng kanyang sariling kawalan ng sigurado bilang hindi kumpleto sa pinakamabuting kaso. Ipapakita ng papel ng Google na kahit ang pinakamasalimuot na mga modelo ay karaniwang nagpapakita ng sobrang tiwala.