谷歌研究論文呼籲大語言模型更好地表達不確定性

谷歌研究團隊希望人工智能更常說出「我不確定」。該公司研究人員的一篇論文指出，大型語言模型應在內部信心較低時對答案進行保留，而非以一種毫無根據的自信態度回應每一條訊息，彷彿自己絕對沒有隨意編造內容一般。

論文題為《大型語言模型能否在文字中忠實表達其內在不確定性？》，於自然語言處理研究頂尖會議 EMNLP 2024 上發表。其核心發現：當前的 LLM 在告知使用者自己實際上不了解所談論內容時，表現得極為糟糕。

知道與說出之間的差距

作者 Gal Yona、Roee Aharoni 和 Mor Geva 提出了一個稱為「忠實回應不確定性」的正式框架。在英文中，這是一種衡量模型所表達的自信程度是否與其內部自信程度相符的方法。該指標對兩種方向的不匹配均予以懲罰，因此，過度謹慎的模型與從不謹慎的模型一樣會被扣分。

他們的建議看似簡單：當大型語言模型的內部信心較低時，應使用自然語言的謹慎表達，例如「我不確定，但…」，而不是將不確定的信息當作事實陳述。

研究人員在多項知識密集型問答任務中測試了多個對齊的大型語言模型，結果並不樂觀。現代模型在準確反映其輸出中的自身不確定性方面面臨顯著困難。

谷歌的論文將不確定性表達視為一個對齊問題。目前的對齊技術（即在初始訓練後用於微調模型的過程）通常優化於幫助性和流暢性。一個說出「我不知道」的模型，即使「我不知道」是最準確的答案，其在幫助性基準上的得分仍會偏低。

這會產生一種扭曲的激勵機制。模型在對齊過程中學到，自信且詳盡的答案會得到獎勵，而猶豫或不完整的答案則會受到懲罰。研究人員認為，這一差距亟需開發新的對齊技術，專門用於調節表達的確定性與實際知識之間的關係。

arXiv 預印本於 2024 年 5 月 27 日首次發布，讓更廣泛的研究社群在 EMNLP 演示前有數月時間參與討論這些發現。

該論文本身並未提及加密貨幣、數碼資產或金融應用。但其影響會向外擴散，對任何在投資情境中使用 AI 工具的人而言都至關重要。

一個標示「比特幣將測試 $X 的阻力位」的交易信號，其含義會因底層模型的置信度為 95% 或 45% 而有極大差異。目前，大多數 AI 驅動的工具對這兩種情況都呈現相同的方式。

對於目前依賴 AI 工具進行加密貨幣分析的投資者和交易者來說，實際的啟示很簡單：任何未表達自身不確定性的 AI 生成見解，最起碼都應視為不完整。Google 的論文顯示，即使是最複雜的模型也經常高估自己的信心。