通用型大語言模型在《自然醫學》研究中表現優於專用醫療 AI 工具

iconCryptoBriefing
分享
AI summary icon精華摘要

2026 年 6 月 12 日發表於《自然醫學》的一項研究發現,通用型大型語言模型在標準化的醫療任務中持續優於專用的臨床 AI 產品,且使用這些模型的臨床醫生也更偏好它們。

該研究實際測試的內容

研究人員將三款主要的通用大語言模型與專為醫療設計的工具進行對比。一邊是 OpenAI 的 GPT-5.2、Google 的 Gemini 3.1 Pro Preview 和 Anthropic 的 Claude Opus 4.6;另一邊則是專為醫療專業人員設計和推廣的臨床產品,例如 OpenEvidence 和 UpToDate Expert AI。

競賽內容包括 MedQA 問題,這是一個廣為認可的基準,用於評估源自醫學執照考試的醫學知識。通用模型在這些任務中表現出色,擊敗了專業模型在其主場的表現。

廣告

Google 搜尋 AI 概述被作為控制組,代表醫生在繁忙輪班時實際會使用的快速參考工具。

一個不斷重複的模式

一項2025年2月的研究發現,聊天機器人在臨床決策方面的表現優於僅能使用網際網路資料的醫生。

隨後,一項於2026年2月9日發表的隨機對照研究,涵蓋了英國的1,298名參與者。單獨使用的LLM在識別醫療狀況方面達到了94.9%的準確率。然而,在醫生與LLM協作的情況下,其表現並未超越對照組。

為何這不僅限於醫療保健領域

研究人員自身指出,高基準表現與實際臨床應用之間存在差距。法規合規性、電子健康記錄整合和責任框架並未體現在 MedQA 分數中。

但臨床醫生的偏好不容忽視。如果醫生主動更傾向使用 GPT-5.2 而非為他們專門開發的工具,這就是一個市場信號,而不僅僅是研究發現。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露