LLM Tujuan Umum Melampaui Alat AI Perubatan Khusus dalam Kajian Nature Medicine

Satu kajian yang diterbitkan pada 12 Jun 2026 dalam Nature Medicine mendapati bahawa model bahasa besar tujuan umum secara konsisten melebihi produk AI klinikal khusus dalam tugas perubatan berstandard. Model tujuan umum juga lebih disukai oleh klinikus yang menggunakannya.

Apa yang sebenarnya diuji oleh kajian tersebut

Para penyelidik menguji tiga model LLM generik utama melawan alat perubatan yang direka khusus. Di satu pihak: GPT-5.2 milik OpenAI, Gemini 3.1 Pro Preview milik Google, dan Claude Opus 4.6 milik Anthropic. Di pihak lain: produk klinikal khusus seperti OpenEvidence dan UpToDate Expert AI, alat-alat yang direka dan dipasarkan secara khusus untuk profesional kesihatan.

Medan pertempuran termasuk soalan MedQA, tolok ukur yang telah mapan untuk menilai pengetahuan perubatan yang ditarik daripada peperiksaan lesen perubatan. Model generik unggul dalam tugas-tugas ini, mengalahkan pakar di medan mereka sendiri.

Google Search AI Overview dimasukkan sebagai kawalan, mewakili alat rujukan pantas yang sebenarnya digunakan oleh doktor semasa shift yang sibuk.

Pola yang berulang-ulang

Sebuah kajian pada Februari 2025 mendapati bahawa chatbot berprestasi lebih baik daripada doktor yang dibatasi kepada rujukan internet untuk pengambilan keputusan klinikal.

Kemudian, sebuah kajian terkawal rawak diterbitkan pada 9 Februari 2026, yang melibatkan 1,298 peserta di UK. LLM berdiri sendiri mencapai ketepatan 94.9% dalam mengenal pasti keadaan perubatan. Prestasi kolaboratif, di mana doktor bekerja bersama LLM, tidak melebihi kumpulan kawalan.

Mengapa ini penting selain dalam bidang kesihatan

Penyelidik sendiri mengenal pasti jurang antara prestasi piawai tinggi dan kesesuaian klinikal dunia nyata. Kepatuhan peraturan, integrasi rekod kesihatan elektronik, dan kerangka tanggungjawab tidak muncul dalam skor MedQA.

Namun, keutamaan klinikus sukar untuk diabaikan. Jika doktor secara aktif lebih suka menggunakan GPT-5.2 berbanding alat yang dibina khas untuk mereka, itu adalah isyarat pasaran, bukan sekadar dapatan penyelidikan.