MedArena：比較 LLMs 在臨床實務中的表現與醫生偏好

MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences

arXiv cs.CL · 2026-03-18

摘要

研究團隊推出 MedArena 互動評估平台，讓臨床醫生直接用自己的真實病例查詢來測試和比較 LLMs 的表現。平台收集了 1,571 份醫生偏好評比資料，覆蓋 12 個模型，結果顯示 Gemini 2.0 Flash Thinking、Gemini 2.5 Pro 和 GPT-4o 排名前三。這項研究突破了靜態基準測試的限制，更真實地反映 LLMs 在臨床工作流中的實際價值。

●開發者：可參考醫療 LLM 評估方法論，優化模型在臨床決策支援場景的設計

●投資人：醫療 AI 應用市場面臨真實臨床驗證需求，具備臨床認可度的模型更具商業價值

●一般用戶：未來看病可能更多依賴 AI 輔助診斷，應認識到這些工具的優劣差異

重要性評分

76/100

🟠 值得關注

醫療 LLM臨床評估模型比較

原文出處

上一則← 安全性非組合性：基於能力的 AI 系統形式化框架下一則AI 產業的『男性俱樂部』現象恐加劇女性財富差距，Rana el Kaliouby 發出警告 →

喜歡這篇？每天早晨還有更多。

訂閱 5min AI，讓 AI 替你追蹤整個 AI 世界。