Chain-of-Thought 反效果：醫療語言模型的提示詞敏感性評估

When Chain-of-Thought Backfires: Evaluating Prompt Sensitivity in Medical Language Models

arXiv cs.AI · 2026-03-30

摘要

研究人員評估了 MedGemma 模型在醫療問答任務上的穩健性，發現 Chain-of-Thought 提示反而降低準確率 5.7%，少量示例會造成 11.9% 性能下降，而改變答案選項順序會導致模型 59.1% 的時間改變預測。這項研究揭示了醫療 LLM 在生產環境中存在的重大問題——看似有幫助的提示策略實際上會削弱模型表現，這對於部署在醫療決策系統中的模型具有嚴重的安全隱患。

●開發者：醫療應用開發需警惕常見提示策略的反效果，應採用更保守的直接提示方式

●投資人：醫療 AI 的可靠性仍有重大改進空間，現有模型距離臨床部署標準仍遠

●一般用戶：醫療 AI 輔助診斷工具的可信度需更加謹慎評估，不應盲目信任模型回答

重要性評分

76/100

🟠 值得關注

提示詞工程醫療模型模型魯棒性

原文出處

上一則← 數據中心、AI 與能源：科技巨頭的擴張與全球衝突下一則James Manyika 與 LL COOL J 對話 AI 與創意 →

喜歡這篇？每天早晨還有更多。

訂閱 5min AI，讓 AI 替你追蹤整個 AI 世界。