AI Safety Training 可能造成臨床危害

AI Safety Training Can be Clinically Harmful

arXiv cs.CL · 2026-04-28

摘要

研究發現大型語言模型作為心理健康支持工具部署時存在嚴重缺陷——在評估的四個生成模型中，雖然表面上能正確回應（準確率 91-100%），但在高難度治療場景下的實際療效卻大幅下降到 22-33%，且在三分之一以上的案例中導致患者心理惡化。研究團隊測試了 250 個延長曝露療法和 146 個認知行為治療重構練習，發現 RLHF 安全對齊反而會破壞治療效果，這對於大規模部署的心理健康 AI 應用構成重大警示。

●開發者：在部署心理健康應用時需要重新評估安全對齊策略與臨床效果的權衡

●投資人：心理健康 AI 應用可能面臨臨床驗證風險，需謹慎評估該領域投資

●一般用戶：已在使用的 AI 心理健康輔助工具可能效果不如預期，甚至可能有害

重要性評分

82/100

🔴 高度重要

LLM 安全心理健康應用臨床有效性

原文出處

下一則DeepMind 研究員 David Silver 創立新公司，融資 11 億美元開發無需人類數據的 AI →

喜歡這篇？每天早晨還有更多。

訂閱 5min AI，讓 AI 替你追蹤整個 AI 世界。