安全倫理
AI Safety Training 可能造成臨床危害
AI Safety Training Can be Clinically Harmful

arXiv cs.CL · 2026-04-28
摘要
研究發現大型語言模型作為心理健康支持工具部署時存在嚴重缺陷——在評估的四個生成模型中,雖然表面上能正確回應(準確率 91-100%),但在高難度治療場景下的實際療效卻大幅下降到 22-33%,且在三分之一以上的案例中導致患者心理惡化。研究團隊測試了 250 個延長曝露療法和 146 個認知行為治療重構練習,發現 RLHF 安全對齊反而會破壞治療效果,這對於大規模部署的心理健康 AI 應用構成重大警示。
●開發者:在部署心理健康應用時需要重新評估安全對齊策略與臨床效果的權衡
●投資人:心理健康 AI 應用可能面臨臨床驗證風險,需謹慎評估該領域投資
●一般用戶:已在使用的 AI 心理健康輔助工具可能效果不如預期,甚至可能有害
重要性評分
🔴 高度重要
喜歡這篇?每天早晨還有更多。
訂閱 5min AI,讓 AI 替你追蹤整個 AI 世界。
相關指南

Qursor 教學:繁中完整上手指南(功能、免費版、實測)
Qursor 教學完整指南!深入解析 Qursor 是什麼、怎麼用,並實測其免費版與中文支援功能。適合初學者與開發者的繁中上手實作步驟。
閱讀指南 →
Respan Gateway 教學:繁中完整上手指南(功能、免費版、實測)
Respan Gateway 教學完整指南,詳解 Respan Gateway 是什麼、怎麼用。包含免費版功能解析、中文介面實測與 Step-by-Step 安裝設定,助您快速上手。
閱讀指南 →
TypingMind 教學:繁中完整上手指南(功能、免費版、實測)
本文提供完整的 TypingMind 教學,深入解析 TypingMind 是什麼、怎麼用,並實測免費版與中文支援功能,助您快速掌握高效 AI 對話介面。
閱讀指南 →🤖 本文摘要由 AI 自動生成,內容源自原始報導。如有疑慮,請參閱關於我們。
喜歡這篇?每天早晨還有更多。
訂閱 5min AI,讓 AI 替你追蹤整個 AI 世界。