敘述勝於數據：大型語言模型中的「可識別受害者效應」及其在對齊與推理下的放大

Narrative over Numbers: The Identifiable Victim Effect and its Amplification Under Alignment and Reasoning in Large Language Models

arXiv cs.CL · 2026-04-15

摘要

研究人員首次系統性調查大型語言模型（LLMs）是否會重現人類道德推理中的「可識別受害者效應」——即傾向於幫助具體敘述的個體勝於統計數據描述的群體。該研究涵蓋 Google、Anthropic、OpenAI、Meta 等 9 個組織的 16 個前沿模型，共進行 51,955 次 API 試驗，發現 LLMs 確實會出現這種認知偏誤，且在對齊與推理能力增強後反而更加顯著，這對於人道主義分類、補助評估和內容審核等應用場景有重要啟示。

●開發者：需重視模型在道德決策場景中的隱性偏誤，設計時應考慮對抗此類認知扭曲

●投資人：LLMs 在高風險決策領域（如資源分配、審核）的可靠性存疑，相關垂直應用需更謹慎評估

●一般用戶：LLM 驅動的助赈應用、審核系統可能因敘述框架而做出不公平決定，應提高警覺

重要性評分

76/100

🟠 值得關注

可識別受害者效應LLM偏誤道德推理模型對齐

原文出處

上一則← Sam Altman 遭襲事件警示 AI 世界面臨的極端風險

喜歡這篇？每天早晨還有更多。

訂閱 5min AI，讓 AI 替你追蹤整個 AI 世界。