新聞 12 / 12

安全倫理

敘述勝於數據:大型語言模型中的「可識別受害者效應」及其在對齊與推理下的放大

Narrative over Numbers: The Identifiable Victim Effect and its Amplification Under Alignment and Reasoning in Large Language Models

敘述勝於數據:大型語言模型中的「可識別受害者效應」及其在對齊與推理下的放大

arXiv cs.CL · 2026-04-15

摘要

研究人員首次系統性調查大型語言模型(LLMs)是否會重現人類道德推理中的「可識別受害者效應」——即傾向於幫助具體敘述的個體勝於統計數據描述的群體。該研究涵蓋 Google、Anthropic、OpenAI、Meta 等 9 個組織的 16 個前沿模型,共進行 51,955 次 API 試驗,發現 LLMs 確實會出現這種認知偏誤,且在對齊與推理能力增強後反而更加顯著,這對於人道主義分類、補助評估和內容審核等應用場景有重要啟示。

開發者:需重視模型在道德決策場景中的隱性偏誤,設計時應考慮對抗此類認知扭曲

投資人:LLMs 在高風險決策領域(如資源分配、審核)的可靠性存疑,相關垂直應用需更謹慎評估

一般用戶:LLM 驅動的助赈應用、審核系統可能因敘述框架而做出不公平決定,應提高警覺

重要性評分

76/100

🟠 值得關注

可識別受害者效應LLM偏誤道德推理模型對齐
原文出處
上一則Sam Altman 遭襲事件警示 AI 世界面臨的極端風險

喜歡這篇?每天早晨還有更多。

訂閱 5min AI,讓 AI 替你追蹤整個 AI 世界。

相關指南

🤖 本文摘要由 AI 自動生成,內容源自原始報導。如有疑慮,請參閱關於我們

喜歡這篇?每天早晨還有更多。

訂閱 5min AI,讓 AI 替你追蹤整個 AI 世界。