審計 AI 緊急警察調度系統的人口統計偏差：11 個大型語言模型的跨語言評估

Auditing demographic bias in AI-based emergency police dispatch: a cross-lingual evaluation of eleven large language models

arXiv cs.CL · 2026-05-05

摘要

研究人員對 11 個前沿 LLM 進行跨語言審計，將警察優先調度系統建模為五級有序分類任務，測試了 19,800 個模型輸出在不同人口統計特徵（宗教外觀、性別、種族）下的公平性表現。結果顯示當事件嚴重程度不明確時，LLM 會系統性地表現出人口統計偏差，但當通話內容清楚指示操作優先級時偏差會大幅消減，不同人口統計軸向的偏差幅度存在顯著差異。

●開發者：需要在部署 LLM 於高風險公共安全系統前進行嚴格的公平性審計

●投資人：警務科技與公共安全 AI 應用須建立偏差檢測機制，關乎產品責任與法律風險

●一般用戶：緊急服務調度系統若存在隱性偏差可能影響應急回應公平性，應提高警覺

重要性評分

78/100

🟠 值得關注

AI 偏差審計大型語言模型公共安全

原文出處

上一則← 注意力就是攻擊點：Attention Redistribution Attack 破解安全對齊 LLM

喜歡這篇？每天早晨還有更多。

訂閱 5min AI，讓 AI 替你追蹤整個 AI 世界。