大型語言模型中的事實意見能否被編輯（操縱）？

Can Factual Opinions Be Edited (Manipulated) in Large Language Models?

arXiv cs.CL · 2026-06-03

摘要

研究人員發現現有的知識編輯技術存在嚴重漏洞，能被用來操縱 LLM 中對公眾人物的記錄立場與觀點。這類操縱可能重塑公眾形象、影響選舉決策、改變社會輿論，威脅極大。團隊推出 FOE 基準測試，涵蓋 261 位公眾人物與 2,178 條觀點記錄，驗證當前編輯方法在處理事實意見時往往只能進行表面改動，難以保證編輯後的意見與模型生成的支持證據相互一致。

●開發者：需重新審視知識編輯技術的安全邊界，設計更嚴格的一致性驗證機制

●投資人：LLM 安全治理成為未來競爭力，投資方案應納入輿論操縱風險評估

●一般用戶：對 LLM 生成內容的可信度應保持警惕，尤其是涉及政治人物立場的資訊

重要性評分

78/100

🟠 值得關注

知識編輯大型語言模型事實核查AI 安全輿論操縱風險

原文出處

上一則← 多倫多大學研究人員展示 AI 蠕蟲可攻擊任何在線設備下一則Microsoft 在 Build 大會上推進自主 AI 戰略 →

喜歡這篇？每天早晨還有更多。

訂閱 5min AI，讓 AI 替你追蹤整個 AI 世界。