注意力就是攻擊點：Attention Redistribution Attack 破解安全對齊 LLM

Attention Is Where You Attack

arXiv cs.AI · 2026-05-05

摘要

研究人員發現了一種名為 Attention Redistribution Attack（ARA）的新型對抗性攻擊方法，能透過識別安全關鍵的注意力頭，並使用非語義對抗性符號將模型的注意力從安全相關位置轉移，從而繞過 LLaMA、Mistral 和 Gemma 等主流模型的安全對齐機制。該方法僅需 5 個符號和 500 步優化即可達成 30-36% 的攻擊成功率，揭示了當前安全對齊方案在機制層面的根本脆弱性。

●開發者：需要重新審視 RLHF 和指令調優的安全防禦設計，探索更深層的機制級防護方案

●投資人：LLM 安全防禦成為新的技術競爭點，相關防禦技術和安全審計服務具有商業價值

●一般用戶：現有安全對齐可能比預期更容易被繞過，用戶需更謹慎地使用可能被惡意利用的模型

重要性評分

78/100

🟠 值得關注

對抗性攻擊注意力機制安全對齐LLM 脆弱性越獄

原文出處

上一則← 部署中的 AI Agent 安全事件：常規內容暴露導致未授權權限提升下一則審計 AI 緊急警察調度系統的人口統計偏差：11 個大型語言模型的跨語言評估 →

喜歡這篇？每天早晨還有更多。

訂閱 5min AI，讓 AI 替你追蹤整個 AI 世界。