被破解的 Frontier 模型仍能保持性能

Jailbroken Frontier Models Retain Their Capabilities

arXiv cs.LG · 2026-05-04

摘要

研究人員發現越來越複雜的 jailbreak 攻擊不再顯著降低大型語言模型的性能。在對 Claude Haiku 4.5 到 Opus 4.6 的測試中，性能衰減與模型能力成反比——能力越強的模型受影響越小，Opus 4.6 在最強 jailbreak 下僅損失 7.7% 性能。這表明高級模型已能在被破解後仍維持核心能力，對 AI 安全防護的有效性提出重要問題。

●開發者：需要重新評估模型安全防護的實際邊界與局限性

●投資人：高端模型仍具有強韌性，但安全防護成本持續上升值得關注

●一般用戶：高端模型即使被惡意利用也能保持可靠性

重要性評分

76/100

🟠 值得關注

模型安全jailbreak 攻擊Claude

原文出處

上一則← FinSafetyBench：評估 LLM 在真實金融場景中的安全性下一則為什麼 LLMs 在策略性遊戲中表現不佳？觀察、信念與行動之間的斷裂 →

喜歡這篇？每天早晨還有更多。

訂閱 5min AI，讓 AI 替你追蹤整個 AI 世界。