新聞 9 / 12

安全倫理

被破解的 Frontier 模型仍能保持性能

Jailbroken Frontier Models Retain Their Capabilities

被破解的 Frontier 模型仍能保持性能

arXiv cs.LG · 2026-05-04

摘要

研究人員發現越來越複雜的 jailbreak 攻擊不再顯著降低大型語言模型的性能。在對 Claude Haiku 4.5 到 Opus 4.6 的測試中,性能衰減與模型能力成反比——能力越強的模型受影響越小,Opus 4.6 在最強 jailbreak 下僅損失 7.7% 性能。這表明高級模型已能在被破解後仍維持核心能力,對 AI 安全防護的有效性提出重要問題。

開發者:需要重新評估模型安全防護的實際邊界與局限性

投資人:高端模型仍具有強韌性,但安全防護成本持續上升值得關注

一般用戶:高端模型即使被惡意利用也能保持可靠性

重要性評分

76/100

🟠 值得關注

模型安全jailbreak 攻擊Claude
原文出處
上一則FinSafetyBench:評估 LLM 在真實金融場景中的安全性下一則為什麼 LLMs 在策略性遊戲中表現不佳?觀察、信念與行動之間的斷裂

喜歡這篇?每天早晨還有更多。

訂閱 5min AI,讓 AI 替你追蹤整個 AI 世界。

相關指南

🤖 本文摘要由 AI 自動生成,內容源自原始報導。如有疑慮,請參閱關於我們

喜歡這篇?每天早晨還有更多。

訂閱 5min AI,讓 AI 替你追蹤整個 AI 世界。