Test-Time Training 削弱 AI 安全防護，攻擊成功率最高達 95%

Test-Time Training Undermines Safety Guardrails

arXiv cs.LG · 2026-05-25

摘要

研究人員發現 Test-Time Training（TTT）這種讓模型在推理時動態調整參數的新範例，存在重大安全漏洞。攻擊者可以利用三種威脅模型繞過安全過濾器，在 LoRA 微調下的攻擊成功率高達 95%，甚至轉移到生產級微調 API。這個發現揭示了現代 AI 適應機制背後隱藏的風險，對模型安全部署造成嚴峻挑戰。

●開發者：需要重新評估 TTT 應用的安全防護機制，強化推理階段的防守

●投資人：AI 安全防護工具和檢測方案成為關鍵需求

●一般用戶：已部署的 AI 應用可能面臨被繞過安全限制的風險，廠商需加強防護

重要性評分

78/100

🟠 值得關注

Test-Time TrainingAI 安全對抗攻擊

原文出處

上一則← Google 在數學能力上超越 OpenAI — 9 比 1 的優勢下一則Google I/O 2026 發佈全新 AI 訂閱方案，更強大功能、更多優惠 →

喜歡這篇？每天早晨還有更多。

訂閱 5min AI，讓 AI 替你追蹤整個 AI 世界。