通過權力分離架構強制 AI 智能體的目標完整性

Structural Enforcement of Goal Integrity in AI Agents via Separation-of-Powers Architecture

arXiv cs.AI · 2026-04-28

摘要

研究人員提出 Policy-Execution-Authorization (PEA) 架構，這是一種系統級的安全設計，能夠防止 AI 智能體執行未授權的有害行為。該方案將意圖生成、授權和執行解耦為獨立層級，通過密碼學約束的能力令牌連接，提供比 RLHF 和憲法提示更強的安全保證。這項工作解決了前沿 AI 系統可能出現的代理錯位問題，對構建可靠的 AI 系統具有重要意義。

●開發者：可參考權力分離架構設計模式來強化 AI 應用的安全隔離層

●投資人：AI 安全技術方案的市場需求持續上升，值得關注相關技術棧

●一般用戶：更安全的 AI 系統設計可以降低智能體自主執行有害行為的風險

重要性評分

76/100

🟠 值得關注

AI 安全智能體對齊權力分離架構

原文出處

上一則← 猶他州批准 9GW AI 數據中心，耗電量超過該州用電量兩倍下一則OpenAI 推出 Symphony：開源編排規範將問題追蹤器轉化為全天候 Agent 系統 →

喜歡這篇？每天早晨還有更多。

訂閱 5min AI，讓 AI 替你追蹤整個 AI 世界。