问题背景:Prompt 中的权限困境
当前 LLM Agent 系统的权限控制普遍采用 "提示词内嵌" 模式 —— 开发者在 system prompt 中堆砌角色定义、允许操作列表、禁止行为边界等指令。这种架构在原型阶段看似简洁,却在生产环境中暴露出根本性缺陷:权限逻辑与业务逻辑深度耦合,任何权限策略调整都需要修改 prompt 并重新测试整个 Agent 的行为稳定性。
更严重的是安全性问题。当权限规则以自然语言形式存在于 prompt 中时,它与 Agent 的核心任务指令处于同一攻击面。研究表明,通过精心构造的提示注入(prompt injection)或对抗性对齐攻击,攻击者可能同时操控 Agent 的行为目标和其安全约束。正如 Agent Access Control(AAC)框架所指出的,将访问控制委托给执行任务的同一个 LLM,相当于让被保护对象自己决定访问策略。
核心观点:从指令式到声明式
解决上述问题的关键在于架构层面的关注点分离(separation of concerns)。我们需要一个独立于主 Agent 的权限层,以声明式策略而非指令式 prompt 来定义访问规则。
声明式权限层的核心价值体现在三个维度:
可审计性:策略以结构化格式(如 YAML、JSON 或专用 DSL)存储,变更历史可追溯,便于合规审查。相比自然语言 prompt 的模糊性,声明式规则具有确定性的解释边界。
可组合性:权限策略可以模块化设计,按用户角色、数据敏感度、操作类型等维度分层组合,避免在单一 prompt 中维护庞大的条件分支。
防御纵深:即使主 Agent 的 LLM 被攻击者操控,独立的权限引擎仍能在请求到达敏感资源前进行拦截,形成架构层面的安全屏障。
架构设计:独立 AC 推理引擎
基于上述理念,一个可行的架构方案是引入独立的 Access Control(AC)推理引擎。该引擎位于用户请求与 Agent 执行层之间,承担以下职责:
多维上下文评估
引擎首先对请求进行多维度的上下文分析,而非简单的身份校验。评估维度包括:
- 身份与关系:不仅验证用户角色,还评估用户与 Agent 之间的信任历史、组织层级关系
- 交互场景:区分正式业务场景与私人对话场景,应用不同的信息披露规范
- 任务意图:分析用户请求背后的真实目的,识别潜在的越权试探
- 合规性检查:验证请求是否符合 GDPR、行业规范及组织内部政策
自适应响应制定
基于上下文评估结果,引擎不是简单地返回 "允许" 或 "拒绝",而是制定细粒度的响应策略:
- 粒度控制:对同一数据源,向高管返回详细财务数据,向实习生仅返回汇总指标
- 内容脱敏:实时遮蔽敏感实体(如客户姓名、身份证号),保留分析价值的同时降低泄露风险
- 语义改写:将专有技术细节转换为通用描述,在协作场景中平衡透明度与保密性
策略执行模式
AC 引擎可采用两种实现模式:
独立模块模式:以外部服务形式运行,通过 API 与 Agent 交互。优点是模块化程度高、易于审计;缺点是可能引入网络延迟,且难以完全感知 Agent 的会话上下文。
深度集成模式:将访问控制逻辑嵌入 Agent 的认知架构,通过微调或专用神经元实现。这种方式延迟更低、上下文感知更强,但开发和验证复杂度显著增加。
无论选择哪种模式,核心原则不变:权限决策必须与任务执行分离,由专门的推理机制负责。
可落地的实现参数
对于希望实践声明式权限层的团队,以下参数可作为设计起点:
策略语言设计
- 采用支持条件表达式和角色继承的策略 DSL
- 支持时间窗口约束(如 "仅工作日 9:00-18:00 允许访问")
- 支持资源标签匹配(如
data.sensitivity:high触发额外审批)
上下文传递规范
- 定义标准化的上下文对象结构,包含 user_id、session_id、intent_score、trust_level 等字段
- 在 Agent 与 AC 引擎间建立安全的上下文传递通道,防止中间人篡改
响应策略分级
- Level 1:完全允许,原始响应
- Level 2:允许,但执行内容脱敏
- Level 3:允许,但降级为摘要级别
- Level 4:拒绝,返回替代信息
- Level 5:拒绝并触发安全告警
性能阈值
- AC 引擎决策延迟控制在 100ms 以内(独立模块模式)
- 策略评估支持批量请求,降低高并发场景下的开销
风险与权衡
声明式权限层并非银弹,实施过程中需要权衡以下风险:
策略漂移:声明式规则需要与业务变化保持同步,过时的策略可能比没有策略更危险。建议建立策略版本管理和定期审查机制。
上下文丢失:独立 AC 引擎可能无法完全理解 Agent 会话中的隐含上下文,导致过度保守或过度宽松的决策。需要在安全性和可用性之间找到平衡点。
复杂性转移:虽然将权限从 prompt 中剥离,但引入了策略语言、引擎运维等新的复杂性。对于简单场景,可能得不偿失。
结语
将访问控制从 Agent 提示词中剥离,构建声明式权限层,是 LLM Agent 架构演进的重要方向。这种分离不仅提升了系统的安全性和可维护性,更重要的是为 AI 系统的合规治理提供了技术基础。随着 Agent 在关键业务场景中的渗透,权限控制将从 "功能特性" 转变为 "架构必需品"。提前建立清晰的权限边界,是构建可信赖 Agent 系统的关键一步。
参考来源
- Li, X., et al. (2025). "A Vision for Access Control in LLM-based Agent Systems." arXiv:2510.11108. https://arxiv.org/abs/2510.11108
- Hacker News Discussion on Structured Prompting and Agent Security. https://news.ycombinator.com/item?id=44162123
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。