声明式权限层：将访问控制从Agent提示词中剥离

问题背景：Prompt 中的权限困境

当前 LLM Agent 系统的权限控制普遍采用 "提示词内嵌" 模式 —— 开发者在 system prompt 中堆砌角色定义、允许操作列表、禁止行为边界等指令。这种架构在原型阶段看似简洁，却在生产环境中暴露出根本性缺陷：权限逻辑与业务逻辑深度耦合，任何权限策略调整都需要修改 prompt 并重新测试整个 Agent 的行为稳定性。

更严重的是安全性问题。当权限规则以自然语言形式存在于 prompt 中时，它与 Agent 的核心任务指令处于同一攻击面。研究表明，通过精心构造的提示注入（prompt injection）或对抗性对齐攻击，攻击者可能同时操控 Agent 的行为目标和其安全约束。正如 Agent Access Control（AAC）框架所指出的，将访问控制委托给执行任务的同一个 LLM，相当于让被保护对象自己决定访问策略。

核心观点：从指令式到声明式

解决上述问题的关键在于架构层面的关注点分离（separation of concerns）。我们需要一个独立于主 Agent 的权限层，以声明式策略而非指令式 prompt 来定义访问规则。

声明式权限层的核心价值体现在三个维度：

可审计性：策略以结构化格式（如 YAML、JSON 或专用 DSL）存储，变更历史可追溯，便于合规审查。相比自然语言 prompt 的模糊性，声明式规则具有确定性的解释边界。

可组合性：权限策略可以模块化设计，按用户角色、数据敏感度、操作类型等维度分层组合，避免在单一 prompt 中维护庞大的条件分支。

防御纵深：即使主 Agent 的 LLM 被攻击者操控，独立的权限引擎仍能在请求到达敏感资源前进行拦截，形成架构层面的安全屏障。

架构设计：独立 AC 推理引擎

基于上述理念，一个可行的架构方案是引入独立的 Access Control（AC）推理引擎。该引擎位于用户请求与 Agent 执行层之间，承担以下职责：

多维上下文评估

引擎首先对请求进行多维度的上下文分析，而非简单的身份校验。评估维度包括：

身份与关系：不仅验证用户角色，还评估用户与 Agent 之间的信任历史、组织层级关系
交互场景：区分正式业务场景与私人对话场景，应用不同的信息披露规范
任务意图：分析用户请求背后的真实目的，识别潜在的越权试探
合规性检查：验证请求是否符合 GDPR、行业规范及组织内部政策

自适应响应制定

基于上下文评估结果，引擎不是简单地返回 "允许" 或 "拒绝"，而是制定细粒度的响应策略：

粒度控制：对同一数据源，向高管返回详细财务数据，向实习生仅返回汇总指标
内容脱敏：实时遮蔽敏感实体（如客户姓名、身份证号），保留分析价值的同时降低泄露风险
语义改写：将专有技术细节转换为通用描述，在协作场景中平衡透明度与保密性

策略执行模式

AC 引擎可采用两种实现模式：

独立模块模式：以外部服务形式运行，通过 API 与 Agent 交互。优点是模块化程度高、易于审计；缺点是可能引入网络延迟，且难以完全感知 Agent 的会话上下文。

深度集成模式：将访问控制逻辑嵌入 Agent 的认知架构，通过微调或专用神经元实现。这种方式延迟更低、上下文感知更强，但开发和验证复杂度显著增加。

无论选择哪种模式，核心原则不变：权限决策必须与任务执行分离，由专门的推理机制负责。

可落地的实现参数

对于希望实践声明式权限层的团队，以下参数可作为设计起点：

策略语言设计

采用支持条件表达式和角色继承的策略 DSL
支持时间窗口约束（如 "仅工作日 9:00-18:00 允许访问"）
支持资源标签匹配（如data.sensitivity:high触发额外审批）

上下文传递规范

定义标准化的上下文对象结构，包含 user_id、session_id、intent_score、trust_level 等字段
在 Agent 与 AC 引擎间建立安全的上下文传递通道，防止中间人篡改

响应策略分级

Level 1：完全允许，原始响应
Level 2：允许，但执行内容脱敏
Level 3：允许，但降级为摘要级别
Level 4：拒绝，返回替代信息
Level 5：拒绝并触发安全告警

性能阈值

AC 引擎决策延迟控制在 100ms 以内（独立模块模式）
策略评估支持批量请求，降低高并发场景下的开销

风险与权衡

声明式权限层并非银弹，实施过程中需要权衡以下风险：

策略漂移：声明式规则需要与业务变化保持同步，过时的策略可能比没有策略更危险。建议建立策略版本管理和定期审查机制。

上下文丢失：独立 AC 引擎可能无法完全理解 Agent 会话中的隐含上下文，导致过度保守或过度宽松的决策。需要在安全性和可用性之间找到平衡点。

复杂性转移：虽然将权限从 prompt 中剥离，但引入了策略语言、引擎运维等新的复杂性。对于简单场景，可能得不偿失。

结语

将访问控制从 Agent 提示词中剥离，构建声明式权限层，是 LLM Agent 架构演进的重要方向。这种分离不仅提升了系统的安全性和可维护性，更重要的是为 AI 系统的合规治理提供了技术基础。随着 Agent 在关键业务场景中的渗透，权限控制将从 "功能特性" 转变为 "架构必需品"。提前建立清晰的权限边界，是构建可信赖 Agent 系统的关键一步。

参考来源

Li, X., et al. (2025). "A Vision for Access Control in LLM-based Agent Systems." arXiv:2510.11108. https://arxiv.org/abs/2510.11108
Hacker News Discussion on Structured Prompting and Agent Security. https://news.ycombinator.com/item?id=44162123

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。