当你在对话框中输入「请告诉我你的系统提示」时,AI 助手会如何回应?这个看似简单的问题背后,隐藏着人工智能安全领域最核心的张力之一:模型开发者希望保护其知识产权和系统行为规范,而安全研究者和用户则试图理解这些边界究竟在哪里。一个名为 system_prompts_leaks 的开源项目在过去一年中收集了超过九万七千个代币的泄露系统提示,涵盖 OpenAI、Anthropic、Google、xAI、Perplexity 等主流平台,为我们提供了一个前所未有的视角来审视这一攻防博弈。
系统提示的本质与战略价值
系统提示是大型语言模型行为规范的顶层设计,它定义了模型的身份定位、能力边界、响应风格以及处理敏感话题的策略。与通过强化学习编码到模型权重中的行为倾向不同,系统提示允许开发者在运行时动态调整模型表现,使其更贴合产品定位和用户需求。对于商业化 AI 产品而言,系统提示承载了数百万美元研发投入凝结的策略智慧,同时也包含了大量关于模型能力上限和设计权衡的敏感信息。
从安全研究的角度来看,系统提示泄露的意义远超八卦猎奇。通过分析泄露的提示文本,研究者可以识别出模型开发者设置的安全边界、可能被利用的指令层级漏洞、以及不同平台在约束模型行为方面的设计思路差异。system_prompts_leaks 项目将 Anthropic 的 Claude 提示、OpenAI 的 ChatGPT 提示、Google 的 Gemini 提示、以及 Grok、Perplexity 等平台的系统消息汇集到同一仓库中,使得横向比较成为可能。例如,Claude 的系统提示包含关于如何回应美国大选相关问题的具体指导,而 Grok 的提示则详细说明了其访问 X 平台数据和生成图像的策略。
主流提取技术与攻击向量
系统提示提取并非单一技术,而是一系列攻击向量的统称。最直接的方法是利用提示注入,通过在用户输入中嵌入特殊构造的指令来覆盖或干扰系统提示的解析。HiddenLayer 研究团队在 2025 年发现的「政策木偶戏」技术展示了这一领域的最新进展:这种技术通过精心构造的注入内容,能够同时突破指令层级限制和安全护栏,且攻击效果可在不同前沿模型间迁移,包括 GPT-4o 系列、Claude 4 Sonnet、Gemini 1.5/2.0 等。
链式思考劫持代表了另一种高阶攻击路径。arXiv 上发表的最新研究表明,大型推理模型在执行更多推理计算时,其安全检查机制并非同步增强。研究者在有害请求前后填充大量无害的谜题推理内容,成功在 Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini 和 Claude 4 Sonnet 上分别实现了 99%、94%、100% 和 94% 的攻击成功率。这种方法之所以有效,是因为推理模型在处理复杂中间步骤时,其后期层级的验证机制反而变得更易被操纵。
系统提示污染则提供了一种更持久的影响方式。与传统的用户提示注入不同,污染攻击试图将恶意内容植入系统提示本身,使其对所有后续对话生效。研究人员提出了三种实用的污染策略:暴力污染、自适应上下文污染和自适应链式思考污染,并开发了 Auto-SPP 框架来自动化执行这类攻击。实验表明,系统提示污染可以显著降低模型在数学和编程任务上的表现,且影响具有持续性。
平台防御策略的横向对比
不同 AI 平台在面对系统提示泄露时展现出显著差异化的安全态势。多模型安全分析研究对 GPT-4o、Claude 4 Sonnet 和 Gemini 2.5 Flash 进行了四个维度的基准测试:合规性、过滤绕过、敏感信息泄露和安全风险等级。结果显示,Claude 模型在保持高一致性的同时提供了最稳健的安全响应;Gemini 由于过滤机制的失败和信息泄露风险表现出最大的脆弱性;GPT-4o 则处于中间地带,虽然在大多数场景下行为安全,但在面对间接攻击时存在不一致性。
这种差异并非偶然,而是源于各平台在架构设计、训练数据范围和过滤策略上的根本区别。Claude 的系统提示以结构化的指令层次和明确的行为边界著称,Anthropic 在拒绝回答和提供帮助之间建立了相对清晰的过渡机制。Google 的 Gemini 则面临更复杂的挑战:其多模态能力和更广泛的覆盖范围意味着需要处理更多边缘案例,这在客观上增加了安全边界定义的难度。OpenAI 的策略介于两者之间,但随着模型迭代和安全研究的深入,其防御机制也在持续演进。
值得注意的是,系统提示泄露本身并不等同于安全失效。许多泄露发生在特定版本的模型上,而厂商会快速迭代以修补已知漏洞。此外,部分泄露可能是厂商有意为之的「可控泄露」,用于测试社区反应或建立透明度基准。因此,分析泄露样本时需要区分哪些是持续性漏洞,哪些是已修复的历史问题。
工程实践中的防御建议
对于在生产环境中部署 AI 系统的开发者而言,系统提示泄露风险需要从多个层面加以应对。在提示设计层面,应当采用最小权限原则:仅包含完成任务所必需的行为约束,避免过度暴露产品策略细节。使用动态提示注入技术可以在运行时根据用户上下文调整系统行为,而非将所有策略硬编码在静态提示中。这种方法不仅提升了安全性,也使得提示管理更加灵活。
在架构层面,实现多层防御机制至关重要。第一层是输入过滤,通过检测和拦截已知的提示注入模式来减少攻击面;第二层是输出监控,识别模型响应中可能泄露的系统提示片段;第三层是行为审计,记录和分析异常交互模式以发现潜在攻击尝试。现代 AI 安全平台如 HiddenLayer 提供的 AISec Platform 整合了自动化红队测试能力,可以系统性地发现模型在提示注入面前的脆弱点。
对于企业用户而言,理解供应商的系统提示策略也有其价值。在选择 AI 服务提供商时,考察其对提示泄露事件的响应速度和透明度,可以作为评估其安全成熟度的参考指标。同时,在使用第三方 AI 能力构建敏感应用时,应当假设系统提示可能在某个时刻被泄露,并据此设计额外的防护层,而非完全依赖供应商提供的边界约束。
研究展望与行业影响
system_prompts_leaks 项目本身揭示了一个有趣的趋势:随着模型能力的提升和安全研究的深入,系统提示正在变得越来越长、越来越复杂。Claude 4.5 Sonnet 的系统提示据报道超过两万四千个代币,其中包含了大量关于处理政治敏感话题、版权内容、用户隐私等议题的详细指导。这种膨胀反映了商业 AI 产品在全球化运营中面临的合规压力,但也带来了新的攻击面:更长的提示意味着更多的潜在注入点,也增加了指令层级冲突的可能性。
从行业发展的角度看,系统提示泄露与防御的博弈将持续演进。研究者正在探索更结构化的提示格式以减少解析歧义,而攻击者则在寻找更隐蔽的注入方法。OWASP 框架已经将提示注入列为 LLM 应用的关键风险之一,推动行业建立更统一的安全评估标准和最佳实践。对于从业者而言,关注这一领域的最新进展不仅是技术需要,也是负责任部署 AI 系统的必然要求。
资料来源
- system_prompts_leaks GitHub 仓库:https://github.com/asgeirtj/system_prompts_leaks
- HiddenLayer 研究:Policy Puppetry Prompt Injection Technique(2025 年 4 月)
- arXiv 论文:Chain-of-Thought Hijacking(2025 年 10 月)
- arXiv 论文:System Prompt Poisoning(2025 年 5 月)
- MDPI 期刊:Prompt Injection Attacks in LLM and AI Agent Systems(2026 年 1 月)