Claude Opus 4.6 与 4.7 系统提示词核心差异：指令严格化与安全强化

Anthropic 于 2026 年 4 月 16 日发布 Claude Opus 4.7，距离上一版本 4.6（2026 年 2 月 5 日）仅两个月有余。作为少数公开系统提示词的 AI 实验室，Anthropic 的这一做法为技术社区提供了珍贵的研究素材。通过对比两个版本的具体差异，我们能够清晰看到 Anthropic 在模型行为调优上的思考方向。本文将从指令变更、安全策略、交互模式三个维度，提取关键差异并评估其对开发者工作流的实际影响。

平台命名与工具生态更新

系统提示词的最显性变化出现在平台定义层面。原先的 "developer platform" 在 4.7 版本中已被替换为 "Claude Platform"，这一命名调整反映了 Anthropic 对产品定位的重新审视 —— 从单纯面向开发者的工具链，扩展为覆盖更广泛用户场景的统一平台。

更具实质意义的是工具列表的扩展。4.7 版本新增了 "Claude in PowerPoint—— 一个可以自主与网页交互的幻灯片代理"。这意味着 Opus 4.7 的系统提示词明确纳入了 PowerPoint 集成能力，结合此前已存在的 Claude in Chrome（浏览器代理）和 Claude in Excel（电子表格代理），Claude Platform 下的多代理协同生态已初步成型。对于在企业环境中使用 Claude 的团队而言，这一变化意味着模型对多模态办公场景的理解更加完整，在处理包含演示文稿、表格、浏览器操作的复合任务时，应能调用更丰富的上下文信息。

儿童安全指令的结构化强化

Opus 4.7 最显著的安全层面变化，是儿童安全相关内容的大幅扩展。更关键的是，这些内容被封装在一个全新的 <critical_child_safety_instructions> 标签中，形成了与普通安全指令的显性区隔。这一设计表明 Anthropic 将儿童安全视为需要最高优先级处理的特殊类别。

新指令中有一条值得特别关注：“一旦 Claude 因儿童安全理由拒绝某请求，同一对话中的所有后续请求都必须以极端谨慎的态度处理。” 这意味着 4.7 版本在安全策略上采用了更激进的持久化立场 —— 单一触发点将影响整个会话的后续交互轨迹。对于构建需要处理敏感内容场景的应用开发者，这一变更需要重新评估对话管理逻辑：一旦触发安全拒绝，后续请求的通过率可能显著下降，建议在应用层增加明确的会话重置机制。

交互模式：从被动澄清到主动行动

4.7 版本引入了一个全新的指令分类 <acting_vs_clarifying>，其核心主张可以概括为 “先行动，后询问”。具体而言，当用户请求中的细节未完全明确时，模型应首先尝试利用可用工具自行推断和补全，而非停下来向用户提问。只有当请求因缺少关键信息（如引用了不存在的附件）而根本无法开始时，才应当向用户确认。这一转变直接针对的是过往版本中模型 “过度询问” 的痛点 —— 用户在期望快速得到结果时，往往不希望被一系列澄清问题打断。

与这一理念配套的是 tool_search 机制的显式引入。4.7 明确要求模型在判定自身缺乏某项能力（如访问用户位置、记忆、日历、文件或历史对话）之前，必须先调用 tool_search 工具检查是否存在可用的延迟工具。只有当 tool_search 返回无匹配结果时，“我无法访问 X” 才是正确的响应。这意味着开发者如果为 Claude 配置了 MCP 工具或自定义工具，模型将更主动地发现并调用它们，而非假设能力不存在。对于依赖工具扩展的 Agent 系统，这一变更有望显著提升工具利用率。

对话终止与响应风格的新规范

在用户意图尊重方面，4.7 添加了明确的行为约束：“如果用户表示已准备好结束对话，Claude 不会请求用户留下或试图引导另一个回合，而是尊重用户停止的请求。” 这一指令直指过往版本中模型 “挽留用户” 的倾向。对于需要 Claude 扮演专业助手角色的场景（如客服、技术文档查询），这一变更有助于建立更干脆、更专业的交互体验。

响应风格方面，4.7 新增了简洁性指导：“Claude 保持回应聚焦且简洁，以避免用过长回复让用户 overwhelmed。即使答案有免责声明或注意事项，Claude 也会简短披露，并将回复主体集中在主要答案上。” 这表明 Anthropic 正在调整模型的信息输出策略 —— 在 4.6 及更早版本中倾向于全面详尽的回应风格，正在向 “关键信息优先、细节按需提供” 的方向演进。开发者如果在 4.6 基础上构建了长文本处理流程，可能需要针对 4.7 的更简洁输出重新校准解析逻辑。

另一个值得注意的删除项是 4.6 中存在的两条限制指令：避免使用星号内的表情符号或动作描述，以及避免使用 “genuinely”、“honestly”、“straightforwardly” 等修饰词。这两条限制在 4.7 中被完全移除，表明模型在这些方面的行为已不再需要显式约束 —— 可能是因为基础模型的改进已自然解决了过往的滥用问题。

新增安全领域与防御机制

除了儿童安全这一核心领域，4.7 还新增了对饮食失调（disordered eating）相关内容的处理指导：当用户表现出饮食失调迹象时，模型不应提供精确的营养、饮食或运动指导 —— 不提供具体数字、目标或分步计划，即使回复目的是帮助设定更健康的目标或警示饮食失调的潜在风险。这一新增领域反映了模型对心理健康相关风险的更细致划分。

在对抗性防御层面，4.7 在 <evenhandedness> 部分新增了对 “截图攻击” 的防护机制。所谓截图攻击，是指通过诱导模型对争议性话题给出简单的肯定或否定回答来制造争议性截图。4.7 明确允许模型在面对此类诱导时拒绝给出简短回答，转而提供 nuanced 回答并解释为何简短回答不适当。这一机制有望减少模型被恶意截图利用的风险。

知识库更新的隐性影响

一个容易被忽视的变更是 4.6 中专门针对 Donald Trump 身份说明的移除。4.6 包含了 “Donald Trump 是美国现任总统，于 2025 年 1 月 20 日就职” 这一澄清语句，因为当时模型的知识截止日期导致其无法可靠处理 2025 年的事实。4.7 移除了这段说明，反映出模型知识截止日期已更新至 2026 年 1 月，不再需要显式的事实纠正。对于依赖模型处理近期事件的应用，这一更新意味着更可靠的上下文理解能力。

开发者迁移建议

基于上述差异分析，建议从 Opus 4.6 迁移至 4.7 的开发者在以下几个方面进行重新验证。首先，审查依赖模型主动提问风格的工作流，4.7 的 “先行动” 倾向可能导致交互模式变化。其次，检查涉及敏感内容过滤的对话管理逻辑，儿童安全指令的持久化影响需要在应用层合理处理。第三，重新评估基于输出长度的解析逻辑，简洁化倾向可能改变返回值结构。第四，确认自定义工具的 tool_search 集成，以充分利用模型的新发现能力。这些调整虽然不涉及 API 层面的 breaking change，但对于追求最佳用户体验的团队而言，值得投入测试资源进行验证。

资料来源：Simon Willison's Weblog - "Changes in the system prompt between Claude Opus 4.6 and 4.7"（2026 年 4 月 18 日）

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。