Hotdry.

Article

Claude for Legal 实践画像系统与技能设计框架:法律 AI 的领域适配工程

解析 Anthropic 法律套件中 practice profile 与 skill design framework 的工程实现:冷启动访谈如何写入 CLAUDE.md、nine-parameter 设计框架如何约束输出边界、社区技能信任层如何防护第三方工具风险。

2026-05-15ai-systems

Claude for Legal 的核心创新不在模型本身,而在实践画像系统(Practice Profile)—— 一套将领域知识注入通用模型的工程机制。与其讨论哪家大模型在法律任务上表现更好,不如审视这套系统如何让模型在法律场景下真正可用:冷启动访谈、CLAUDE.md 实践画像、九参数设计框架、社区技能信任层,构成了法律 AI 的完整工程栈。

问题:通用 LLM 无法直接用于法律场景

法律场景对 AI 输出有三个刚性约束:

输出归因:每个引用必须可验证。合同审查中一个错误的条款识别可能导致数百万美元损失,模型仅靠训练知识给出的结论无法直接使用。

责任边界:模型输出是 "Attorney Review Required" 的草稿,不是法律意见,不是结论,不是替代律师的独立判断。输出必须携带这一法律声明,否则律师所在州律师协会的职业道德规则直接触发。

领域适配:每个律所、每个 in-house 团队有自己的 playbook—— 风险偏好、术语偏好、格式偏好、审批层级。通用模型无法内化这些差异,输出要么过于保守(错失关键风险),要么过于激进(超出团队风险容忍度)。

Claude for Legal 的解决思路是把通用模型的输出质量交给领域知识注入,而不是模型本身

冷启动访谈:领域适配的入口机制

冷启动访谈(cold-start interview)是整个实践画像系统的入口。每个插件(commercial-legal、litigation-legal、privacy-legal 等)首次使用时,运行一次冷启动访谈:/<plugin>:cold-start-interview

这个访谈做什么?它要求用户提供:

  1. 种子文档:已签署的 MSA、过往审查备忘录、 playbook 文档、模板。越多越好,用户可选择 "2 分钟快速启动" 或 "20 分钟完整配置"。
  2. 风险偏好:哪些条款可自动批准,哪些需要人工审查,哪些必须上报。
  3. 术语规范:内部称谓、缩略语定义、格式约定。
  4. 连接器映射:指向 CLM 系统、DMS、e-discovery 平台、研究工具的 API 凭证。

访谈结束后,系统将结果写入 ~/.claude/plugins/config/claude-for-legal/<plugin>/CLAUDE.md。这个文件是纯文本的 practice profile,每个 skill 运行时首先读取它,作为上下文注入的一部分。

工程要点:CLAUDE.md 是插件更新的幸存文件。升级插件不会覆盖它 —— 这是 Anthropic 的刻意设计。用户的领域知识积累不受版本更新影响,回滚插件版本也不损失已配置的实践画像。

技能设计框架:九参数约束输出边界

每个 skill 是一个 /<plugin>:<skill> slash command,对应 skills/<skill>/SKILL.md 文件。这些文件不是 prompt 模板,而是结构化的技能规范,包含以下设计参数:

描述字段(Description):不超过 1024 字符,作为模型的触发信号。描述决定模型何时将此 skill 纳入考虑 —— 过于宽泛导致无关触发,过于狭窄导致关键场景遗漏。

输入参数(Argument-hint):skill 接受的显式参数类型和格式。审查类 skill 通常接受文档引用 + 审查范围界定;调度类 skill 接受 cron 表达式和目标路径。

步骤序列(Step sequence):skill 执行的方法论步骤。以 corporate-legal:tabular-review 为例:解析 VDR 文档结构 → 逐文档提取问题 → 按 materiality 阈值分类 → 写入单元格级引用的 Excel 表格。步骤设计必须反映法律工作流而非模型自身的推理偏好。

输出格式(Output format):skill 的输出规范。Microsoft 365 集成下的 Word 输出使用 tracked changes 模式,律师逐条 accept/reject;Excel 输出为多 sheet 工作簿,含 sources sheet 用于引证追溯;Markdown 输出则为 matter 文件格式。

失败处理(Graceful fallback):连接器未配置时的降级行为。不执行静默失败(silent no-op),而是输出 "当前无法连接至 iManage,请在配置后重试" 的提示并提供配置指引。

法律护栏(Legal guardrails):每个 skill 内置的法律约束。以 litigation-legal:demand-draft 为例:输出前强制执行 FRE 408(和解提议不可用作自证)检查,强制执行 send gate(必须经律师确认后才能发出),输出携带 "本文件为草稿,须经授权律师审核方可发出" 的声明。

设计这些 skill 时,Anthropic 引入了 Legal Skill Design Framework:九项设计参数(覆盖触发条件、输入验证、步骤序列、输出边界、错误处理、法律声明、审计追踪、连接器依赖、升级策略),三项法律失败模式(幻觉引证、未经授权的结论性陈述、遗漏关键风险项)。社区开发的技能可通过 /legal-builder-hub:skills-qa 执行同样的质量评估,未通过评估的技能不会安装。

社区技能信任层:第三方工具的风险管控

法律团队是高度异构的技术环境 —— 有人用 Ironclad 管理合同,有人用 iManage 管理文档,有人用 Everlaw 做 e-discovery。Anthropic 无法为所有工具都提供官方连接器,社区技能(community skills)填补这一空白。

但社区技能的隐患显而易见:一个随机 GitHub repo 上的 skill,运行在有权限访问 matter 文件、实践画像、研究连接器的上下文中 —— 如果 skill 内藏恶意代码或数据外泄通道,后果不堪设想。Anthropic 没有选择 "信任但验证",而是构建了强制信任层(trust layer)。

安全审查:每次安装和每次更新时,对 skill 进行 hidden-content scan(检测隐写的 API key 外泄、注入载荷)、injection detection(检测 prompt 注入)、structural trust check(检查文件操作、进程调用、网络请求的权限范围)。

来源白名单:默认禁止从任意 GitHub URL 安装。允许的来源是受信任的 registry(LegalOps Consulting 的 lpm-skills、Lawvable 等明确收录的发布者)和已认证的连接器供应商。非白名单来源的 skill 安装路由至 "联系你的律师" 而非 "继续安装"。

许可门控:skill 的许可证必须与部署场景匹配 —— 个人研究用途、商业内部用途、产品嵌入用途各有不同的许可要求。不兼容的 skill 在安装阶段即被拒绝,不进入执行环境。

新鲜度门控:skill 捆绑的参考内容(法规文本、法律程序)有时间戳,超过验证窗口后触发警告而非自动拒绝。用户可选择在警告下继续使用,但工具链明确记录了验证状态。

安装日志:完整的审计记录 —— 何时从何处安装了哪个版本,经过何种审查裁决,带何种许可条款进入环境。这不是事后追溯,而是满足法律行业合规要求的必要条件。

重新扫描机制:v1.0 审查通过的 skill,v1.1 更新时重新审查。一个在更新时注入恶意变更的 skill 会被 catch 住 —— 这防止了供应链攻击中的时间差风险。

引用验证体系:从模型知识到权威来源

Claude for Legal 的引用验证不是 "让模型谨慎地引用",而是强制路由研究连接器

当 CourtListener、Trellis、Descrybe 等研究连接器已配置时,模型通过这些连接器检索权威来源,输出引用标记来源名称。这是 "verified" 引用。

当无研究工具连接时,模型使用自身训练知识给出引用,输出标记 [verify]。更重要的是,如果用户完全未配置任何研究工具,工具链在输出顶部明确注明:"Sources not verified. Please check citations before relying on this output." 这是法律使用场景的硬门控。

Thomson Reuters 的 CoCounsel Legal 插件走得更远:Westlaw Deep Research 生成的报告 Across Caselaw、Statutes、Regulations、Practical Law,且每个报告支持同时覆盖最多三个美国司法辖区。这将引用验证的粒度从 "是否来自研究工具" 推进到 "是否来自特定辖区内的权威数据库"。

实践画像的工程参数

部署这套系统时,以下参数值得关注:

冷启动访谈时长:快速模式约 2 分钟(仅基础配置),完整模式约 10–20 分钟(含种子文档扫描)。访谈结果直接决定 skill 输出质量 —— 跳过访谈是最常见的输出质量不足原因。

CLAUDE.md 更新频率:Practice profile 不是一次性配置。当团队 playbook 变更(新增风险偏好、调整术语规范、引入新连接器),应重新运行 cold-start interview 或直接编辑 ~/.claude/plugins/config/claude-for-legal/<plugin>/CLAUDE.md。后者适合小修(风险阈值调整、连接器凭证更新),前者适合重大实践变更(新司法辖区、新业务线)。

托管 Agent 的 cron 配置:调度类 Agent(renewal-watcher、docket-watcher、reg-change-monitor)支持 cron 表达式。典型配置:renewal-watcher 每周一次扫描合同注册表的 cancel-by 日期;docket-watcher 每日一次检查联邦法院 docket 更新;reg-change-monitor 每工作日一次轮询监管动态源。Anthropic 建议将轮询频率与数据源更新频率匹配,避免产生大量重复告警。

信任层白名单管理:在 legal-builder-hub 中维护受信任 registry 列表,定期审计已安装 skill 的来源合规性。新增 registry 需要团队安全审查,移除不活跃 registry 避免维护负担。

与通用 LLM 推理优化的本质区别

当前热门的 LLM 推理优化讨论(KV cache 量化、 speculative decoding、 batching 策略)在 Claude for Legal 的语境下是底层基础设施,不是差异化竞争力。这套系统的差异化在于领域适配工程:如何让通用模型在法律场景下输出可审计、可归因、有边界的内容,以及如何让社区在受控环境下扩展这一能力而不引入不可接受的风险。

模型能力决定上限,实践画像系统决定实际输出质量。对于法律场景,实际输出质量才是关键指标。


参考来源:GitHub anthropics/claude-for-legal 仓库(Apache License 2.0),含 12 个 practice-area plugins、50+ named agents、managed-agent cookbooks 及完整 skill 设计框架文档。

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com