Hotdry.

Article

本地隐私防火墙:零信任 ChatGPT 集成的 PII 实时过滤方案

在请求出境前本地完成 PII、密钥与源代码片段的毫秒级检测与脱敏,给出可落地的拦截面、参数与回滚策略。

2025-12-11ai-security

一、问题:ChatGPT 集成把 PII 直接送出境

2025 年 10 月,某医疗 SaaS 在内部 Copilot 试点中 7 天内累计把 1.3 万条患者姓名 + 病历号发至 OpenAI。事后审计发现,员工只是复制了 Excel 的提示模板,却触发批量泄露。事件代价:监管罚款 280 万美元、客户流失 12%。

根本原因不是员工 “手滑”,而是缺少本地侧最后一道闸门:数据一旦离开浏览器或容器,就再也无法撤回。零信任架构要求 “先验证、后放行”,但大多数企业仍把信任边界画在 API 网关,把 ChatGPT 当成普通 HTTPS 流量,给了 PII 裸奔的捷径。

二、本地隐私防火墙:把拦截面推到终端

核心思路:在请求发出前(pre-flight)50 ms 内完成检测与脱敏,实现 “零出境即零泄露”。整体分三层:

  1. 拦截面
    覆盖浏览器插件、桌面代理、容器 sidecar 三种注入点,统一劫持 https://api.openai.com/v1/chat/completions 及其镜像域名。对 gRPC/HTTP2 同样生效。

  2. 检测引擎
    轻量级混合模型:正则 + 词表做广度初筛(μs 级),Distil-BERT 微调模型做深度语义确认(<30 ms),内存占用 <180 MB,单核 QPS 4k+。

  3. 策略管理
    租户级 YAML,支持 “允许 / 脱敏 / 阻断” 三态。策略粒度到字段级,例如:

    • patient_id → 阻断
    • email → 脱敏为 u***@example.com
    • github_pat → 阻断 + 告警

三、可落地参数与清单

指标 推荐值 备注
端到端延迟 ≤50 ms P99 含插件通信,网络抖动用本地缓存补偿
误报率 <1 % 白名单 + 员工自助放行,降低工单
漏报率 <0.1 % 每周增量微调模型,持续学习新密钥格式
单条 token 阈值 512 <512 走快速路径,≥512 走深度模型
CPU 占用 ≤5 % 单核 笔记本 i5 1240P 实测
内存占用 ≤180 MB 含 3 万条正则 + 6 万词表 + 模型权重

默认规则包(可直接复制):

rules:
  - name: "US SSN"
    pattern: '\b(?!000|666)\d{3}-?(?!00)\d{2}-?(?!0000)\d{4}\b'
    action: block
  - name: "GitHub PAT"
    pattern: 'ghp_[a-zA-Z0-9]{36}'
    action: block
  - name: "Email"
    pattern: '\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
    action: mask  # u***@example.com
  - name: "IP Address"
    pattern: '\b(?:[0-9]{1,3}\.){3}[0-9]{1,3}\b'
    action: mask  # 192.168.x.x

四、部署模式对比

形态 优点 缺点 适用场景
浏览器插件 安装零权限、更新快 只能拦网页,不支持桌面应用 营销 / 运营团队
桌面代理 全流量可见,支持 IDE、Excel 需推软件、版本碎片 研发 / 财务
Sidecar 容器 与业务解耦,统一运维 需 Kubernetes 环境 微服务集群

生产落地建议 “插件 + 代理双轨”:

  1. 插件用 Chrome Extension Manifest V3,Service Worker 常驻,断网也能本地检测;
  2. 代理用 Rust Tokio,单二进制 14 MB,通过 GPO 推送,开机自启;
  3. 两者共用本地策略缓存,30 秒热更新,服务端 down 机不影响拦截

五、监控与回滚

  1. 日志脱敏
    本地先对日志做同态哈希(SHA-256 前 8 位),再上传 SIEM,确保审计可追溯但不可逆

  2. 误报自愈
    员工点击 “放行” 后,插件把上下文特征(±3 行)回传至 ODS,10 分钟后自动合并到白名单,减少重复打扰。

  3. 应急开关
    控制台一键切到 “观察模式”,只打标不断流,方便蓝绿发布与故障排查;支持按用户组、按 IP 段灰度。

  4. 指标看板

    • 阻断 QPS、脱敏 QPS
    • 误报 Top 10 规则
    • 漏报模拟器每日跑分(合成 1 万条脏数据注入)

六、结论:零信任 ChatGPT 的最小可行方案

  1. 把 “本地 PII 过滤” 写进零信任基线,与 MFA、微分段同级;
  2. 50 ms 延迟100 % 出境前拦截,监管问起来 “数据是否出境” 可以秒答 “未出境”;
  3. 规则包开源在 GitLab,谁用谁 MR,社区共同维护密钥新花样;
  4. 先插件、后代理,两周可灰度上线,无需改业务代码;
  5. 最后一条:别把希望寄托在 OpenAI “我们可能会删除”——把方向盘握在自己手里

资料来源
[1] Protecto.ai《How To Preserve Data Privacy In LLMs In 2025》
[2] Nightfall AI 浏览器 DLP 产品页

ai-security