本地隐私防火墙：在请求抵达 ChatGPT 前实时拦截 PII 与密钥，零配置、零信任

过去十二个月，因员工直接把日志、代码或客户邮件粘进 ChatGPT 而导致的泄漏事件已公开 27 起，平均修复成本 120 万美元。传统 DLP 工具聚焦邮件与 U 盘，对「AI 聊天窗口」这一新外泄通道几乎不设防。PrivacyFirewall 给出了一条零配置、零信任的本地捷径：在浏览器里先把风险内容拦下来，再决定要不要继续发送。

一、双层检测：正则秒级拦截，Transformer 兜底

PrivacyFirewall 采用「Lite Mode + AI Mode」并联架构：

Lite Mode（默认）
- 纯前端正则，覆盖电邮、电话、AWS Key、JWT、IPv4、MAC、信用卡、SSN、私钥块等 10 类模式。
- 事件监听 beforepaste 与 input，匹配即弹窗阻断，平均延迟 < 3 ms，无需任何后台进程。
AI Mode（可选）
- 本地 FastAPI 服务监听 127.0.0.1:8765，模型用 dslim/bert-base-NER（约 400 MB）。
- 识别 PERSON、ORG、LOCATION 及上下文实体，置信度阈值 0.85，可自定义。
- 扩展通过 fetch('http://127.0.0.1:8765/detect') 调用，失败自动回落到 Lite Mode，保证业务连续。

两层引擎互不依赖，却共用同一套 UI：风险卡片 + 放行按钮 +「不再提醒此站点」白名单，既不给用户添堵，也留足了审计日志。

二、五分钟落地清单

步骤	命令 / 操作	关键参数
1. 拉代码	`git clone https://github.com/privacyshield-ai/privacy-firewall`	主分支即稳定版
2. 启引擎	`cd src/engine && python -m venv .venv && source .venv/bin/activate && pip install -r requirements.txt && uvicorn main:app --host 127.0.0.1 --port 8765`	端口可改，需与 `extension/background.js` 中的 `ENGINE_URL` 保持一致
3. 装扩展	Chrome 地址栏输入 `chrome://extensions` → 打开「开发者模式」→「加载已解压的扩展」→ 选择 `src/extension`	扩展 ID 固定，便于后续组策略推送
4. 验证	在 ChatGPT 输入 `My email is bob@example.com` → 应出现红色拦截弹窗	若未触发，检查正则是否被其他插件冲突
5. 调阈值	修改 `src/engine/transformer_detector.py` 中的 `CONFIDENCE_THRESHOLD`	0.9 可减少误报，0.8 提高召回

首次运行时，模型会自动下载到 ~/.cache/huggingface/；内网机器可预先把该目录打包分发，避免在线拉取。

三、可落地参数与监控点

性能：正则阶段 CPU 占用 < 1 %；AI 阶段单条请求 P99 latency 220 ms（M1 MacBook Air）。
缓存：HF_HOME 可指向共享盘，减少重复下载；模型文件哈希写入 requirements.lock，版本升级需手动审批。
遥测：扩展与引擎均无任何外发请求，可通过 DevTools Network 面板一键审计；如需集中日志，可改 main:app 把命中日志写到本地 Syslog，再转发给 SIEM。
回滚：引擎离线时扩展自动降级；若新版正则误报率升高，可在 chrome://extensions 里「回滚」到旧 zip 包，30 秒完成。

四、限制与风险

正则误报：JWT 与 Base64 随机串常撞车，建议把测试用例写入 src/engine/tests/regex_fp.json，持续调优。
NER 漏报：短姓名（Tom、Li）置信度普遍低于 0.8，可结合上下文窗口滑动检测，或把员工花名册哈希后作为自定义字典注入模型。
浏览器权限：MV3 限制 background.js 不能持久运行，需用 offscreen 文档保持长连接；企业环境若禁用 localhost 通信，可改走 Native Messaging 方案。
模型下载：400 MB 对终端没压力，但对容器化 CI 会拖慢构建，建议把模型转 ONNX 后存到内部 Artifactory，首次启动挂载只读卷。

五、结语：把「零信任」前移到键盘

PrivacyFirewall 的最大价值不是算法多先进，而是让「隐私检查」发生在数据离键之前 —— 无需改造现有业务、无需上传任何流量，就能在 AI 时代给企业与个人赢得一块本地缓冲带。先用正则挡住 80 % 的低级错误，再按需叠加本地模型，把剩下的 20 % 上下文敏感型泄漏也收回来。五分钟装完，剩下的就是安心按回车。

参考资料
[1] GitHub - privacyshield-ai/privacy-firewall: A local AI-powered DLP solution. 2025.
[2] OWASP Top 10 for Large Language Model Applications, 2025 版