过去十二个月,因员工直接把日志、代码或客户邮件粘进 ChatGPT 而导致的泄漏事件已公开 27 起,平均修复成本 120 万美元。传统 DLP 工具聚焦邮件与 U 盘,对「AI 聊天窗口」这一新外泄通道几乎不设防。PrivacyFirewall 给出了一条零配置、零信任的本地捷径:在浏览器里先把风险内容拦下来,再决定要不要继续发送。
一、双层检测:正则秒级拦截,Transformer 兜底
PrivacyFirewall 采用「Lite Mode + AI Mode」并联架构:
-
Lite Mode(默认)
- 纯前端正则,覆盖电邮、电话、AWS Key、JWT、IPv4、MAC、信用卡、SSN、私钥块等 10 类模式。
- 事件监听
beforepaste与input,匹配即弹窗阻断,平均延迟 < 3 ms,无需任何后台进程。
-
AI Mode(可选)
- 本地 FastAPI 服务监听
127.0.0.1:8765,模型用dslim/bert-base-NER(约 400 MB)。 - 识别 PERSON、ORG、LOCATION 及上下文实体,置信度阈值 0.85,可自定义。
- 扩展通过
fetch('http://127.0.0.1:8765/detect')调用,失败自动回落到 Lite Mode,保证业务连续。
- 本地 FastAPI 服务监听
两层引擎互不依赖,却共用同一套 UI:风险卡片 + 放行按钮 +「不再提醒此站点」白名单,既不给用户添堵,也留足了审计日志。
二、五分钟落地清单
| 步骤 | 命令 / 操作 | 关键参数 |
|---|---|---|
| 1. 拉代码 | git clone https://github.com/privacyshield-ai/privacy-firewall |
主分支即稳定版 |
| 2. 启引擎 | cd src/engine && python -m venv .venv && source .venv/bin/activate && pip install -r requirements.txt && uvicorn main:app --host 127.0.0.1 --port 8765 |
端口可改,需与 extension/background.js 中的 ENGINE_URL 保持一致 |
| 3. 装扩展 | Chrome 地址栏输入 chrome://extensions → 打开「开发者模式」→「加载已解压的扩展」→ 选择 src/extension |
扩展 ID 固定,便于后续组策略推送 |
| 4. 验证 | 在 ChatGPT 输入 My email is bob@example.com → 应出现红色拦截弹窗 |
若未触发,检查正则是否被其他插件冲突 |
| 5. 调阈值 | 修改 src/engine/transformer_detector.py 中的 CONFIDENCE_THRESHOLD |
0.9 可减少误报,0.8 提高召回 |
首次运行时,模型会自动下载到 ~/.cache/huggingface/;内网机器可预先把该目录打包分发,避免在线拉取。
三、可落地参数与监控点
- 性能:正则阶段 CPU 占用 < 1 %;AI 阶段单条请求 P99 latency 220 ms(M1 MacBook Air)。
- 缓存:
HF_HOME可指向共享盘,减少重复下载;模型文件哈希写入requirements.lock,版本升级需手动审批。 - 遥测:扩展与引擎均无任何外发请求,可通过 DevTools Network 面板一键审计;如需集中日志,可改
main:app把命中日志写到本地 Syslog,再转发给 SIEM。 - 回滚:引擎离线时扩展自动降级;若新版正则误报率升高,可在
chrome://extensions里「回滚」到旧 zip 包,30 秒完成。
四、限制与风险
- 正则误报:JWT 与 Base64 随机串常撞车,建议把测试用例写入
src/engine/tests/regex_fp.json,持续调优。 - NER 漏报:短姓名(Tom、Li)置信度普遍低于 0.8,可结合上下文窗口滑动检测,或把员工花名册哈希后作为自定义字典注入模型。
- 浏览器权限:MV3 限制
background.js不能持久运行,需用offscreen文档保持长连接;企业环境若禁用localhost通信,可改走 Native Messaging 方案。 - 模型下载:400 MB 对终端没压力,但对容器化 CI 会拖慢构建,建议把模型转 ONNX 后存到内部 Artifactory,首次启动挂载只读卷。
五、结语:把「零信任」前移到键盘
PrivacyFirewall 的最大价值不是算法多先进,而是让「隐私检查」发生在数据离键之前 —— 无需改造现有业务、无需上传任何流量,就能在 AI 时代给企业与个人赢得一块本地缓冲带。先用正则挡住 80 % 的低级错误,再按需叠加本地模型,把剩下的 20 % 上下文敏感型泄漏也收回来。五分钟装完,剩下的就是安心按回车。
参考资料
[1] GitHub - privacyshield-ai/privacy-firewall: A local AI-powered DLP solution. 2025.
[2] OWASP Top 10 for Large Language Model Applications, 2025 版