本地 PII 防火墙：OneAIFW 零配置脱敏 ChatGPT 请求

企业员工日常使用 ChatGPT 等 SaaS LLM 时，常无意中将手机号、姓名、API 密钥等 PII（个人识别信息）直接粘贴进 prompt，导致数据泄露风险居高不下。合规团队虽想 “一刀切” 禁用 LLM，但这扼杀生产力。OneAIFW 提供本地 PII 防火墙方案：在请求出网前自动脱敏敏感实体，云端仅见占位符，响应还原后数据零外泄。这不是简单正则替换，而是 NER（命名实体识别）+ Transformer 模型驱动的语义脱敏，确保语义完整性。

OneAIFW 的核心架构是 “脱敏 - 代理 - 还原” 三层管道。输入文本先经 spaCy + 微调 Transformer NER 扫描，支持姓名、手机号、邮箱、地址、银行卡、密码、私钥、验证码、URL 等 12 类实体；检测到的片段加密为结构化占位符（如 [EMAIL_1:encrypted_offset]），偏移索引防错位；脱敏后文本经本地代理（127.0.0.1:8080）转发云端 LLM；响应返回时，客户端 AES-GCM 解密还原。整个流程本地完成，云端数据不可逆还原。Rust 扩展兜底高速正则，单核 QPS 800+，GPU 下翻 3 倍，脱敏延迟 <20ms。实测 “我的邮箱是 test@example.com，手机号 138xxxxxxx，打电话咨询” → 云端见 “我的邮箱是 [EMAIL_1]，手机号 [PHONE_1]，打电话咨询”。

零配置接入是亮点，无需改 LLM 客户端代码。四种姿势任选：

浏览器插件（推荐日常）：Chrome/Edge 扩展，注入 ChatGPT/Claude 等页面，点击 “发送” 前自动拦截 prompt 脱敏。安装后一键启用，支持手动 / 自动模式，灰度开关单个站点。
系统代理：设 HTTP_PROXY=127.0.0.1:8080，所有出网请求自动代理。CLI 启动 python -m aifw server，兼容任意浏览器 / APP。企业可推系统策略强制生效。
本地 API：HTTP 服务暴露 /api/mask_text（脱敏）、/api/restore_text（还原）、/api/call（端到端代理 LLM）。集成自家 AI 应用：POST /api/call {model: "gpt-4o", messages: [...] }，返回脱敏响应。Docker 一键部署。
CLI：pip install oneaifw，python -m aifw call "敏感 prompt"，脚本 / 自动化首选。

可落地参数清单，直接复制生产：

端口配置：代理 8080，API 8000，Web UI 7860（Gradio）。冲突时 --port 8081。
并发阈值：默认 100 QPS，--max_workers 200 调高。监控内存：NER 模型 1.2GB，Rust 线程池 4 核起步。
脱敏阈值：confidence >0.85 才替换，可 --min_conf 0.9 严苛。自定义实体：JSON 规则文件加正则 / 关键词。
告警与日志：JSON 日志 /var/log/oneaifw，--log_level DEBUG。Webhook 告警高敏脱敏事件：curl -d '{"event":"PII_detected","entities": [...]}' https://alert.enterprise.com。
灰度策略：白名单模式 --whitelist_domains chatgpt.com,claude.ai，黑名单用户 / 进程。企业 DLP 联动：预处理脚本串联 Skyflow/Presidio。
监控点：Prometheus 指标 /metrics：desensitize_latency_ms (P95<50ms)、hit_rate (脱敏比例 > 5%)、restore_errors (零容忍)。回滚：--dry_run 模拟模式验证。

部署参数示例（Docker）：

docker run -p 8080:8080 -v ~/.oneaifw:/data oneaifw/oneaifw:latest --enable_gpu --cache_dir /data/models

局限需知：NER 对嵌套中文姓名（如 “张三（CEO）”）或自定义密钥（如 base64 blob）漏检率～3%，高敏场景配人工抽检或企业规则库。还原攻击面：客户端篡改占位符，防以代码签名 + 进程白名单（如 Windows AppLocker）。无网络依赖，离线模式全靠本地模型。

与传统 DLP（如 Microsoft Purview）联动：OneAIFW 专注 LLM prompt，Purview 管文件 / 邮件；串联用 API 预过滤。最终，这不是 “防 AI”，而是 “赋能 AI”：员工放心 brainstorm，安全团队从 “灭火” 变 “护航”。开源 MIT，体积 50MB，开箱即用，企业自研零成本。

资料来源： [1] 掘金：《不敢把个人信息喂给 AI？OneAIFW 简单搞定隐私保护！》“脱敏：将发给大模型的文字中的隐私数据替换为结构化占位符。” [2] OneAIFW GitHub 仓库。

ai-security

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。