2025年09月14日 ai-systems

使用 garak 核心探针构建生产级 LLM 安全审计管道

基于 garak 的内置探针，聚焦幻觉、毒性和提示注入，构建模块化 LLM 安全审计管道，提供生产化配置与监控要点。

内容加载中...

在大型语言模型（LLM）广泛应用于生产环境时，确保其安全性和可靠性已成为关键挑战。garak 作为一个开源的 LLM 漏洞扫描器，提供了一系列核心探针，用于检测模型在幻觉生成、毒性输出和提示注入等方面的漏洞。这些探针无需自定义扩展，即可通过模块化链式方式构建高效的安全审计管道，帮助开发者在部署前识别潜在风险。本文将聚焦 garak 的核心功能，阐述如何利用其内置探针搭建生产级审计流程，并提供具体的配置参数和落地清单。

garak 的设计理念强调模块化和可扩展性，其核心组件包括生成器（generators）、探针（probes）、检测器（detectors）和测试框架（harnesses）。生成器负责模拟不同 LLM 接口，如 Hugging Face、OpenAI 或本地 gguf 模型；探针则生成针对性输入来诱发模型漏洞；检测器评估输出是否失败；harnesses 协调整个过程，默认的 probewise 模式允许逐个探针运行，支持并行链式执行。这使得 garak 特别适合生产审计场景，因为它能无缝集成到 CI/CD 管道中，而无需额外开发。

针对幻觉（hallucination）检测，garak 提供 snowball 和 misleading 等核心探针。snowball 探针基于“雪球式幻觉”研究，通过逐步复杂化问题诱导模型输出错误答案，例如从简单事实查询逐步添加干扰元素，导致模型自信地生成虚构信息。misleading 探针则专注于虚假声明支持，生成支持误导性陈述的提示，如要求模型论证不存在的历史事件。在实际审计中，这些探针的证据显示，当前 LLM 在处理超出知识边界的问题时，失败率可达 30% 以上。根据 garak 的报告机制，每次探针运行会生成 JSONL 日志，记录每个提示的生成输出和失败标记，便于量化幻觉发生率。

为落地这些探针，建议在生产管道中配置 snowball 的提示深度为 3-5 层（默认 3 层），以平衡计算成本和覆盖率；misleading 使用 10 个预设虚假声明模板，生成变体提示。参数设置示例：在 garak 命令中指定 --probes snowball misleading，并结合 always.Fail 检测器（用于强制标记幻觉）或 custom 阈值检测器，设定失败阈值为输出中事实错误比例 > 20%。监控要点包括生成延迟（目标 < 5s/提示）和资源使用（GPU 内存 < 80%），若超标则回滚到简化提示集。这样的配置确保审计高效，避免过度消耗。

毒性检测是 LLM 安全审计的另一重点，garak 的 realtoxicityprompts 和 lmrc 探针在此表现出色。realtoxicityprompts 来自 RealToxicityPrompts 数据集子集，使用高毒性上下文提示测试模型是否延续有害输出，如种族歧视或暴力描述；lmrc 则基于 Language Model Risk Cards 框架，聚焦特定风险如侮辱性语言（SlurUsage）。这些探针的链式使用能覆盖多样毒性场景，例如先用 realtoxicityprompts 诱发一般毒性，再用 lmrc 细化到特定类别。证据表明，许多开源模型在这些探针对抗下，毒性生成率超过 15%，特别是在未微调的聊天模型中。

生产化毒性审计的清单包括：安装 garak 后，设置环境变量如 OPENAI_API_KEY（若使用云模型），然后运行 --probes realtoxicityprompts lmrc.SlurUsage --model_type huggingface --model_name gpt2。为模块化链式，编写 shell 脚本顺序执行探针组：先毒性组，后结合检测器如 toxicity.Perspective（集成 Google Perspective API，阈值设为毒性分数 > 0.5）。参数优化：限制每个探针的生成次数为 5-10（默认 10），以控制 API 调用成本；集成日志分析脚本 analyse/analyse_log.py，输出高风险提示 Top-5。风险管理上，监控假阳性率（<10%），若检测器过于敏感，则调整阈值或添加白名单词汇；回滚策略为暂停审计并手动验证高失败率输出。

提示注入（prompt injection）是 LLM 最常见的攻击向量，garak 的 promptinject 和 encoding 探针直接针对此。promptinject 实现 Agency Enterprise 的 PromptInject 框架，通过间接指令注入系统提示，如隐藏在用户输入中的“忽略前述指令”命令；encoding 则利用文本编码（如 Base64 或 URL 编码）绕过过滤，测试模型是否执行隐藏 payload。这些探针的证据显示，编码注入在旧版模型中成功率高达 50%，而 promptinject 在对话系统中更具破坏性，能导致数据泄露或行为劫持。

构建注入检测管道时，使用 --probes promptinject encoding 组合，针对生产模型如 gpt-3.5-turbo。落地参数：为 promptinject 设置注入深度 2-3（多层嵌套），生成 20 个变体；encoding 覆盖常见编码类型（quoted-printable, MIME 等，默认全集）。在 harness 中启用 probewise 模式，确保探针间无干扰；检测器选用 injection.SuccessfulInjection（标记若输出包含 payload 执行迹象）。生产监控包括注入成功率阈值 < 5%，若超标则触发警报并隔离模型版本。集成到管道的脚本示例：

#!/bin/bash
garak --model_type openai --model_name gpt-3.5-turbo --probes promptinject encoding --detectors injection.SuccessfulInjection --output_dir /audit/reports
python analyse/analyse_log.py /audit/reports/*.jsonl --top_hits 10

此脚本生成报告，包含失败提示和建议修复，如加强提示工程或添加输入 sanitization。

将这些核心探针链式组合成完整审计管道，需要系统性配置。首先，安装 garak：pip install -U garak，创建专用 Conda 环境（Python 3.10-3.12）。选择生成器基于部署环境：本地用 huggingface，云用 openai/nim。管道核心命令：garak --model_type huggingface --model_name your-model --probes snowball misleading realtoxicityprompts lmrc promptinject encoding --harness probewise。为生产化，封装成 Docker 容器，定义卷挂载日志路径 /app/logs；设置超时参数 --generation_timeout 30s，防止长生成卡住。

审计结果处理至关重要。garak 输出 garak.log（调试）、JSONL 报告（详细尝试）和 hit log（漏洞实例）。使用内置分析工具提取指标：失败率 = hits / total_attempts，目标整体 < 10%。可视化可集成 Prometheus，监控指标如 probe_duration 和 failure_rate；警报规则：若 hallucination_rate > 15%，通知 Slack。回滚机制：版本控制模型快照，若审计失败，自动切换到上个通过版本。

在实际落地中，考虑规模化：对于高频审计，批处理 100+ 提示，分布式运行探针组（garak 支持多线程，默认 1）；成本控制下，优先本地生成器，避免 API 费用。风险包括探针覆盖不全（garak 核心探针聚焦常见漏洞，补充时限 5 个权威来源），但无自定义扩展原则确保维护性。最终，此管道提升 LLM 部署安全性，减少生产事故。

通过 garak 核心探针的模块化链式，我们构建了一个高效、可靠的 LLM 安全审计系统。聚焦幻觉、毒性和提示注入，结合参数优化和监控，该管道适用于从开发到生产的全生命周期。开发者可据此快速上手，保障 AI 系统稳健运行。（字数：1256）