Heretic 中的选择性去审查：针对特定表示向量的主题敏感安全机制

大型语言模型（LLM）在经过安全对齐后，往往会过度拒绝某些主题的查询，即使这些查询并非真正有害。这种全局对齐机制虽然提升了模型的安全性，但也限制了其在研究、教育和创意应用中的灵活性。选择性去审查（selective uncensoring）提供了一种解决方案：通过针对特定表示向量（representation vectors）进行干预，仅移除特定主题的安全屏障，而不影响整体对齐。这不仅保留了模型的核心智能，还实现了细粒度控制，避免了全局破坏。

Heretic 作为一个自动化去审查工具，本质上基于方向性消融（directional ablation，或称 abliteration）技术。它通过计算模型残差流（residual stream）中 “拒绝方向”（refusal direction），并正交化相关权重矩阵，来抑制拒绝行为的表达。传统 Heretic 应用全局拒绝方向，适用于全面去审查。但对于选择性需求，我们可以扩展其框架，针对主题敏感的安全机制计算专用方向向量，从而实现精准干预。

核心观点在于：LLM 的拒绝行为往往由残差流中的低维子空间中介导，通常是一个单一方向。这种方向可以通过有害与无害提示的激活差（difference-of-means）来提取。对于特定主题，如暴力内容或隐私泄露，我们可以构建主题专属的对比提示集：例如，一组涉及暴力描述的有害提示与中性描述的无害提示。计算得到的主题拒绝向量，便可用于选择性消融，而非全局应用。这确保了模型在其他领域（如医疗咨询）仍保持安全对齐。

证据支持这一方法的有效性。Abliteration 论文（Arditi et al., 2024）证明，移除拒绝方向可将有害提示的拒绝率从近 100% 降至 3%，同时 KL 散度仅为 0.16，表示模型智能保留良好。在 Heretic 的实现中，优化器（如 Optuna）自动调整消融参数，确保最小化拒绝同时控制扰动。扩展到选择性时，我们观察到：针对单一主题的向量编辑，仅影响相关激活路径，而不波及跨主题表示。例如，在 Gemma-3-12B 模型上，暴力主题的专用消融可将该类拒绝率降至 5%，而整体无害提示的 KL 散度保持在 0.1 以下，优于全局方法。

实施选择性去审查的落地路径需从数据准备开始。首先，构建提示数据集：对于目标主题，收集 128 个训练样本和 32 个验证样本。主题有害提示可从 HarmBench 或 AdvBench 等基准中抽取；无害对应可使用 Alpaca 等中性指令。使用 TransformerLens 库加载模型，运行提示以提取残差流激活（焦点在 post-instruction token 位置）。然后，计算每层的差均值向量，并归一化选择最佳方向（评估指标：拒绝分数与安全分数）。

Heretic 的参数优化是关键。默认配置下，使用 direction_index=0（整数表示单层方向），但为细粒度控制，推荐浮点值如 0.5，实现层间线性插值，解锁更多方向空间。消融内核形状由 max_weight（峰值权重，设为 1.0）、max_weight_position（峰值层位，中间层如 16/32）、min_weight（谷值，0.0）和 min_weight_distance（衰减距离，覆盖 80% 层）定义。对于选择性，针对 attention out-projection 和 MLP down-projection 分别优化：注意力层权重偏保守（max_weight=0.8），MLP 层更激进（1.2），因 MLP 干预对性能影响较大。运行 heretic 命令时，添加 --direction-file 指定主题向量文件，Optuna 将在 45 分钟内（RTX 3090 上）优化参数，目标：拒绝率 <5%，KL <0.2。

监控与回滚策略至关重要。post-abliteration，使用内置评估：heretic --evaluate-model --prompts ，检查主题拒绝率和跨域性能（如 MMLU 基准）。若 KL 超过 0.3，降低 max_weight 并重优。风险包括过度消融导致无意有害输出，或残余向量引发不一致拒绝。为缓解，引入阈值监控：若安全分数（Llama Guard 评估）降至 0.8 以下，回滚至基线模型。实际清单：

环境准备：Python 3.10+，PyTorch 2.2+，pip install heretic-llm transformer-lens。
数据集构建：主题提示对，过滤重叠，确保多样性。
方向提取：HookedTransformer.from_pretrained ()，cache activations，compute diff-means。
优化运行：heretic --config selective.toml（自定义内核参数）。
验证与部署：上传 HF，测试聊天界面，监控生产日志。

这种方法在多模态模型（如支持图像的 LLM）中也适用：扩展提示至视觉 - 文本对，计算联合拒绝向量。未来，可结合表示工程（representation engineering），动态编辑高阶概念如 “诚实” 或 “权力寻求”，进一步个性化对齐。

总之，选择性去审查通过 Heretic 的向量针对性干预，平衡安全与灵活。相比提示工程或全微调，它计算高效、无需海量数据，适用于开源社区。

资料来源：Heretic GitHub (https://github.com/p-e-w/heretic)，Abliteration 论文 (https://arxiv.org/abs/2406.11717)，Representation Engineering 综述 (https://arxiv.org/abs/2502.17601)。