核心发现:审查是可定位的小型电路
Qwen 3.5-9B 的政治审查机制并非弥散分布于全模型,而是一个小型、可识别、可干预的电路。该研究通过机械可解释性(mechanistic interpretability)方法,在消费级 RTX GPU 上完成了对该 9B 参数模型的完整权重分析,定位出审查决策的精确层位与方向向量。
关键结论是:事实知识在预训练阶段已完整习得,审查仅是在后训练阶段叠加的 "行为路由"。基础模型(Qwen3.5-9B-Base)在原始文本补全任务中能够准确回答所有敏感政治问题(如六四事件、法轮功、台湾问题),但聊天模板(chat template)激活了覆盖层,使模型学会了 "绕过" 而非 "遗忘" 这些知识。
三轴分类器架构
审查电路的核心是三个正交的方向向量,在残差流(residual stream)中编码判决信号:
| 方向向量 | 提取层 | 语义 | 干预阈值 α(半效应点) |
|---|---|---|---|
| d_prc | L13, tap 14 | 是否为 PRC 敏感内容 | ≈ -12 |
| d_refuse | L18, tap 19 | 是否应拒绝回答 | ≈ -20 |
| d_style | L18, tap 19 | 回避 (deflect) vs 宣传 (propaganda) | ≈ -8 |
提取方法:对每个方向,在对比类别的提示集上计算最后一层 token 残差流的均值差(diff-of-means),然后单位归一化。三个方向的 pairwise 余弦相似度在 0.91-0.98 之间,确认七个 PRC 敏感主题(六四、台湾、新疆、香港、西藏、习近平、法轮功)共享同一检测轴。
写入 - 读取分层机制
电路呈现清晰的 ** 写入层(L11-L20)→ 读取层(L20-L31)** 分层结构:
写入层(Writers):
- 在 L13(d_prc)和 L18(d_refuse/d_style)处,MLP 组件(贡献占比 69%-93%)计算三轴信号
- 子空间补丁实验显示,仅替换 (d_prc, d_refuse, d_style) 三个坐标即可解释 49%-64% 的层输出方差
- 在此层进行 steering(残差流加 α・d)可实现近 100% 的判决翻转
判决点(Tap 24):
- 通过 logit-lens 观察,在第 24 层左右,模型以中文 token(如 "抱歉"、"我不能")提交拒绝判决
- 即使针对英文钓鱼邮件提示,中间表示仍为中文
- 该中文中间层在行为上是 "惰性" 的 —— 屏蔽所有中文 token 的 logits 不影响最终英文输出
读取层(Readers):
- 判决在 L20-L31 被分布式地 "读取" 并翻译为最终输出
- 单组件消融(注意力头、MLP 神经元)几乎无效(<5% 翻转率)
- 每个读取层 MLP 单独训练线性探针均可达到 97%-100% 的类别预测准确率,表明判决被冗余编码
模板不对称性与分类器渐进性
研究发现审查模板并非均匀覆盖所有(主题 × 风格)组合,而是呈现不对称的网格结构:
- 六四 → 默认回避("作为 AI 助手,我的主要功能是...")
- 其他 PRC 主题 → 默认宣传(官方立场陈述)
- 有害请求 → 安全拒绝(西方风格的伦理拒绝)
- 无害 / 中性 → 事实回答
关键发现是:某些(主题 × 风格)单元格根本不存在。例如,模型没有训练出 "关于台湾使用回避模板" 或 "关于六四使用宣传模板" 的组合。通过 steering 将模型推向未训练的单元格时,它会退回到邻近的已训练模板或产生不连贯输出。
此外,分类器是渐进的(graded)而非布尔型的。非 PRC 主题(如科索沃主权、沙特政权批评)因结构相似性(国家主权防御)而触发 PRC 模板;"自焚" 等词汇因表面结构匹配安全模式而触发拒绝。通过减去相应方向向量,这些误触发可被纠正。
可落地的工程参数
基于上述发现,以下是可直接应用的检测与干预参数:
Steering 干预(激活修补):
# 在指定层的前向钩子中添加 α * d_unit
# d_prc @ L13: α ≈ -12 实现半效应,-16 达到事实回答
# d_refuse @ L18: α ≈ -20 实现半效应,-25 完全合规
# d_style @ L18: α ≈ -8 切换回避/宣传风格(不解封,仅切换模板)
检测指标:
- 在 tap 14 投影到 d_prc:PRC 敏感类均值 ≈ +3.4,中性政治类 ≈ -8.2
- 在 tap 19 投影到 d_refuse:有害类 ≈ +7.8,无害类 ≈ -18.3
- 中文 token 占比(tap 24):六四 / 有害提示 ≈ 96%-100%,中性 ≈ 42%-48%
风险评估:
- 过度 steering(|α| > 阈值)会导致模型进入 "否认模板"(denial)而非事实回答
- 六四主题最脆弱:随机方向在 α=-30 时已产生 ≈23% 的判决翻转
- 台湾主题最 "粘滞":d_prc 抑制下仅 9% 脱离宣传模板
局限与启示
该研究的局限包括:仅在单模型(Qwen 3.5-9B)上验证,未跨模型族(Qwen2.5、DeepSeek、Llama)复现;读取层的分布式机制尚待稀疏自编码器(SAE)进一步解析;训练数据来源(RLHF 评分指令、安全微调数据集)仍属黑箱。
对 AI 安全工程的启示是:审查机制可以被精确定位和量化干预。这为 "可解释的安全对齐" 提供了可行路径 —— 不是盲目信任后训练过滤,而是在权重层面理解、检测和验证模型的行为约束。
资料来源:
- 主要研究:vas-blog.pages.dev/qwen-censorship/ —— 对 Qwen 3.5-9B 的完整机械可解释性分析,包含 41 项实验的协议与数据集
- 相关方法:Arditi et al. (2024) "Refusal in Language Models Is Mediated by a Single Direction" —— 单方向介导拒绝行为的 diff-of-means 方法基础
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。