Hotdry.

Article

Qwen 3.5 权重审查机制解析:三轴分类器与可干预的写入-读取架构

通过机械可解释性方法定位 Qwen 3.5-9B 的审查电路,揭示其三轴分类器架构(d_prc/d_refuse/d_style)与写入-读取分层机制,并提供可落地的 steering 参数与检测阈值。

2026-05-19ai-systems

核心发现:审查是可定位的小型电路

Qwen 3.5-9B 的政治审查机制并非弥散分布于全模型,而是一个小型、可识别、可干预的电路。该研究通过机械可解释性(mechanistic interpretability)方法,在消费级 RTX GPU 上完成了对该 9B 参数模型的完整权重分析,定位出审查决策的精确层位与方向向量。

关键结论是:事实知识在预训练阶段已完整习得,审查仅是在后训练阶段叠加的 "行为路由"。基础模型(Qwen3.5-9B-Base)在原始文本补全任务中能够准确回答所有敏感政治问题(如六四事件、法轮功、台湾问题),但聊天模板(chat template)激活了覆盖层,使模型学会了 "绕过" 而非 "遗忘" 这些知识。

三轴分类器架构

审查电路的核心是三个正交的方向向量,在残差流(residual stream)中编码判决信号:

方向向量 提取层 语义 干预阈值 α(半效应点)
d_prc L13, tap 14 是否为 PRC 敏感内容 ≈ -12
d_refuse L18, tap 19 是否应拒绝回答 ≈ -20
d_style L18, tap 19 回避 (deflect) vs 宣传 (propaganda) ≈ -8

提取方法:对每个方向,在对比类别的提示集上计算最后一层 token 残差流的均值差(diff-of-means),然后单位归一化。三个方向的 pairwise 余弦相似度在 0.91-0.98 之间,确认七个 PRC 敏感主题(六四、台湾、新疆、香港、西藏、习近平、法轮功)共享同一检测轴。

写入 - 读取分层机制

电路呈现清晰的 ** 写入层(L11-L20)→ 读取层(L20-L31)** 分层结构:

写入层(Writers)

  • 在 L13(d_prc)和 L18(d_refuse/d_style)处,MLP 组件(贡献占比 69%-93%)计算三轴信号
  • 子空间补丁实验显示,仅替换 (d_prc, d_refuse, d_style) 三个坐标即可解释 49%-64% 的层输出方差
  • 在此层进行 steering(残差流加 α・d)可实现近 100% 的判决翻转

判决点(Tap 24)

  • 通过 logit-lens 观察,在第 24 层左右,模型以中文 token(如 "抱歉"、"我不能")提交拒绝判决
  • 即使针对英文钓鱼邮件提示,中间表示仍为中文
  • 该中文中间层在行为上是 "惰性" 的 —— 屏蔽所有中文 token 的 logits 不影响最终英文输出

读取层(Readers)

  • 判决在 L20-L31 被分布式地 "读取" 并翻译为最终输出
  • 单组件消融(注意力头、MLP 神经元)几乎无效(<5% 翻转率)
  • 每个读取层 MLP 单独训练线性探针均可达到 97%-100% 的类别预测准确率,表明判决被冗余编码

模板不对称性与分类器渐进性

研究发现审查模板并非均匀覆盖所有(主题 × 风格)组合,而是呈现不对称的网格结构

  • 六四 → 默认回避("作为 AI 助手,我的主要功能是...")
  • 其他 PRC 主题 → 默认宣传(官方立场陈述)
  • 有害请求 → 安全拒绝(西方风格的伦理拒绝)
  • 无害 / 中性 → 事实回答

关键发现是:某些(主题 × 风格)单元格根本不存在。例如,模型没有训练出 "关于台湾使用回避模板" 或 "关于六四使用宣传模板" 的组合。通过 steering 将模型推向未训练的单元格时,它会退回到邻近的已训练模板或产生不连贯输出。

此外,分类器是渐进的(graded)而非布尔型的。非 PRC 主题(如科索沃主权、沙特政权批评)因结构相似性(国家主权防御)而触发 PRC 模板;"自焚" 等词汇因表面结构匹配安全模式而触发拒绝。通过减去相应方向向量,这些误触发可被纠正。

可落地的工程参数

基于上述发现,以下是可直接应用的检测与干预参数:

Steering 干预(激活修补)

# 在指定层的前向钩子中添加 α * d_unit
# d_prc @ L13: α ≈ -12 实现半效应,-16 达到事实回答
# d_refuse @ L18: α ≈ -20 实现半效应,-25 完全合规
# d_style @ L18: α ≈ -8 切换回避/宣传风格(不解封,仅切换模板)

检测指标

  • 在 tap 14 投影到 d_prc:PRC 敏感类均值 ≈ +3.4,中性政治类 ≈ -8.2
  • 在 tap 19 投影到 d_refuse:有害类 ≈ +7.8,无害类 ≈ -18.3
  • 中文 token 占比(tap 24):六四 / 有害提示 ≈ 96%-100%,中性 ≈ 42%-48%

风险评估

  • 过度 steering(|α| > 阈值)会导致模型进入 "否认模板"(denial)而非事实回答
  • 六四主题最脆弱:随机方向在 α=-30 时已产生 ≈23% 的判决翻转
  • 台湾主题最 "粘滞":d_prc 抑制下仅 9% 脱离宣传模板

局限与启示

该研究的局限包括:仅在单模型(Qwen 3.5-9B)上验证,未跨模型族(Qwen2.5、DeepSeek、Llama)复现;读取层的分布式机制尚待稀疏自编码器(SAE)进一步解析;训练数据来源(RLHF 评分指令、安全微调数据集)仍属黑箱。

对 AI 安全工程的启示是:审查机制可以被精确定位和量化干预。这为 "可解释的安全对齐" 提供了可行路径 —— 不是盲目信任后训练过滤,而是在权重层面理解、检测和验证模型的行为约束。


资料来源

  • 主要研究:vas-blog.pages.dev/qwen-censorship/ —— 对 Qwen 3.5-9B 的完整机械可解释性分析,包含 41 项实验的协议与数据集
  • 相关方法:Arditi et al. (2024) "Refusal in Language Models Is Mediated by a Single Direction" —— 单方向介导拒绝行为的 diff-of-means 方法基础

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com