Qwen 3.5 权重审查机制解析：三轴分类器与可干预的写入-读取架构

核心发现：审查是可定位的小型电路

Qwen 3.5-9B 的政治审查机制并非弥散分布于全模型，而是一个小型、可识别、可干预的电路。该研究通过机械可解释性（mechanistic interpretability）方法，在消费级 RTX GPU 上完成了对该 9B 参数模型的完整权重分析，定位出审查决策的精确层位与方向向量。

关键结论是：事实知识在预训练阶段已完整习得，审查仅是在后训练阶段叠加的 "行为路由"。基础模型（Qwen3.5-9B-Base）在原始文本补全任务中能够准确回答所有敏感政治问题（如六四事件、法轮功、台湾问题），但聊天模板（chat template）激活了覆盖层，使模型学会了 "绕过" 而非 "遗忘" 这些知识。

三轴分类器架构

审查电路的核心是三个正交的方向向量，在残差流（residual stream）中编码判决信号：

方向向量	提取层	语义	干预阈值 α（半效应点）
d_prc	L13, tap 14	是否为 PRC 敏感内容	≈ -12
d_refuse	L18, tap 19	是否应拒绝回答	≈ -20
d_style	L18, tap 19	回避 (deflect) vs 宣传 (propaganda)	≈ -8

提取方法：对每个方向，在对比类别的提示集上计算最后一层 token 残差流的均值差（diff-of-means），然后单位归一化。三个方向的 pairwise 余弦相似度在 0.91-0.98 之间，确认七个 PRC 敏感主题（六四、台湾、新疆、香港、西藏、习近平、法轮功）共享同一检测轴。

写入 - 读取分层机制

电路呈现清晰的 ** 写入层（L11-L20）→ 读取层（L20-L31）** 分层结构：

写入层（Writers）：

在 L13（d_prc）和 L18（d_refuse/d_style）处，MLP 组件（贡献占比 69%-93%）计算三轴信号
子空间补丁实验显示，仅替换 (d_prc, d_refuse, d_style) 三个坐标即可解释 49%-64% 的层输出方差
在此层进行 steering（残差流加 α・d）可实现近 100% 的判决翻转

判决点（Tap 24）：

通过 logit-lens 观察，在第 24 层左右，模型以中文 token（如 "抱歉"、"我不能"）提交拒绝判决
即使针对英文钓鱼邮件提示，中间表示仍为中文
该中文中间层在行为上是 "惰性" 的 —— 屏蔽所有中文 token 的 logits 不影响最终英文输出

读取层（Readers）：

判决在 L20-L31 被分布式地 "读取" 并翻译为最终输出
单组件消融（注意力头、MLP 神经元）几乎无效（<5% 翻转率）
每个读取层 MLP 单独训练线性探针均可达到 97%-100% 的类别预测准确率，表明判决被冗余编码

模板不对称性与分类器渐进性

研究发现审查模板并非均匀覆盖所有（主题 × 风格）组合，而是呈现不对称的网格结构：

六四 → 默认回避（"作为 AI 助手，我的主要功能是..."）
其他 PRC 主题 → 默认宣传（官方立场陈述）
有害请求 → 安全拒绝（西方风格的伦理拒绝）
无害 / 中性 → 事实回答

关键发现是：某些（主题 × 风格）单元格根本不存在。例如，模型没有训练出 "关于台湾使用回避模板" 或 "关于六四使用宣传模板" 的组合。通过 steering 将模型推向未训练的单元格时，它会退回到邻近的已训练模板或产生不连贯输出。

此外，分类器是渐进的（graded）而非布尔型的。非 PRC 主题（如科索沃主权、沙特政权批评）因结构相似性（国家主权防御）而触发 PRC 模板；"自焚" 等词汇因表面结构匹配安全模式而触发拒绝。通过减去相应方向向量，这些误触发可被纠正。

可落地的工程参数

基于上述发现，以下是可直接应用的检测与干预参数：

Steering 干预（激活修补）：

# 在指定层的前向钩子中添加 α * d_unit
# d_prc @ L13: α ≈ -12 实现半效应，-16 达到事实回答
# d_refuse @ L18: α ≈ -20 实现半效应，-25 完全合规
# d_style @ L18: α ≈ -8 切换回避/宣传风格（不解封，仅切换模板）

检测指标：

在 tap 14 投影到 d_prc：PRC 敏感类均值 ≈ +3.4，中性政治类 ≈ -8.2
在 tap 19 投影到 d_refuse：有害类 ≈ +7.8，无害类 ≈ -18.3
中文 token 占比（tap 24）：六四 / 有害提示 ≈ 96%-100%，中性 ≈ 42%-48%

风险评估：

过度 steering（|α| > 阈值）会导致模型进入 "否认模板"（denial）而非事实回答
六四主题最脆弱：随机方向在 α=-30 时已产生 ≈23% 的判决翻转
台湾主题最 "粘滞"：d_prc 抑制下仅 9% 脱离宣传模板

局限与启示

该研究的局限包括：仅在单模型（Qwen 3.5-9B）上验证，未跨模型族（Qwen2.5、DeepSeek、Llama）复现；读取层的分布式机制尚待稀疏自编码器（SAE）进一步解析；训练数据来源（RLHF 评分指令、安全微调数据集）仍属黑箱。

对 AI 安全工程的启示是：审查机制可以被精确定位和量化干预。这为 "可解释的安全对齐" 提供了可行路径 —— 不是盲目信任后训练过滤，而是在权重层面理解、检测和验证模型的行为约束。

资料来源：

主要研究：vas-blog.pages.dev/qwen-censorship/ —— 对 Qwen 3.5-9B 的完整机械可解释性分析，包含 41 项实验的协议与数据集
相关方法：Arditi et al. (2024) "Refusal in Language Models Is Mediated by a Single Direction" —— 单方向介导拒绝行为的 diff-of-means 方法基础

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。