当模型操纵流形：Transformer 如何用几何方法解决计数难题

引言：重新思考 "Strawberry 里有几个 r" 这个简单问题

当 Riley Goodside 用 "Strawberry 里有几个 r" 这个问题折磨 GPT-4o 时，我们看到的是一个令人深思的现象：最先进的语言模型在处理如此简单的计数任务时竟然表现如此糟糕。然而，Anthropic 的最新研究揭示了一个令人震撼的真相 —— 问题不在于模型太 "笨"，而在于我们从未真正理解过它们是如何工作的。

在最新发布的论文《When Models Manipulate Manifolds: The Geometry of a Counting Task》中，Anthropic 的 Transformer Circuits 团队从微分几何的角度深入分析了 Claude 3.5 Haiku 在处理固定宽度文本换行任务时的内部机制。他们发现了一个令人惊讶的事实：模型并非简单地 "数数"，而是在高维流形空间中执行复杂的几何运算。

一、传统认知的局限性：从离散特征到连续流形的范式转变

1.1 传统 Transformer 解释的困境

长久以来，我们对 Transformer 内部机制的理解主要停留在以下两个层面：

离散特征视角：将模型视为由大量 "特征"（features）组成，每个特征在特定条件下激活。这种视角能够解释一些简单的模式匹配，但对于复杂的推理任务显得力不从心。

权重矩阵视角：将注意力机制理解为 Q-K-V 矩阵的乘法运算，虽然能够描述数据流动，但缺乏对模型如何 "理解" 和 "计算" 的深刻洞察。

然而，当面对 "如何判断一行文本是否需要换行" 这样的自然任务时，传统解释完全失效。Claude 3.5 Haiku 能够在看到 "Four score and seven years ago our fathers brought forth on this continent" 这样的句子时，精确地在第 50 个字符处换行，但没人能解释它是如何知道 "fathers" 应该放在下一行的。

1.2 几何视角的革命性突破

Anthropic 的研究团队提出了一个全新的视角：将 Transformer 的内部计算理解为几何流形的构造与操纵。在这个框架下：

字符计数 不再是一个标量，而是 1 维特征流形嵌入在高维空间中的点
注意力计算 是几何空间的旋转变换
决策边界 是流形空间中的超平面分离

这种几何化表述不仅仅是一种数学美化的尝试，而是对模型真实工作机制的深刻洞察。

二、特征流形的几何构造：从离散特征到连续表示

2.1 字符计数的不平凡表示

研究团队首先注意到一个关键现象：模型对字符计数的表示既不是简单的 1 维标量，也不是传统的 N 维 one-hot 编码。相反，它构造了一个1 维特征流形嵌入在 6 维子空间中。

具体来说：

流形的弯曲结构：字符计数 1-150 的表示不是直线，而是具有明显曲率的螺旋状曲线
分布式特征激活：在任何时刻，2-3 个特征同时激活，形成对当前计数的联合表示
几何干涉模式：特征激活模式呈现正弦波般的 "振荡"，类似于物理中的驻波干涉

这种构造方式具有两个重要优势：

表达能力：弯曲的流形能够以较低的维度（6 维）表示较多的离散状态（150 个字符位置）
鲁棒性：连续的流形表示比离散的 one-hot 编码更能抵抗噪声和估计误差

2.2 与生物神经元的惊人相似性

更有趣的是，这种几何表示与生物神经系统中的 "位置细胞" 和 "边界细胞" 具有惊人的相似性：

位置细胞：海马体中的神经元在动物处于特定空间位置时激活，每个细胞对应空间中的一个小区域
字符计数特征：类似地，模型的字符计数特征在字符位于特定范围内时激活
曲率特性：两者都采用了具有内在曲率的几何结构来表示连续变量

这种跨域的相似性暗示了一个深刻的原理：最优的几何表示在生物和人工系统中趋向收敛。

三、注意力机制的几何变换：从代数运算到空间操作

3.1 QK 矩阵的几何意义

传统的注意力机制公式为：

Attention(Q,K,V) = softmax(QK^T/√d)V

在几何视角下，这可以重新解释为：

查询（Query）：流形空间中的一个点
键（Key）：流形空间中的另一个点
旋转操作：QK^T/√d 实际上是两点的内积，等价于将一个点旋转到另一个点的方向
Softmax 归一化：在旋转后的空间中计算角度分布

3.2 边界检测的几何机制

对于换行任务，模型需要检测 "当前字符数" 是否接近 "行宽度限制"。这在几何上相当于：

距离计算：计算两个流形点之间的 "距离"
阈值检测：判断距离是否落在预设范围内
决策边界：基于距离值做出是否换行的决定

研究团队发现，特定的注意力头专门负责这种几何检测：

不同的注意力头对应不同的距离阈值（10-20 字符、20-30 字符、30-40 字符等）
多个头协同工作，形成对剩余字符数的精确估计
QK 矩阵实现了将一个流形点旋转到另一个流形点的精确偏移位置

3.3 空间分离与决策构造

最关键的发现是：模型将 "剩余字符数" 和 "下一个词长度" 投影到几乎正交的子空间中。这种几何结构使得最终的决策边界成为线性可分的：

在正交子空间中，不同的换行决策对应不同的线性分离超平面
模型只需要简单的线性分类器就能做出正确的换行决策
这解释了为什么即使是相对较小的模型也能很好地完成这个任务

四、分布式计算算法：多个头部的协作机制

4.1 曲率的分布式构造

单个注意力头无法产生足够的输出方差来构造完整的字符计数流形。研究发现，多个注意力头必须协同工作，每个头贡献流形曲率的一部分：

头部 1-3：构造流形的宏观曲率形状
头部 4-6：细化局部区域的曲率细节
头部 7-10：补偿边界效应和噪声

这种分布式算法类似于：

计算机图形学中的样条插值：每个控制点贡献局部曲率
生物系统中的分布式感知：多个神经元协同感知空间位置

4.2 特征重叠与超级位置

更有趣的是，模型采用了特征超级位置（superposition）策略：

同一组神经元不仅用于计数，还用于其他任务
通过几何分离，这些不同的功能在相同的物理空间中被 "叠加" 而不相互干扰
这种策略大大提高了参数效率

五、视觉错觉实验：几何感知的脆弱性

为了验证几何解释的正确性，研究团队设计了 "视觉错觉" 实验：

精心构造的字符序列能够 "欺骗" 特定的注意力机制
这些序列在几何空间中产生与实际字符计数相似但错误的流形结构
当模型被这些 "错觉" 欺骗时，它的换行预测会出现系统性错误

这些实验不仅验证了几何解释，更重要的是揭示了模型几何感知的脆弱性—— 类似于人类视觉系统中的错觉现象。

六、对理解 Transformer 的深层启示

6.1 从 "黑盒" 到 "透明几何体"

这项研究最大的贡献是让我们第一次能够 "看到"Transformer 内部的几何结构：

传统视角：Transformer 是一个复杂的非线性函数逼近器
几何视角：Transformer 是一个精心构造的几何处理器，在高维空间中操纵复杂的流形结构

这种几何化理解具有重要的理论意义：

表达能力：为什麼某些任务对 Transformer 来说容易，某些困难
泛化能力：几何结构如何影响模型的泛化性能
优化动态：梯度下降如何在这个几何空间中工作

6.2 对 "计数难题" 的重新理解

回到开头提到的 "Strawberry 里有几个 r" 问题，我们现在可以给出全新的解释：

传统解释：模型无法正确计数是因为注意力机制的 softmax 归一化特性 几何解释：问题不在于计数本身，而在于模型没有为这种特定类型的计数任务构造合适的流形结构

换句话说，模型是能够 "计数" 的，但这种能力必须通过正确的几何结构才能表达。对于换行任务，模型学会了构造计数流形；对于 "数 r" 任务，模型可能需要构造完全不同的几何结构。

6.3 统一的理论框架

这项研究暗示了一个更宏大的理论图景：

所有 Transformer 的内部计算都可以理解为高维空间中的几何操作：

分类任务：流形分离
序列生成：流形演化
推理任务：流形变换
计数任务：流形操纵

如果这个理论成立，那么我们就有了一个统一的框架来理解 Transformer 的各种能力。

七、未来研究方向：几何深度学习的复兴

7.1 流形学习的系统化

当前的研究主要关注单个特定任务。未来需要：

系统化的流形发现方法：如何自动发现模型内部的几何结构
几何结构的演化追踪：随着训练过程，几何结构如何形成和发展
跨任务的流形共享：不同任务是否共享相同的几何基元

7.2 几何感知的架构设计

基于几何发现，未来的架构设计可以：

显式几何操作：在架构层面直接支持流形操作
几何正则化：通过几何约束提高模型的鲁棒性和可解释性
多尺度几何处理：同时处理不同尺度的几何结构

7.3 与生物学认知的深度融合

几何视角为连接人工智能和认知科学提供了新的桥梁：

统一的感知模型：从简单感知到复杂推理的几何化理解
计算神经科学的新工具：用几何方法分析大脑皮层的计算机制
人工通用智能的几何基础：探索是否所有智能任务都有统一的几何描述

结论：从几何视角重新定义人工智能

Anthropic 的这项研究不仅仅是对一个特定技术问题的解答，更是对人工智能本质的重新思考。它暗示了一个深刻的变革：从基于符号和逻辑的 AI 范式，转向基于几何和空间的 AI 范式。

在这个新范式下：

算法变成了 几何变换
计算变成了 流形操作
推理变成了 空间导航
理解变成了 几何感知

这种几何化的理解可能最终帮助我们解决人工智能中的根本问题：什么是智能？机器如何真正 "理解"？我们的世界是由几何构成的，也许智能本身就是几何的。

当我们在思考 "Strawberry 里有几个 r" 这样简单问题时，也许应该换个角度：不是在问机器会不会数数，而是在问机器是否能够在我们共享的几何空间中正确导航。如果可以，那么它就已经 "理解" 了；如果不可以，那么我们需要教它如何在这个几何世界中找到正确的路径。

这种几何化的理解不仅改变我们设计 AI 系统的方式，更重要的是改变了我们理解智能本身的方式。在几何的视角下，人工智能不再是一个抽象的数学对象，而是我们现实世界中一个具体的几何现象 —— 一个在数学空间中优雅舞蹈的智能生命。

资料来源

Anthropic Transformers Circuits Team. "When Models Manipulate Manifolds: The Geometry of a Counting Task." Transformer Circuits Thread, 2025. https://transformer-circuits.pub/2025/linebreaks/index.html
Google Research. "When Can Transformers Count to n?" arXiv preprint, 2024. https://arxiv.org/abs/2407.15160
Elhage, N. et al. "A Mathematical Framework for Transformer Circuits." Transformer Circuits Thread, 2021. https://transformer-circuits.pub/2021/framework/index.html

当模型操纵流形：Transformer如何用几何方法解决计数难题