引言:重新思考"Strawberry里有几个r"这个简单问题
当Riley Goodside用"Strawberry里有几个r"这个问题折磨GPT-4o时,我们看到的是一个令人深思的现象:最先进的语言模型在处理如此简单的计数任务时竟然表现如此糟糕。然而,Anthropic的最新研究揭示了一个令人震撼的真相——问题不在于模型太"笨",而在于我们从未真正理解过它们是如何工作的。
在最新发布的论文《When Models Manipulate Manifolds: The Geometry of a Counting Task》中,Anthropic的Transformer Circuits团队从微分几何的角度深入分析了Claude 3.5 Haiku在处理固定宽度文本换行任务时的内部机制。他们发现了一个令人惊讶的事实:模型并非简单地"数数",而是在高维流形空间中执行复杂的几何运算。
一、传统认知的局限性:从离散特征到连续流形的范式转变
长久以来,我们对Transformer内部机制的理解主要停留在以下两个层面:
离散特征视角:将模型视为由大量"特征"(features)组成,每个特征在特定条件下激活。这种视角能够解释一些简单的模式匹配,但对于复杂的推理任务显得力不从心。
权重矩阵视角:将注意力机制理解为Q-K-V矩阵的乘法运算,虽然能够描述数据流动,但缺乏对模型如何"理解"和"计算"的深刻洞察。
然而,当面对"如何判断一行文本是否需要换行"这样的自然任务时,传统解释完全失效。Claude 3.5 Haiku能够在看到"Four score and seven years ago our fathers brought forth on this continent"这样的句子时,精确地在第50个字符处换行,但没人能解释它是如何知道" fathers"应该放在下一行的。
1.2 几何视角的革命性突破
Anthropic的研究团队提出了一个全新的视角:将Transformer的内部计算理解为几何流形的构造与操纵。在这个框架下:
- 字符计数 不再是一个标量,而是1维特征流形嵌入在高维空间中的点
- 注意力计算 是几何空间的旋转变换
- 决策边界 是流形空间中的超平面分离
这种几何化表述不仅仅是一种数学美化的尝试,而是对模型真实工作机制的深刻洞察。
二、特征流形的几何构造:从离散特征到连续表示
2.1 字符计数的不平凡表示
研究团队首先注意到一个关键现象:模型对字符计数的表示既不是简单的1维标量,也不是传统的N维one-hot编码。相反,它构造了一个1维特征流形嵌入在6维子空间中。
具体来说:
- 流形的弯曲结构:字符计数1-150的表示不是直线,而是具有明显曲率的螺旋状曲线
- 分布式特征激活:在任何时刻,2-3个特征同时激活,形成对当前计数的联合表示
- 几何干涉模式:特征激活模式呈现正弦波般的"振荡",类似于物理中的驻波干涉
这种构造方式具有两个重要优势:
- 表达能力:弯曲的流形能够以较低的维度(6维)表示较多的离散状态(150个字符位置)
- 鲁棒性:连续的流形表示比离散的one-hot编码更能抵抗噪声和估计误差
2.2 与生物神经元的惊人相似性
更有趣的是,这种几何表示与生物神经系统中的"位置细胞"和"边界细胞"具有惊人的相似性:
- 位置细胞:海马体中的神经元在动物处于特定空间位置时激活,每个细胞对应空间中的一个小区域
- 字符计数特征:类似地,模型的字符计数特征在字符位于特定范围内时激活
- 曲率特性:两者都采用了具有内在曲率的几何结构来表示连续变量
这种跨域的相似性暗示了一个深刻的原理:最优的几何表示在生物和人工系统中趋向收敛。
三、注意力机制的几何变换:从代数运算到空间操作
3.1 QK矩阵的几何意义
传统的注意力机制公式为:
Attention(Q,K,V) = softmax(QK^T/√d)V
在几何视角下,这可以重新解释为:
- 查询(Query):流形空间中的一个点
- 键(Key):流形空间中的另一个点
- 旋转操作:QK^T/√d 实际上是两点的内积,等价于将一个点旋转到另一个点的方向
- Softmax归一化:在旋转后的空间中计算角度分布
3.2 边界检测的几何机制
对于换行任务,模型需要检测"当前字符数"是否接近"行宽度限制"。这在几何上相当于:
- 距离计算:计算两个流形点之间的"距离"
- 阈值检测:判断距离是否落在预设范围内
- 决策边界:基于距离值做出是否换行的决定
研究团队发现,特定的注意力头专门负责这种几何检测:
- 不同的注意力头对应不同的距离阈值(10-20字符、20-30字符、30-40字符等)
- 多个头协同工作,形成对剩余字符数的精确估计
- QK矩阵实现了将一个流形点旋转到另一个流形点的精确偏移位置
3.3 空间分离与决策构造
最关键的发现是:模型将"剩余字符数"和"下一个词长度"投影到几乎正交的子空间中。这种几何结构使得最终的决策边界成为线性可分的:
- 在正交子空间中,不同的换行决策对应不同的线性分离超平面
- 模型只需要简单的线性分类器就能做出正确的换行决策
- 这解释了为什么即使是相对较小的模型也能很好地完成这个任务
四、分布式计算算法:多个头部的协作机制
4.1 曲率的分布式构造
单个注意力头无法产生足够的输出方差来构造完整的字符计数流形。研究发现,多个注意力头必须协同工作,每个头贡献流形曲率的一部分:
- 头部1-3:构造流形的宏观曲率形状
- 头部4-6:细化局部区域的曲率细节
- 头部7-10:补偿边界效应和噪声
这种分布式算法类似于:
- 计算机图形学中的样条插值:每个控制点贡献局部曲率
- 生物系统中的分布式感知:多个神经元协同感知空间位置
4.2 特征重叠与超级位置
更有趣的是,模型采用了特征超级位置(superposition)策略:
- 同一组神经元不仅用于计数,还用于其他任务
- 通过几何分离,这些不同的功能在相同的物理空间中被"叠加"而不相互干扰
- 这种策略大大提高了参数效率
五、视觉错觉实验:几何感知的脆弱性
为了验证几何解释的正确性,研究团队设计了"视觉错觉"实验:
- 精心构造的字符序列能够"欺骗"特定的注意力机制
- 这些序列在几何空间中产生与实际字符计数相似但错误的流形结构
- 当模型被这些"错觉"欺骗时,它的换行预测会出现系统性错误
这些实验不仅验证了几何解释,更重要的是揭示了模型几何感知的脆弱性——类似于人类视觉系统中的错觉现象。
6.1 从"黑盒"到"透明几何体"
这项研究最大的贡献是让我们第一次能够"看到"Transformer内部的几何结构:
- 传统视角:Transformer是一个复杂的非线性函数逼近器
- 几何视角:Transformer是一个精心构造的几何处理器,在高维空间中操纵复杂的流形结构
这种几何化理解具有重要的理论意义:
- 表达能力:为什麼某些任务对Transformer来说容易,某些困难
- 泛化能力:几何结构如何影响模型的泛化性能
- 优化动态:梯度下降如何在这个几何空间中工作
6.2 对"计数难题"的重新理解
回到开头提到的"Strawberry里有几个r"问题,我们现在可以给出全新的解释:
传统解释:模型无法正确计数是因为注意力机制的softmax归一化特性
几何解释:问题不在于计数本身,而在于模型没有为这种特定类型的计数任务构造合适的流形结构
换句话说,模型是能够"计数"的,但这种能力必须通过正确的几何结构才能表达。对于换行任务,模型学会了构造计数流形;对于"数r"任务,模型可能需要构造完全不同的几何结构。
6.3 统一的理论框架
这项研究暗示了一个更宏大的理论图景:
所有Transformer的内部计算都可以理解为高维空间中的几何操作:
- 分类任务:流形分离
- 序列生成:流形演化
- 推理任务:流形变换
- 计数任务:流形操纵
如果这个理论成立,那么我们就有了一个统一的框架来理解Transformer的各种能力。
七、未来研究方向:几何深度学习的复兴
7.1 流形学习的系统化
当前的研究主要关注单个特定任务。未来需要:
- 系统化的流形发现方法:如何自动发现模型内部的几何结构
- 几何结构的演化追踪:随着训练过程,几何结构如何形成和发展
- 跨任务的流形共享:不同任务是否共享相同的几何基元
7.2 几何感知的架构设计
基于几何发现,未来的架构设计可以:
- 显式几何操作:在架构层面直接支持流形操作
- 几何正则化:通过几何约束提高模型的鲁棒性和可解释性
- 多尺度几何处理:同时处理不同尺度的几何结构
7.3 与生物学认知的深度融合
几何视角为连接人工智能和认知科学提供了新的桥梁:
- 统一的感知模型:从简单感知到复杂推理的几何化理解
- 计算神经科学的新工具:用几何方法分析大脑皮层的计算机制
- 人工通用智能的几何基础:探索是否所有智能任务都有统一的几何描述
结论:从几何视角重新定义人工智能
Anthropic的这项研究不仅仅是对一个特定技术问题的解答,更是对人工智能本质的重新思考。它暗示了一个深刻的变革:从基于符号和逻辑的AI范式,转向基于几何和空间的AI范式。
在这个新范式下:
- 算法 变成了 几何变换
- 计算 变成了 流形操作
- 推理 变成了 空间导航
- 理解 变成了 几何感知
这种几何化的理解可能最终帮助我们解决人工智能中的根本问题:什么是智能?机器如何真正"理解"?我们的世界是由几何构成的,也许智能本身就是几何的。
当我们在思考"Strawberry里有几个r"这样简单问题时,也许应该换个角度:不是在问机器会不会数数,而是在问机器是否能够在我们共享的几何空间中正确导航。如果可以,那么它就已经"理解"了;如果不可以,那么我们需要教它如何在这个几何世界中找到正确的路径。
这种几何化的理解不仅改变我们设计AI系统的方式,更重要的是改变了我们理解智能本身的方式。在几何的视角下,人工智能不再是一个抽象的数学对象,而是我们现实世界中一个具体的几何现象——一个在数学空间中优雅舞蹈的智能生命。
资料来源
-
Anthropic Transformers Circuits Team. "When Models Manipulate Manifolds: The Geometry of a Counting Task." Transformer Circuits Thread, 2025. https://transformer-circuits.pub/2025/linebreaks/index.html
-
Google Research. "When Can Transformers Count to n?" arXiv preprint, 2024. https://arxiv.org/abs/2407.15160
-
Elhage, N. et al. "A Mathematical Framework for Transformer Circuits." Transformer Circuits Thread, 2021. https://transformer-circuits.pub/2021/framework/index.html