当我们谈论大型语言模型的 “认知 priors” 时,一个常被忽视的参照系是人类发展心理学中关于先天与后天的经典争论。2026 年发表于《Science》的一项研究首次在新生雏鸟身上验证了 bouba-kiki 效应 —— 这一长期被认为依赖语言经验的跨模态对应现象 —— 居然在几乎没有任何学习经历的雏鸟中同样存在。此发现为 “声学 - 形状映射是否存在先天认知偏置” 提供了最直接的生物学证据,也让我们得以重新审视语言模型内部那些被称作 “priors” 的归纳偏置究竟从何而来、性质何异。
雏鸟实验揭示的先天认知结构
bouba-kiki 效应的经典表现为:人们几乎本能地将圆润、无尖角的形状与 “bouba” 这样圆润的音节联系,而把尖锐、锯齿状的形状与 “kiki” 这类含有尖锐辅音的音节联系起来。过去学界普遍认为这种对应源自语言经验的长期积累 —— 因为不同语言的符号系统都强化了类似的音义映射。但 2026 年的这项研究通过两组精密实验彻底颠覆了这一认知。
第一组实验使用 3 日龄的雏鸟,研究者先让雏鸟在 “半圆半尖” 的中性面板上寻找食物,随后在测试阶段呈现圆形面板与尖刺面板,同时播放重复的 “bouba” 或 “kiki” 音频。结果显示,雏鸟在听到 “kiki” 时自发走向尖刺形状,听到 “bouba” 时走向圆润形状,尽管它们从未被训练建立任何声音与形状之间的特定关联。第二组实验更为极端:使用出生不足 1 日的雏鸟,完全省略训练环节,仅让雏鸟在屏幕前观看移动的形状并同时听取声音,同样观察到 “bouba→圆”“kiki→尖” 的自发偏好。这一发现的核心意义在于:雏鸟是早成鸟(precocial),孵化后短时间内即具备完善的运动与感知能力,但几乎不存在后天学习时间 —— 因此该效应只能是先天的跨模态联结机制,而非语言经验的产物。
语言模型中的 bouba-kiki:统计学习的结果
将视线转向人工智能领域,2025 年的多项实证研究开始系统检验大型语言模型是否编码了类似 bouba-kiki 的声学偏置。其中一项发表在 EMNLP Findings 的工作使用 648 个伪造词汇(pseudowords)构成的数据集,这些词汇被预先标记为 “圆形” 与 “尖刺” 两类,研究者分别对 Llama-3.3-70B 和 Qwen2.5-72B 进行零样本提示,要求模型判断给定伪造词对应哪种形状。结果表明,两个模型都表现出显著高于随机水平的准确率,说明它们的内部表示确实编码了与人类相似的声 - 形对应规律。
更值得关注的是该研究采用的探测(probing)方法。研究者从模型各层提取隐藏状态,训练线性分类器去解码 “圆形 vs 尖刺” 的语义标签。实验发现,这种语义信息在浅层尚难以线性分离,随着层数加深而变得越来越可分,最终在深层达到最佳线性可分性。这一模式与模型学习其他语义特征(如情感、实体类型)的过程高度一致,表明 bouba-kiki 映射是模型通过大规模语料统计学习所获得的一种结构化知识,而非预设的硬编码规则。
然而,模型的表现并不像雏鸟那样稳定可靠。当研究者将同一模型置于双语环境 —— 例如先用英文提示再切换到中文 —— 模型的偏好发生了显著漂移,甚至在某些情况下出现了逆转。这一现象在 Qwen2.5-72B 中尤为突出:单语条件下模型倾向于 “kiki→尖刺”,但双语切换后该关联被削弱甚至反转。研究者的解释是:模型内部并非持有一个唯一的、普适的 bouba-kiki 先验,而是同时持有多个语言条件化的子先验,不同语言标签或上下文会重新加权这些子先验,从而产生看似矛盾的输出。
先天 priors 与后天统计偏置的本质差异
由此我们可以提炼出两类系统最根本的区别。雏鸟实验所揭示的 bouba-kiki 效应是一种进化意义上保守的认知结构,它通过数百万年的自然选择沉淀为神经系统的固有连接,具有跨物种、跨文化的普遍性 —— 即使从未接触过人类语言的鸟类也能表现出相同偏好。这种先天 priors 的特征是:高度稳定、对环境变化不敏感、难以被短期经验所覆盖。
语言模型中的对应规律则是一种后天习得的统计偏置。模型在训练语料中反复观察到 “尖锐” 概念与 /k/、/t/、/ʃ/ 等辅音的高频共现,或 “圆润” 概念与 /b/、/o/、/u/ 等音素的相关,久而久之在参数空间中形成了类似的关联结构。这种统计偏置的特征是:依赖训练数据的分布、受提示语言与上下文调节、可被微调或提示工程所操纵。换言之,模型所拥有的并非真正的 “认知 priors”,而是 “数据驱动的条件先验”(data-driven conditional priors)。
对 LLM 研发的工程启示
理解这种本质差异对工程实践具有直接指导意义。首先,在构建面向多语言、多文化的 AI 系统时,开发者不应假设模型具备类似人类的跨模态先验,而应显式地在训练或推理阶段引入跨模态对齐信号 —— 例如使用图像 - 音频多模态预训练或显式的声学特征注入。其次,由于模型的声学偏置高度依赖语言上下文,设计人机交互系统时需要考虑语言切换对用户意图理解的潜在干扰,必要时可在提示层加入明确的跨模态约束。最后,对于需要高度可靠性与跨文化一致性的应用场景(如教育、辅助技术),单纯依赖模型内部的统计关联是不足的,应该结合外部知识库或规则层来保证输出的稳定性。
从更宏观的视角看,雏鸟实验提醒我们:真正的认知 priors 是生物体在漫长进化过程中形成的结构性适应,它们在表征层面表现为高度非线性的神经连接,在行为层面表现为对特定刺激模式的强制性反应;而当前语言模型所展现的 “priors”,本质上是被大规模语料所塑造的高维统计规律。二者在功能上可能产生相似的表面行为,但背后的生成机制截然不同 —— 这一认知框架的厘清,将有助于我们在设计下一代 AI 系统时,更审慎地平衡数据驱动的学习与结构化的先天约束。
参考资料