在人工智能领域,我们习惯于将大语言模型视为 “全能选手”—— 它们似乎能够回答任何问题、完成任何任务。然而,如果剥夺模型对现代世界的全部知识,它还能做什么?近日,一个名为 Talkie 的项目给出了令人深思的答案。这个团队训练了一个仅有 13B 参数、但知识截止于 1930 年 12 月 31 日的语言模型,通过这种 “时间胶囊” 式的实验,我们得以重新审视语言模型的能力本质。
历史语料的量化与挑战
Talkie-1930-13b 的训练数据来自 2600 亿个 token 的历史英文文本,涵盖书籍、报纸、期刊、科学期刊、专利以及判例法等多种来源。团队选择 1930 年作为截止日期,是因为这是美国作品进入公共领域的时间节点。然而,将这些近一个世纪前的文本数字化并用于模型训练,远比想象中困难。
由于 1930 年尚无数字出版,所有文本都必须通过光学字符识别(OCR)从纸质材料中转录。Talkie 团队在实验中发现,使用传统 OCR 系统转录的文本训练语言模型,在相同计算量下只能达到人类转录版本 30% 的性能。通过简单的正则表达式清洗,这一数字可以提升至 70%,但仍存在显著差距。更棘手的是,现代基于视觉语言模型的 OCR 系统虽然准确率更高,但容易产生 “幻觉”,将现代事实错误地插入历史语料中,这种 “时间泄露” 问题会破坏实验的严谨性。
为解决这一问题,团队开发了文档级别的 n-gram 异常分类器来过滤可能包含时代错误的内容。尽管如此,早期的 7B 版本模型仍能正确回答 “1936 年美国总统是谁” 这类问题,说明过滤并不完美。13B 版本进一步泄露了二战和联合国等战后知识。
与现代模型的对比:能力边界的揭示
Talkie 项目最具价值的设计在于构建了一个 “现代双胞胎” 模型 —— 使用相同架构但在现代网页数据(FineWeb)上训练。这使得团队能够精确分离 “知识储备” 与 “语言能力” 的差异。在标准语言理解基准测试中,剔除时代错位的问题后,1930 版模型在核心语言理解和数学能力方面与现代模型表现相当,但在事实性知识测试中明显落后。这一发现表明,现代大语言模型的部分能力可能并非来自通用语言理解,而是直接来自训练数据中对现代事实的编码。
更有趣的是代码能力测试。团队使用 HumanEval 基准评估模型在零样本条件下的 Python 编程能力。给定了上下文示例后,完全不了解数字计算机的 1930 版模型能够解决简单的编程问题,例如实现凯撒密码的解码函数(仅需将编码函数中的加法改为减法)。这说明即使缺乏领域知识,语言模型仍能从少量示例中学习并泛化到新任务。尽管成功率远低于现代模型,但随着模型规模增大,性能呈现稳定提升趋势,这为理解语言模型的泛化机制提供了独特视角。
历史 AI 局限性的工程化测量
通过这个 “时间倒流” 的实验,我们能够工程化地测量历史 AI 的能力边界。团队评估了模型对 “未来事件” 的预测能力 —— 将《纽约时报》“今日历史” 栏目中近 5000 个历史事件描述输入模型,计算其 “惊讶度”(以每字节比特数衡量)。结果显示,模型对 1950 至 1960 年代事件的惊讶度显著上升,随后趋于平稳。这与模型规模呈何种关系、随着时间 horizon 拉长能力如何衰减,这些问题都需要更大规模的 vintage 模型来回答。
另一个重要维度是数据多样性对模型人格与行为的影响。Talkie 团队指出,现代所有大语言模型无论具体架构如何,都直接或间接地源自同一互联网训练数据。这种 “数据同质化” 可能在根本上塑造了模型的 “价值观” 和 “人格”。通过训练在不同历史语料上的模型,我们可以区分哪些行为是人类语言的通用特性,哪些仅是 Web 数据的产物。
落地参数与实践建议
对于希望进行类似历史语言模型研究的团队,以下是关键参数建议:数据截止日期的过滤应采用多层级策略 —— 文档级分类器过滤明显异常,配合随机抽样的人工审核验证池;OCR 处理流程推荐先使用高精度 VLM 系统初筛,再以规则引擎校正,并用人工抽检控制幻觉率;评估体系应区分 “核心语言能力”(如词义消歧、句法分析、数值推理)与 “知识问答”,后者需按时代相关性加权。
Talkie 团队计划在年内训练 GPT-3 级别(175B 参数左右)的 vintage 模型,并扩展语种至英语以外。如果成功,我们将首次看到一个 “1930 年代版 ChatGPT” 的能力轮廓 —— 那将是对当代 AI 最为深刻的一场逆向实验。
资料来源:本文主要信息来自 Talkie 项目官方网站(talkie-lm.com)及其发布的技术报告。