用13B参数重建1930年代语言模型：量化历史语料与能力边界评估

在人工智能领域，我们习惯于将大语言模型视为 “全能选手”—— 它们似乎能够回答任何问题、完成任何任务。然而，如果剥夺模型对现代世界的全部知识，它还能做什么？近日，一个名为 Talkie 的项目给出了令人深思的答案。这个团队训练了一个仅有 13B 参数、但知识截止于 1930 年 12 月 31 日的语言模型，通过这种 “时间胶囊” 式的实验，我们得以重新审视语言模型的能力本质。

历史语料的量化与挑战

Talkie-1930-13b 的训练数据来自 2600 亿个 token 的历史英文文本，涵盖书籍、报纸、期刊、科学期刊、专利以及判例法等多种来源。团队选择 1930 年作为截止日期，是因为这是美国作品进入公共领域的时间节点。然而，将这些近一个世纪前的文本数字化并用于模型训练，远比想象中困难。

由于 1930 年尚无数字出版，所有文本都必须通过光学字符识别（OCR）从纸质材料中转录。Talkie 团队在实验中发现，使用传统 OCR 系统转录的文本训练语言模型，在相同计算量下只能达到人类转录版本 30% 的性能。通过简单的正则表达式清洗，这一数字可以提升至 70%，但仍存在显著差距。更棘手的是，现代基于视觉语言模型的 OCR 系统虽然准确率更高，但容易产生 “幻觉”，将现代事实错误地插入历史语料中，这种 “时间泄露” 问题会破坏实验的严谨性。

为解决这一问题，团队开发了文档级别的 n-gram 异常分类器来过滤可能包含时代错误的内容。尽管如此，早期的 7B 版本模型仍能正确回答 “1936 年美国总统是谁” 这类问题，说明过滤并不完美。13B 版本进一步泄露了二战和联合国等战后知识。

与现代模型的对比：能力边界的揭示

Talkie 项目最具价值的设计在于构建了一个 “现代双胞胎” 模型 —— 使用相同架构但在现代网页数据（FineWeb）上训练。这使得团队能够精确分离 “知识储备” 与 “语言能力” 的差异。在标准语言理解基准测试中，剔除时代错位的问题后，1930 版模型在核心语言理解和数学能力方面与现代模型表现相当，但在事实性知识测试中明显落后。这一发现表明，现代大语言模型的部分能力可能并非来自通用语言理解，而是直接来自训练数据中对现代事实的编码。

更有趣的是代码能力测试。团队使用 HumanEval 基准评估模型在零样本条件下的 Python 编程能力。给定了上下文示例后，完全不了解数字计算机的 1930 版模型能够解决简单的编程问题，例如实现凯撒密码的解码函数（仅需将编码函数中的加法改为减法）。这说明即使缺乏领域知识，语言模型仍能从少量示例中学习并泛化到新任务。尽管成功率远低于现代模型，但随着模型规模增大，性能呈现稳定提升趋势，这为理解语言模型的泛化机制提供了独特视角。

历史 AI 局限性的工程化测量

通过这个 “时间倒流” 的实验，我们能够工程化地测量历史 AI 的能力边界。团队评估了模型对 “未来事件” 的预测能力 —— 将《纽约时报》“今日历史” 栏目中近 5000 个历史事件描述输入模型，计算其 “惊讶度”（以每字节比特数衡量）。结果显示，模型对 1950 至 1960 年代事件的惊讶度显著上升，随后趋于平稳。这与模型规模呈何种关系、随着时间 horizon 拉长能力如何衰减，这些问题都需要更大规模的 vintage 模型来回答。

另一个重要维度是数据多样性对模型人格与行为的影响。Talkie 团队指出，现代所有大语言模型无论具体架构如何，都直接或间接地源自同一互联网训练数据。这种 “数据同质化” 可能在根本上塑造了模型的 “价值观” 和 “人格”。通过训练在不同历史语料上的模型，我们可以区分哪些行为是人类语言的通用特性，哪些仅是 Web 数据的产物。

落地参数与实践建议

对于希望进行类似历史语言模型研究的团队，以下是关键参数建议：数据截止日期的过滤应采用多层级策略 —— 文档级分类器过滤明显异常，配合随机抽样的人工审核验证池；OCR 处理流程推荐先使用高精度 VLM 系统初筛，再以规则引擎校正，并用人工抽检控制幻觉率；评估体系应区分 “核心语言能力”（如词义消歧、句法分析、数值推理）与 “知识问答”，后者需按时代相关性加权。

Talkie 团队计划在年内训练 GPT-3 级别（175B 参数左右）的 vintage 模型，并扩展语种至英语以外。如果成功，我们将首次看到一个 “1930 年代版 ChatGPT” 的能力轮廓 —— 那将是对当代 AI 最为深刻的一场逆向实验。

资料来源：本文主要信息来自 Talkie 项目官方网站（talkie-lm.com）及其发布的技术报告。

ai-systems