历史文本分词策略与词汇表工程：从TimeCapsuleLLM看跨时代语义对齐

在构建面向历史文本的语言模型时，分词策略与词汇表工程是决定模型能否准确捕捉时代语言特征的关键环节。TimeCapsuleLLM 项目展示了这一挑战的复杂性：在 v2mini-eval1 版本中，模型输出出现了明显的字符级分割错误，如 "W ho is Charles D ic ens"，这直接反映了历史文本分词的特殊性。本文将从工程实现角度，探讨历史文本分词的核心问题与解决方案。

一、历史文本分词的核心挑战

历史文本与现代文本在语言特征上存在显著差异，这给分词器设计带来了独特挑战：

词汇形态变化：古英语、中古英语到现代英语的词汇形态经历了巨大变化。例如，莎士比亚时代的 "thou"、"thee" 等代词在现代英语中已基本消失，而 "computers" 这样的现代词汇在 19 世纪文本中根本不存在。
拼写变体与标准化缺失：在印刷标准化之前，同一词汇可能存在多种拼写变体。TimeCapsuleLLM 使用的 1800-1875 年伦敦文本中，"colour" 与 "color"、"theatre" 与 "theater" 等变体共存，需要分词器能够正确处理。
OCR 噪声与数字化误差：历史文本的数字化过程常引入 OCR 错误，如 "f" 被识别为 "ſ"（长 s），数字 "1" 被识别为字母 "l" 等。TimeCapsuleLLM 文档中提到 "OCR noise（'Digitized by Google'）still present in outputs"，这直接影响分词质量。
语义漂移问题：同一词汇在不同时代可能承载不同含义。例如，"gay" 在 19 世纪主要表示 "欢乐的"，而在现代英语中含义已发生显著变化。

二、历史词汇表构建策略

2.1 多时代语料库融合

构建历史词汇表不能简单套用现代分词器，而需要设计专门的多时代语料库融合策略：

# 伪代码示例：多时代语料库权重分配
def build_historical_vocab(corpora_dict, time_weights):
    """
    corpora_dict: {era: [text1, text2, ...]}
    time_weights: {era: weight}  # 根据时代重要性分配权重
    """
    token_counts = defaultdict(int)
    
    for era, texts in corpora_dict.items():
        weight = time_weights.get(era, 1.0)
        for text in texts:
            # 预处理：处理OCR错误、标准化变体
            cleaned_text = preprocess_historical_text(text)
            tokens = preliminary_tokenize(cleaned_text)
            
            # 加权计数，避免近代语料主导
            for token in tokens:
                token_counts[token] += weight
    
    # 基于加权频率构建词汇表
    vocab = select_top_tokens(token_counts, vocab_size=50000)
    return vocab

2.2 时代特定子词汇表设计

对于跨时代模型，建议采用分层词汇表结构：

核心共享词汇：跨时代通用的高频词汇（约 20,000 词）
时代特定词汇：每个时代独有的词汇（各约 5,000-10,000 词）
稀有词保留池：低频但重要的历史术语

这种结构允许模型在不同时代间共享大部分参数，同时保留时代特异性。TimeCapsuleLLM 的 v2 版本使用 90GB 的 1800-1875 年伦敦文本，但未明确说明词汇表的分层设计，这可能是导致分词问题的原因之一。

三、稀有古词嵌入优化技术

历史文本中的稀有词（hapax legomena）是分词和嵌入学习的主要难点。这些词在语料中出现频率极低，但往往承载重要历史信息。

3.1 频率加权嵌入初始化

传统嵌入初始化对稀有词不利，我们可以采用频率感知的初始化策略：

def frequency_weighted_embedding_init(vocab, embedding_dim=768):
    """
    根据词频调整嵌入初始化范围
    高频词：小范围初始化（如±0.01）
    稀有词：大范围初始化（如±0.1），增加探索空间
    """
    embeddings = {}
    
    for word, freq in vocab.items():
        if freq > 1000:  # 高频词
            scale = 0.01
        elif freq > 100:  # 中频词
            scale = 0.03
        elif freq > 10:   # 低频词
            scale = 0.06
        else:             # 稀有词
            scale = 0.1
        
        # 使用缩放的正态分布初始化
        embeddings[word] = np.random.normal(0, scale, embedding_dim)
    
    return embeddings

3.2 上下文增强训练

对于稀有词，我们可以通过上下文增强技术增加其训练样本：

同义词替换：使用历史同义词词典，为稀有词生成变体
上下文窗口扩展：在训练时临时扩大稀有词的上下文窗口
对抗性训练：故意在稀有词周围添加噪声，增强鲁棒性

四、跨时代语义漂移处理

语义漂移是历史文本处理中最微妙也最重要的问题。同一词汇在不同时代可能有完全不同的含义和情感色彩。

4.1 语义锚点识别与对齐

我们可以通过以下方法建立跨时代语义对齐：

class SemanticAnchorAlignment:
    def __init__(self, era_corpora):
        self.era_corpora = era_corpora
        self.anchors = self._identify_semantic_anchors()
    
    def _identify_semantic_anchors(self):
        """
        识别跨时代语义稳定的锚点词
        标准：1) 所有时代都存在 2) 频率适中 3) 上下文分布稳定
        """
        anchors = []
        
        # 计算每个词的跨时代上下文相似度
        for word in common_vocab:
            era_embeddings = []
            for era, corpus in self.era_corpora.items():
                # 从该时代语料学习词嵌入
                era_embed = self._learn_era_specific_embedding(word, corpus)
                era_embeddings.append(era_embed)
            
            # 计算跨时代嵌入相似度
            similarity_score = self._cross_era_similarity(era_embeddings)
            
            if similarity_score > 0.8:  # 高相似度阈值
                anchors.append(word)
        
        return anchors
    
    def align_embeddings(self, word, target_era):
        """
        使用锚点词对齐目标词的跨时代嵌入
        """
        if word in self.anchors:
            return self._get_anchor_embedding(word, target_era)
        else:
            # 通过锚点词进行语义插值
            return self._interpolate_via_anchors(word, target_era)

4.2 对齐损失函数设计

在模型训练中，我们可以引入专门的对齐损失函数：

$$ \mathcal{L}{\text{align}} = \lambda_1 \mathcal{L}{\text{era}} + \lambda_2 \mathcal{L}_{\text{cross-era}} $$

其中：

$\mathcal {L}_{\text {era}}$：时代内语言建模损失
$\mathcal {L}_{\text {cross-era}}$：跨时代语义对齐损失，通过锚点词约束

具体实现中，$\mathcal {L}_{\text {cross-era}}$ 可以设计为：

def cross_era_alignment_loss(model, anchor_words, era_pairs):
    """
    计算锚点词在不同时代间的嵌入对齐损失
    """
    total_loss = 0
    
    for word in anchor_words:
        for era1, era2 in era_pairs:
            # 获取词在不同时代的嵌入
            embed1 = model.get_word_embedding(word, era=era1)
            embed2 = model.get_word_embedding(word, era=era2)
            
            # 计算余弦相似度损失
            similarity = cosine_similarity(embed1, embed2)
            loss = 1 - similarity  # 最大化相似度
            
            total_loss += loss
    
    return total_loss / (len(anchor_words) * len(era_pairs))

五、工程实践建议与参数配置

基于 TimeCapsuleLLM 的经验教训，我们提出以下工程实践建议：

5.1 分词器训练参数

tokenizer_training:
  vocab_size: 50000  # 历史文本建议稍大的词汇表
  min_frequency: 3   # 降低最低频率阈值，保留更多历史词汇
  special_tokens: ["[UNK]", "[PAD]", "[CLS]", "[SEP]", "[MASK]"]
  era_specific_tokens: true  # 为每个时代添加特殊标记
  
  # BPE参数调整
  bpe:
    num_merges: 30000
    dropout: 0.1  # 增加dropout应对OCR噪声
    unk_token: "[UNK]"

5.2 嵌入层配置

embedding_config:
  dimension: 768
  padding_idx: 1
  max_norm: 5.0  # 梯度裁剪，防止稀有词嵌入爆炸
  
  # 频率感知初始化
  init_strategy: "frequency_weighted"
  freq_thresholds: [10, 100, 1000]
  init_scales: [0.1, 0.06, 0.03, 0.01]
  
  # 稀有词特殊处理
  rare_word_handling:
    min_freq: 5
    context_window_expansion: 2  # 扩大上下文窗口
    adversarial_training: true

5.3 训练监控指标

除了常规的困惑度（perplexity）指标外，历史文本模型需要额外监控：

时代一致性分数：锚点词跨时代嵌入相似度
稀有词覆盖度：低频历史术语的生成质量
语义漂移检测：关键历史词汇的语义变化监控
OCR 噪声鲁棒性：对常见 OCR 错误的容忍度

六、总结与展望

历史文本分词与词汇表工程是一个多层次的系统工程问题。TimeCapsuleLLM 项目展示了从简单尝试到逐步完善的演进过程，其 v2 版本的分词问题提醒我们：历史文本处理需要专门的设计思路。

未来研究方向包括：

动态词汇表适应：根据输入文本的时代特征动态调整分词策略
多语言历史文本处理：扩展到英语之外的历史语言
语义演化建模：显式建模词汇语义随时间的变化过程
评估基准建设：建立标准化的历史文本处理评估数据集

历史文本语言模型不仅是对过去语言的还原，更是理解文化演变、思想传承的重要工具。通过精细的分词策略和词汇表工程，我们能够更准确地捕捉历史的语言脉搏，让 AI 真正理解并表达不同时代的独特声音。

资料来源：

TimeCapsuleLLM GitHub 仓库：https://github.com/haykgrigo3/TimeCapsuleLLM
项目文档中提到的分词器构建流程与实际问题分析